2012-01-01 12 views
16

मुझे लगता है कि मुझे हर समय नई चीजें सीखनी पड़ती है। मैं उन तरीकों के बारे में सोचने की कोशिश कर रहा हूं जो मैं नए विषयों को सीखने की प्रक्रिया को तेज कर सकता हूं। मैंने सोचा कि यह साफ हो सकता है अगर मैं एक विकिपीडिया लेख को पार्स करने के लिए एक प्रोग्राम लिख सकता हूं और सबसे मूल्यवान जानकारी के अलावा सब कुछ हटा सकता हूं।विकिपीडिया का सारांश लेख

मैंने विकिपीडिया लेख PDFs पर ले कर शुरू किया और पहले 100 वाक्यों को निकाला। मैंने प्रत्येक वाक्य को एक स्कोर दिया जिस पर मैंने सोचा कि यह कितना मूल्यवान था।

<sentence> 
<value> 
<sentence> 
<value> 
etc. 

मैं फिर इस फ़ाइल को पार्स और विभिन्न कार्यों है कि मूल्य मैं इसे दिया था साथ प्रत्येक वाक्य सहसंबंधी हैं खोजने के लिए प्रयास किया: मैं इस प्रारूप के बाद एक फ़ाइल बना दी। मैंने बस मशीन सीखने और आंकड़ों और क्या नहीं के बारे में सीखना शुरू कर दिया है, इसलिए मैं यहां चारों ओर झुकाव कर रहा हूं। यह मेरा नवीनतम प्रयास है: https://github.com/JesseAldridge/Wikipedia-Summarizer/blob/master/plot_sentences.py

मैंने सामानों का एक गुच्छा करने की कोशिश की जो औसत शब्द की लंबाई, लेख में स्थिति आदि पर किसी भी सहसंबंध का उत्पादन नहीं कर रहा था। बहुत ही एकमात्र चीज जिसने किसी भी तरह के उपयोगी रिश्ते का उत्पादन किया था स्ट्रिंग की लंबाई (अधिक विशेष रूप से, लोअरकेस अक्षर 'ई की संख्या की गणना करना सबसे अच्छा काम करना प्रतीत होता है)। लेकिन ऐसा लगता है कि लंगड़ा लगता है, क्योंकि ऐसा लगता है कि लंबे वाक्य में उपयोगी जानकारी होने की संभावना अधिक होगी।

एक बिंदु पर मैंने सोचा कि मुझे कुछ रोचक कार्य मिल गए हैं, लेकिन फिर जब मैंने आउटलायर को हटाने की कोशिश की (केवल आंतरिक क्वार्टाइलों की गणना करके), वे खराब परिणामों का उत्पादन करने के लिए बाहर निकले और फिर प्रत्येक वाक्य के लिए 0 लौट आए। इससे मुझे आश्चर्य हुआ कि मैं कितनी अन्य चीजें गलत कर रहा हूं ... मैं यह भी सोच रहा हूं कि यह इस समस्या के करीब आने का एक अच्छा तरीका है।

क्या आपको लगता है कि मैं सही रास्ते पर हूं? या यह सिर्फ एक मूर्ख की भूल है? क्या लिंक किए गए कोड में कोई चमकदार कमी है? क्या किसी को विकिपीडिया लेख को सारांशित करने की समस्या से संपर्क करने के बेहतर तरीके से पता है? मैं कुछ सही से एक त्वरित और गंदे समाधान की बजाय एक साथ रखने के लिए एक लंबा समय लेता हूं। किसी भी सामान्य सलाह का भी स्वागत किया जाएगा।

+0

अगला, आप चाहते हैं कि स्कैन किए गए आलेख को भी कम करने के लिए आप न्यूज़पीक का उपयोग करें;) – tylerthemiler

+4

आप स्पष्ट रूप से बहुत पुराने हैं। इस तरह की चीज 16 साल की उम्र में छोड़ दें http://www.wired.com/gadgetlab/2011/12/summly-app-summarization/ – ColinE

+0

:) सारांश अच्छा लगता है। मैं इसे अपने आईपॉड पर नहीं चला सकता, लेकिन मैं समीक्षा पढ़ सकता हूं। वे बहुत मिश्रित थे। मुझे लगता है कि यह अच्छी तरह से काम नहीं करता है। –

उत्तर

13

यह देखते हुए कि आपका प्रश्न प्रोग्रामिंग समस्या की तुलना में एक शोध गतिविधि से अधिक संबंधित है, आपको शायद वैज्ञानिक साहित्य को देखना चाहिए। यहां आपको कई एल्गोरिदम के प्रकाशित विवरण मिलेगा जो आप जो चाहते हैं उसे निष्पादित करते हैं। "कीवर्ड संक्षिप्तीकरण" लिए एक Google खोज पाता है निम्नलिखित:

Single document Summarization based on Clustering Coefficient and Transitivity Analysis

Multi-document Summarization for Query Answering E-learning System

Intelligent Email: Aiding Users with AI

आप उपरोक्त पढ़ लिया है, तो संदर्भ उनमें शामिल का पालन करें, आप एक पूरे धन मिलेगा जानकारी की। एक कार्यात्मक आवेदन बनाने के लिए निश्चित रूप से पर्याप्त है।

+2

ठीक है, इसलिए मुझे सिंटैक्टिक निर्भरता संबंध विश्लेषण के आधार पर एक निर्भरता ग्राफ को चाबुक करना होगा और नोड कनेक्शन को मापने के लिए क्लस्टरिंग गुणांक का उपयोग करना होगा। फिर यह नोड त्रिभुजों को खींचने और कुंजी वाक्यों को निकालने के लिए उनका उपयोग करने का एक साधारण मामला है। एफएफएस ... जल्दी और गंदे के लिए बहुत कुछ। गंभीरता से हालांकि, कागजात के लिए धन्यवाद। यह संभवतः सबसे अच्छी जानकारी है जिसे मैं प्राप्त करने में सक्षम हूं। –

+4

अरे ... आपने अभी उस पेपर के लिए कीवर्ड को सफलतापूर्वक सारांशित किया है। शायद यह एक यांत्रिक टर्क के लिए एक नौकरी है! – ColinE

1

बस मेरे दो सेंट ...

जब भी मैं विकिपीडिया पर एक नया विषय ब्राउज़ कर रहा हूँ, मैं आमतौर पर एक "चौड़ाई-पहले" खोज करते हैं; जब तक मैंने स्कैन नहीं किया है, तब तक मैं एक और विषय पर जाने से इनकार करता हूं कि प्रत्येक लिंक है जो पृष्ठ से जुड़ता है (जो एक विषय प्रस्तुत करता है जिसे मैं पहले से परिचित नहीं हूं)। मैंने प्रत्येक अनुच्छेद की पहली वाक्य पढ़ी है, और यदि मैं उस आलेख में कुछ देखता हूं जो मूल विषय से संबंधित प्रतीत होता है, तो मैं प्रक्रिया को दोहराता हूं।

अगर मैं एक विकिपीडिया "summarizer" के लिए इंटरफेस डिजाइन करने के लिए थे, मैं

  1. हमेशा पूरे परिचयात्मक पैरा मुद्रित होगा।

  2. शेष लेख के लिए, इसमें कोई भी लिंक प्रिंट करें जिसमें कोई लिंक है।

    2 ए। बुलेट की गई सूची के रूप में लिंक की किसी भी अल्पविराम से अलग सूचियों को मुद्रित करें।

  3. यदि लेख का लिंक "विस्तारित" है, तो उस आलेख के पहले पैराग्राफ को प्रिंट करें।

  4. यदि प्रारंभिक अनुच्छेद विस्तारित किया गया है, तो लिंक के साथ वाक्यों की सूची दोहराएं।

यह प्रक्रिया अनिश्चित काल तक दोहरा सकती है।

मैं जो कह रहा हूं वह है कि विकिपीडिया लेखों का संक्षेप करना एक पत्रिका से किसी लेख को सारांशित करने या ब्लॉग पर पोस्ट करने जैसा नहीं है। क्रॉलिंग का कार्य विकिपीडिया के माध्यम से जल्दी से प्रारंभिक अवधारणाओं को सीखने का एक महत्वपूर्ण हिस्सा है, और मुझे लगता है कि यह सर्वोत्तम है। आम तौर पर, लेखों का निचला आधा वह स्थान है जहां citation needed टैग पॉप-अप शुरू हो जाते हैं, लेकिन किसी भी दिए गए लेख के पहले भाग को समुदाय द्वारा ज्ञान माना जाता है।

संबंधित मुद्दे