मुझे लगता है कि मुझे हर समय नई चीजें सीखनी पड़ती है। मैं उन तरीकों के बारे में सोचने की कोशिश कर रहा हूं जो मैं नए विषयों को सीखने की प्रक्रिया को तेज कर सकता हूं। मैंने सोचा कि यह साफ हो सकता है अगर मैं एक विकिपीडिया लेख को पार्स करने के लिए एक प्रोग्राम लिख सकता हूं और सबसे मूल्यवान जानकारी के अलावा सब कुछ हटा सकता हूं।विकिपीडिया का सारांश लेख
मैंने विकिपीडिया लेख PDFs पर ले कर शुरू किया और पहले 100 वाक्यों को निकाला। मैंने प्रत्येक वाक्य को एक स्कोर दिया जिस पर मैंने सोचा कि यह कितना मूल्यवान था।
<sentence>
<value>
<sentence>
<value>
etc.
मैं फिर इस फ़ाइल को पार्स और विभिन्न कार्यों है कि मूल्य मैं इसे दिया था साथ प्रत्येक वाक्य सहसंबंधी हैं खोजने के लिए प्रयास किया: मैं इस प्रारूप के बाद एक फ़ाइल बना दी। मैंने बस मशीन सीखने और आंकड़ों और क्या नहीं के बारे में सीखना शुरू कर दिया है, इसलिए मैं यहां चारों ओर झुकाव कर रहा हूं। यह मेरा नवीनतम प्रयास है: https://github.com/JesseAldridge/Wikipedia-Summarizer/blob/master/plot_sentences.py।
मैंने सामानों का एक गुच्छा करने की कोशिश की जो औसत शब्द की लंबाई, लेख में स्थिति आदि पर किसी भी सहसंबंध का उत्पादन नहीं कर रहा था। बहुत ही एकमात्र चीज जिसने किसी भी तरह के उपयोगी रिश्ते का उत्पादन किया था स्ट्रिंग की लंबाई (अधिक विशेष रूप से, लोअरकेस अक्षर 'ई की संख्या की गणना करना सबसे अच्छा काम करना प्रतीत होता है)। लेकिन ऐसा लगता है कि लंगड़ा लगता है, क्योंकि ऐसा लगता है कि लंबे वाक्य में उपयोगी जानकारी होने की संभावना अधिक होगी।
एक बिंदु पर मैंने सोचा कि मुझे कुछ रोचक कार्य मिल गए हैं, लेकिन फिर जब मैंने आउटलायर को हटाने की कोशिश की (केवल आंतरिक क्वार्टाइलों की गणना करके), वे खराब परिणामों का उत्पादन करने के लिए बाहर निकले और फिर प्रत्येक वाक्य के लिए 0 लौट आए। इससे मुझे आश्चर्य हुआ कि मैं कितनी अन्य चीजें गलत कर रहा हूं ... मैं यह भी सोच रहा हूं कि यह इस समस्या के करीब आने का एक अच्छा तरीका है।
क्या आपको लगता है कि मैं सही रास्ते पर हूं? या यह सिर्फ एक मूर्ख की भूल है? क्या लिंक किए गए कोड में कोई चमकदार कमी है? क्या किसी को विकिपीडिया लेख को सारांशित करने की समस्या से संपर्क करने के बेहतर तरीके से पता है? मैं कुछ सही से एक त्वरित और गंदे समाधान की बजाय एक साथ रखने के लिए एक लंबा समय लेता हूं। किसी भी सामान्य सलाह का भी स्वागत किया जाएगा।
अगला, आप चाहते हैं कि स्कैन किए गए आलेख को भी कम करने के लिए आप न्यूज़पीक का उपयोग करें;) – tylerthemiler
आप स्पष्ट रूप से बहुत पुराने हैं। इस तरह की चीज 16 साल की उम्र में छोड़ दें http://www.wired.com/gadgetlab/2011/12/summly-app-summarization/ – ColinE
:) सारांश अच्छा लगता है। मैं इसे अपने आईपॉड पर नहीं चला सकता, लेकिन मैं समीक्षा पढ़ सकता हूं। वे बहुत मिश्रित थे। मुझे लगता है कि यह अच्छी तरह से काम नहीं करता है। –