वाक्य विभाजन के लिए सबसे सटीक ओपन-सोर्स टूल क्या है?

मुझे पाठ को वाक्यों में विभाजित करने की आवश्यकता है। मैं वर्तमान में ओपनएनएलपी के वाक्य डिटेक्टर उपकरण के साथ खेल रहा हूं। मैंने एनएलटीके और स्टैनफोर्ड कोरएनएलपी उपकरणों के बारे में भी सुना है। वहाँ सबसे सटीक अंग्रेजी वाक्य पहचान उपकरण क्या है? मुझे बहुत सी एनएलपी सुविधाओं की आवश्यकता नहीं है - वाक्य विभाजन/पहचान के लिए केवल एक अच्छा उपकरण है।वाक्य विभाजन के लिए सबसे सटीक ओपन-सोर्स टूल क्या है?

मैंने लुसीन के बारे में भी सुना है ... लेकिन यह बहुत अधिक हो सकता है। लेकिन अगर इसमें किक-गधे वाक्य पहचान मॉड्यूल है, तो मैं इसका उपयोग करूंगा।

स्रोत

2011-03-14 samxli

पर्ल के लिए, [लिंगुआ :: एन :: वाक्य] (http://search.cpan.org/~shlomoy/Lingua-EN-Sentence-0.25/lib/Lingua/EN/Sentence.pm)? – Konerak

जांच lingpipe कार्यान्वयन http://alias-i.com/lingpipe/docs/api/com/aliasi/sentences/IndoEuropeanSentenceModel.html

उनके मॉडल काफी शक्तिशाली है, और लागू करने में आसान - किसी भी संभव वाक्य विभाजन पर कुछ पूर्व/पोस्ट नियम (उर्फ regexps) की जाँच करें और सभी thats। मैंने पाया कि यह गेट और ओपनएनएलपी में बेहतर काम कर रहा है।

एक और ओपन सोर्स प्रोजेक्ट जो उदाहरण के रूप में इस अनुमानी मॉडल का समर्थन है, http://code.google.com/p/graph-expression/wiki/SentenceSplitting

स्रोत

2011-03-14 20:39:28 yura

उनका लाइसेंस शुल्क काफी भारी है, और यदि मैं रॉयल्टी मुक्त लाइसेंस का उपयोग करता हूं तो उन्हें आवश्यकता होती है: "संसाधित डेटा स्वतंत्र रूप से उपलब्ध होना चाहिए"। – samxli

फिर आप मेरी परियोजना ग्राफ-अभिव्यक्ति की जांच कर सकते हैं जो वर्तमान में जीपीएल है, लेकिन अगर मैं अन्य प्रतिबद्धताओं को मिला तो मैं एलजीपीएल में बदलने के बारे में सोच रहा हूं। – yura

मैंने अभी अपनी परियोजना की जांच की है। कल इसका परीक्षण करेंगे :)। मैंने आज एनएलटीके और सीएनएएन पर लिंगुआ :: एन :: वाक्य पर एक नज़र डाली। एनएलटीके ठीक था, इसमें कुछ त्रुटियां थीं। लिंगुआ :: एन को आदेशित सूचियों को एक खंड के रूप में पहचानने में कठिन समय था। यह अतिरिक्त संक्षेप परिभाषाओं की अनुमति देता है लेकिन "1.", "2.", आदि को पहचान नहीं सका। – samxli

-4

पर्ल एक पाठ प्रसंस्करण भाषा पाठ खनन के लिए एक उत्कृष्ट और सरल संसाधन है वह यह है कि कर रहे हैं। वाक्य विभाजन करने में बिल्कुल कोई समस्या नहीं है।

www.perl.org

स्रोत

2011-03-15 02:37:22

क्या पर्ल के लिए कुछ वाक्य विभाजन मॉडल उपलब्ध हैं? विभिन्न डोमेन के लिए, वाक्यों को अलग-अलग परिभाषित किया जा सकता है। इसके अलावा, इसे अवधि के बाद संक्षेप और डबल स्पेसिंग को संभालने में सक्षम होना चाहिए। – samxli

पर्ल एक टेक्स्ट प्रोसेसिंग, पैटर्न मिलान भाषा है। संक्षेप और अंतरण मुद्दों को संभाला जा सकता है। –

यह उत्तर उन लोगों की गुणवत्ता का नहीं है जो एनएलटीके, लिंगपाइप, या अन्य विशिष्ट एनएलपी उपकरण का उल्लेख करते हैं। वाक्य विभाजन केवल रेगेक्स मिलान से कठिन है - मैं पहिया को पुनर्निर्मित करने की अनुशंसा नहीं करता हूं। –

NLTK पंक्ट tokenizer this paper में वर्णित के एक कार्यान्वयन भी शामिल है। मुझे नहीं पता कि यह बिल्कुल सही है या नहीं, लेकिन यह बहुत अच्छा है, यह हल्का और उपयोग करने में आसान है, और यह मुफ़्त है।

स्रोत

2011-03-15 04:20:50 rmalouf

वाक्य विभाजन के लिए सबसे सटीक ओपन-सोर्स टूल क्या है?

उत्तर

संबंधित मुद्दे