2011-03-14 5 views
8

मुझे पाठ को वाक्यों में विभाजित करने की आवश्यकता है। मैं वर्तमान में ओपनएनएलपी के वाक्य डिटेक्टर उपकरण के साथ खेल रहा हूं। मैंने एनएलटीके और स्टैनफोर्ड कोरएनएलपी उपकरणों के बारे में भी सुना है। वहाँ सबसे सटीक अंग्रेजी वाक्य पहचान उपकरण क्या है? मुझे बहुत सी एनएलपी सुविधाओं की आवश्यकता नहीं है - वाक्य विभाजन/पहचान के लिए केवल एक अच्छा उपकरण है।वाक्य विभाजन के लिए सबसे सटीक ओपन-सोर्स टूल क्या है?

मैंने लुसीन के बारे में भी सुना है ... लेकिन यह बहुत अधिक हो सकता है। लेकिन अगर इसमें किक-गधे वाक्य पहचान मॉड्यूल है, तो मैं इसका उपयोग करूंगा।

+1

पर्ल के लिए, [लिंगुआ :: एन :: वाक्य] (http://search.cpan.org/~shlomoy/Lingua-EN-Sentence-0.25/lib/Lingua/EN/Sentence.pm)? – Konerak

उत्तर

1

जांच lingpipe कार्यान्वयन http://alias-i.com/lingpipe/docs/api/com/aliasi/sentences/IndoEuropeanSentenceModel.html

उनके मॉडल काफी शक्तिशाली है, और लागू करने में आसान - किसी भी संभव वाक्य विभाजन पर कुछ पूर्व/पोस्ट नियम (उर्फ regexps) की जाँच करें और सभी thats। मैंने पाया कि यह गेट और ओपनएनएलपी में बेहतर काम कर रहा है।

एक और ओपन सोर्स प्रोजेक्ट जो उदाहरण के रूप में इस अनुमानी मॉडल का समर्थन है, http://code.google.com/p/graph-expression/wiki/SentenceSplitting

+0

उनका लाइसेंस शुल्क काफी भारी है, और यदि मैं रॉयल्टी मुक्त लाइसेंस का उपयोग करता हूं तो उन्हें आवश्यकता होती है: "संसाधित डेटा स्वतंत्र रूप से उपलब्ध होना चाहिए"। – samxli

+0

फिर आप मेरी परियोजना ग्राफ-अभिव्यक्ति की जांच कर सकते हैं जो वर्तमान में जीपीएल है, लेकिन अगर मैं अन्य प्रतिबद्धताओं को मिला तो मैं एलजीपीएल में बदलने के बारे में सोच रहा हूं। – yura

+0

मैंने अभी अपनी परियोजना की जांच की है। कल इसका परीक्षण करेंगे :)। मैंने आज एनएलटीके और सीएनएएन पर लिंगुआ :: एन :: वाक्य पर एक नज़र डाली। एनएलटीके ठीक था, इसमें कुछ त्रुटियां थीं। लिंगुआ :: एन को आदेशित सूचियों को एक खंड के रूप में पहचानने में कठिन समय था। यह अतिरिक्त संक्षेप परिभाषाओं की अनुमति देता है लेकिन "1.", "2.", आदि को पहचान नहीं सका। – samxli

-4

पर्ल एक पाठ प्रसंस्करण भाषा पाठ खनन के लिए एक उत्कृष्ट और सरल संसाधन है वह यह है कि कर रहे हैं। वाक्य विभाजन करने में बिल्कुल कोई समस्या नहीं है।

www.perl.org

+1

क्या पर्ल के लिए कुछ वाक्य विभाजन मॉडल उपलब्ध हैं? विभिन्न डोमेन के लिए, वाक्यों को अलग-अलग परिभाषित किया जा सकता है। इसके अलावा, इसे अवधि के बाद संक्षेप और डबल स्पेसिंग को संभालने में सक्षम होना चाहिए। – samxli

+0

पर्ल एक टेक्स्ट प्रोसेसिंग, पैटर्न मिलान भाषा है। संक्षेप और अंतरण मुद्दों को संभाला जा सकता है। –

+0

यह उत्तर उन लोगों की गुणवत्ता का नहीं है जो एनएलटीके, लिंगपाइप, या अन्य विशिष्ट एनएलपी उपकरण का उल्लेख करते हैं। वाक्य विभाजन केवल रेगेक्स मिलान से कठिन है - मैं पहिया को पुनर्निर्मित करने की अनुशंसा नहीं करता हूं। –

2

NLTK पंक्ट tokenizer this paper में वर्णित के एक कार्यान्वयन भी शामिल है। मुझे नहीं पता कि यह बिल्कुल सही है या नहीं, लेकिन यह बहुत अच्छा है, यह हल्का और उपयोग करने में आसान है, और यह मुफ़्त है।

संबंधित मुद्दे