2010-03-05 13 views
5

मैंने एक परियोजना पर काम करना शुरू कर दिया है जिसके लिए प्राकृतिक भाषा प्रसंस्करण की आवश्यकता है। हमने वर्तनी जांच के साथ-साथ वाक्यांशों और उनके समानार्थी शब्दों में वाक्यों को मैपिंग भी किया है। मैंने पहली बार गेट का उपयोग करने के बारे में सोचा लेकिन मैं क्या उपयोग करना चाहता हूं पर उलझन में हूं? मुझे यहां एक दिलचस्प पोस्ट मिली जिसने मुझे और भी भ्रमित कर दिया।प्राकृतिक भाषा प्रसंस्करण पैकेज

http://lordpimpington.com/codespeaks/drupal-5.1/?q=node/5

कृपया मेरी मदद क्या मेरे सबसे अच्छे उद्देश्य सूट पर फैसला। मैं एक वेब एप्लिकेशन काम कर रहा हूं जो हमें इस एनएलपी उपकरण को सेवा के रूप में करेगा।

+1

एक अर्थ में ऐसी कोई बात नहीं, वहाँ है, 'NLP' के रूप में। यह बेहतर होगा यदि आप वास्तव में उन कार्यों के लिए विशिष्ट होंगे जो आपको करने की ज़रूरत है। – bmargulies

+0

देखें कि मुझे मूलभूत रूप से क्या चाहिए, कोई बुनियादी वास्तुकला/उपकरण है जो मुझे मशीन लर्निंग सिस्टम स्थापित करने में काम करने में मदद करेगा। वाक्य के रूप में आने वाले वाक्य वाक्यांशों के कुछ वाक्यांशों/समानार्थियों के लिए मैप किए जाने की आवश्यकता है जो वाक्य में उपस्थित हो सकते हैं। वाक्य मैप्स की कौन सी भावनाएं मेरे द्वारा स्थापित वाक्यांशों में से हैं। – Arc

+2

http://stackoverflow.com/questions/2061881/natural-language-parsing-tools-what-is-out-here-and-what-is- मेरे लिए डुप्लिकेट की तरह दिखता है। –

उत्तर

6

आप वास्तव में बहुत जानकारी नहीं दी है, लेकिन कोशिश यह: http://www.nltk.org/

मुझे नहीं लगता कि NLTK जाँच (मैं इस पर गलत हो सकता है) वर्तनी करता, लेकिन यह पाठ के लिए टैगिंग भाषण के कुछ हिस्सों कर सकते हैं इनपुट।

को खोजने के लिए/समानार्थी शब्द मिलान क्या आप वास्तव में कुछ डोमेन विशिष्ट कर रहे हैं WordNet http://wordnet.princeton.edu/

की तरह कुछ इस्तेमाल कर सकते हैं: मैं डोमेन विशिष्ट शब्दों के लिए अपने स्वयं के सत्तामीमांसा के साथ आ सिफारिश करेंगे।

+0

ऐसे कई डोमेन हैं जिनके लिए विश्लेषण किया जाना है। इस तरह के मामले में आप क्या सुझाव देंगे। एक बुनियादी सेट अप के लिए मैं क्या उपयोग कर सकता हूं। गेट की तरह कुछ .. यह कितना उपयोगी हो सकता है? – Arc

+0

यह निर्भर करता है कि वे किसी दिए गए ऑन्टोलॉजी (जैसे वर्डनेट) से कितनी बारीकी से मेल खाते हैं। यदि आप अधिकतर शब्दों का उपयोग उसी तरीके से कर रहे हैं जैसे प्री-डिफ़ाइंड ऑटोलॉजी है, तो आपको अपना खुद का रोल करने की आवश्यकता नहीं है। यदि आप अलग-अलग तरीकों से एक ही शब्द का उपयोग कर रहे हैं तो आपको एक नया निर्माण करने की आवश्यकता हो सकती है। यदि आपके पास एकाधिक डोमेन हैं जो विभिन्न तरीकों से शब्दों का उपयोग करते हैं, तो आपको एक से अधिक बनाने की आवश्यकता हो सकती है। – adam

3

यदि आप पाइथन का उपयोग कर रहे हैं तो आप पाइथन एनचेंट के साथ एक वर्तनी परीक्षक विकसित कर सकते हैं। एनएलटीके भावनात्मक विश्लेषण प्रणाली के विकास के लिए भी अच्छा है। मैं एक ही के कुछ प्रोटोटाइप है भी

जग्गू

संबंधित मुद्दे