2011-06-26 10 views
8

मैं वर्तमान में इस फार्म के वाक्य को समझने के लिए कोशिश कर रहा हूँ:वाक्य से 'उपयोगी' जानकारी निकालने?

The problem was more with the set-top box than the television. Restarting the set-top box solved the problem.

मैं पूरी तरह प्राकृतिक भाषा संसाधन के लिए नया हूँ और पायथन के NLTK पैकेज का उपयोग अपने हाथ गंदे पाने के लिए शुरू कर दिया। हालांकि, मैं सोच रहा हूं कि कोई मुझे इसे प्राप्त करने में शामिल उच्चस्तरीय चरणों का एक अवलोकन दे सकता है।

मैं यह करने की कोशिश कर रहा हूं कि इस मामले में समस्या क्या थी, set-top box और क्या इस समस्या को हल करने वाली कार्रवाई को हल किया गया था, yes क्योंकि समस्या को हल करने को पुनरारंभ करना। तो अगर सभी वाक्य इस फार्म के थे, अपनी ज़िंदगी को आसान हो गया होता लेकिन क्योंकि यह प्राकृतिक भाषा है, वाक्य भी निम्नलिखित फार्म के हो सकता है:

I took a look at the car and found nothing wrong with it. However, I suspect there is something wrong with the engine

इस मामले में

तो, समस्या यह थी car के साथ। suspect शब्द की उपस्थिति के कारण की गई कार्रवाई ने समस्या का समाधान नहीं किया। और संभावित समस्या engine के साथ हो सकती है।

मुझे एक पूर्ण उत्तर की तलाश नहीं है क्योंकि मुझे संदेह है कि यह बहुत जटिल है। जो मैं खोज रहा हूं वह एक उच्च स्तरीय अवलोकन है जो मुझे सही दिशा में इंगित करेगा। यदि ऐसा करने के लिए एक आसान/वैकल्पिक तरीका है, तो इसका भी स्वागत है।

+7

एनएलपी/एनएलटीके के साथ कुछ अनुभव होने के कारण, मुझे लगता है कि यह समस्या दृढ़ता से "एक तीर की तरह उड़ती है, फल केले की तरह उड़ता है" अर्थपूर्ण विश्लेषण चूहा-छेद। इस छोटे से conundrum के पास अभी तक कोई सामान्य समाधान है कि मुझे पता है। – msw

+0

@msw: ओह ... :) अच्छा है! मैं एक सामान्य समाधान तैयार नहीं कर रहा हूं। यह एक बहुत ही डोमेन-विशिष्ट समाधान होगा। मैं समझने की कोशिश कर रहा हूं कि कोई ऐसी समस्याओं से कैसे संपर्क करेगा (यानी।किस डोमेन ज्ञान की आवश्यकता है, किस डेटाबेस को संकलित करने की आवश्यकता है, वर्गीकरण को किस पर प्रशिक्षित किया जाना चाहिए आदि) – Legend

+0

नमूना वाक्यांश एक पुराना एनएलपी चेस्टनट है, जो आपके लक्ष्य के करीब होने की व्यर्थता को दर्शाता है। अपने उदाहरण के बाद, "इंजन" को "स्टीरियो" से प्रतिस्थापित करें और मुझे बताएं कि आप कैसे - अपने सभी व्यक्तिगत एनएलपी कौशल के साथ - आपके नमूना (एक बुरी बात) और मेरे संशोधन (एक देखभाल नहीं कर सकते) को असंबद्ध कर सकते हैं। – msw

उत्तर

3

शायद, अगर वाक्य अच्छी तरह से गठित हैं, तो मैं dependency parsing (http://nltk.googlecode.com/svn/trunk/doc/api/nltk.parse.malt.MaltParser-class.html# के साथ प्रयोग करेगा) raw_parse)। यह आपको वाक्य के घटकों का एक ग्राफ देता है और आप शब्दावली वस्तुओं के बीच संबंध बता सकते हैं। बाद में, आप एक निर्भरता पार्सर (http://nltk.googlecode.com/svn/trunk/doc/book/ch08.html#code-cfg2) के आउटपुट से वाक्यांश निकाल सकते हैं जो आपको प्रत्यक्ष वस्तु को निकालने में मदद कर सकता है एक वाक्य, या वाक्य में क्रिया वाक्यांश।

यदि आप सिर्फ वाक्य से वाक्यांश या "भाग" प्राप्त करना चाहते हैं, तो आप खंड पर्सर (http://nltk.googlecode.com/svn/trunk/doc/api/nltk.chunk-module.html)। आप नामित इकाई पहचान भी ले सकते हैं (http://streamhacker.com/2009/02/23/chunk-extraction-with-nltk/)। इसका उपयोग आमतौर पर स्थानों, संगठनों या लोगों के नामों के उदाहरण निकालने के लिए किया जाता है लेकिन यह आपके मामले में भी काम कर सकता है।

मान लें कि आप वाक्य से संज्ञा/क्रिया वाक्यांशों को निकालने की समस्या को हल करते हैं, तो आपको अपने डोमेन विशेषज्ञ के काम को कम करने के लिए उन्हें फ़िल्टर करने की आवश्यकता हो सकती है (बहुत से वाक्यांश न्यायाधीश को जबरदस्त कर सकते हैं)। आप अपने वाक्यांशों पर एक आवृत्ति विश्लेषण कर सकते हैं, अक्सर उन डोमेन को हटा सकते हैं जो आमतौर पर समस्या डोमेन से संबंधित नहीं होते हैं, या एक सफेद सूची संकलित करते हैं और वाक्यांशों को पूर्व निर्धारित परिभाषित सेट इत्यादि रखते हैं।

4

वास्तव में सबसे अच्छा आप उम्मीद कर सकते हैं कि Naive Bayesian Classifier पर्याप्त रूप से बड़े (शायद आपके पास से अधिक) प्रशिक्षण सेट है और झूठी दृढ़ संकल्पों की उचित दर को सहन करने के इच्छुक हैं।

एनएलपी के पवित्र अंगूर की तलाश करना आपको कुछ हद तक असंतुष्ट छोड़ने के लिए बाध्य है।

+0

"एक बेवकूफ बेयसियन क्लासिफायरफायर" के रूप में एक ही वाक्य में "सबसे अच्छा आप उम्मीद कर सकते हैं" आपको -1 प्राप्त करता है। सूचना निष्कर्षण के लिए ** ** ** ** ** ** ** ** ** अधिक ** मजबूत मशीन सीखने के मॉडल हैं। मुझे संदेह है कि इस कॉम्प्लेक्स को हल करने के लिए बेवकूफ सीखने वाले अहंकार जैसे कमजोर सीखने के अहंकार को पाने की कोशिश करने से रेगेक्सप्स का एक सेट लिखना आसान होगा। –

संबंधित मुद्दे