2009-08-23 12 views
10

मैं आवेदन को लागू करने की कोशिश कर रहा हूं जो इसे छोटे टुकड़ों में विभाजित करके वाक्य का अर्थ निर्धारित कर सकता है। तो मुझे यह जानने की जरूरत है कि कौन से शब्द विषय, ऑब्जेक्ट इत्यादि हैं ताकि मेरा प्रोग्राम यह जान सके कि इस वाक्य को कैसे संभाला जाए।विषय, वस्तु और अन्य शब्दों को कैसे निर्धारित करें?

उत्तर

11

यह एक खुली शोध समस्या है। आप विकिपीडिया, http://en.wikipedia.org/wiki/Natural_language_processing पर एक सिंहावलोकन प्राप्त कर सकते हैं। वाक्यांशों पर विचार करें जैसे "समय एक तीर की तरह उड़ता है, फल केले की तरह उड़ता है" - निःसंदेह वर्गीकृत शब्दों को आसान नहीं है।

+0

+1, मैंने उसी सटीक उद्धरण के साथ एक उत्तर शुरू किया! :) –

2

मुझे लगता है कि ऐसा करने के लिए "सरल" तरीका नहीं है। आपको एक भाषाई विश्लेषक (जो काफी संभव है) बनाना है, हालांकि, एक असाधारण मामलों के रूप में एक भाषा है। और यही वह भाषाई विश्लेषक को कड़ी मेहनत कर रहा है जो कठिन है।

9

आपको Natural Language Toolkit पर देखना चाहिए, जो इस तरह की चीज के लिए है।

मैनुअल के इस खंड देखें: Categorizing and Tagging Words - यहाँ एक उद्धरण है:

>>> text = nltk.word_tokenize("And now for something completely different") 
>>> nltk.pos_tag(text) 
[('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'), 
('completely', 'RB'), ('different', 'JJ')] 

"यहाँ हम देखते हैं कि और सीसी, एक समन्वय संयोजन है, अब और पूरी तरह से आरबी कर रहे हैं, या क्रियाएँ; के लिए एक पूर्वस्थापन है; कुछ एनएन, एक संज्ञा है; और अलग जेजे, एक विशेषण है। "

+6

एनएलटीके इस तरह की चीज़ के लिए एक अच्छा संसाधन है, लेकिन अंश-भाषण टैगिंग विषय/वस्तु भूमिकाओं के बीच अंतर करने के लिए पर्याप्त व्याकरण संबंधी जानकारी नहीं देती है। मुझे लगता है कि मैनुअल के अध्याय 8 (वाक्य संरचना का विश्लेषण) अधिक उपयुक्त होगा। – Stompchicken

2

आपके द्वारा उल्लेख की जाने वाली विशिष्ट समस्या, विषय की पहचान और खंड की वस्तुओं की पहचान syntactic parsing द्वारा की जाती है। स्टैनफोर्ड यूनिवर्सिटी द्वारा विकसित पार्सिंग सॉफ़्टवेयर के this demo का उपयोग कर पार्सिंग कैसे काम करती है, इसका एक अच्छा विचार हो सकता है।

हालांकि, सिंटैक्टिक पार्सिंग वाक्य की उत्पत्ति का निर्धारण नहीं करता है, केवल इसकी संरचना। अर्थ (अर्थशास्त्र) निर्धारित करना सामान्य रूप से एक बहुत ही कठिन समस्या है और ऐसी कोई तकनीक नहीं है जो वास्तव में एक वाक्य को 'समझ' दे सकती है। यद्यपि कोई सामान्य समाधान नहीं है, लेकिन आप एक बहुत ही सीमित विषय डोमेन में कुछ करने में सक्षम हो सकते हैं। उदाहरण के लिए, क्या वह डेटा है जिसे आप 'चीजों' के सीमित सेट के साथ एक संकीर्ण विषय के बारे में विश्लेषण करना चाहते हैं, जिसके बारे में लोग बात करते हैं?

2

स्टॉम्पचिकन ने इस प्रश्न का सही उत्तर दिया है, लेकिन मैं यह जोड़ना चाहता हूं कि विषय और वस्तु की अवधारणाओं को व्याकरण संबंधी संबंधों के रूप में जाना जाता है, और ब्रिसो और कैरोल के RASP एक पार्सर है जो अतिरिक्त कदम उठा सकता है पार्स से संबंधों की एक सूची को कम करना।

यहां उनके demo page से कुछ उदाहरण आउटपुट है। यह एक वाक्य के लिए उत्पादन से एक उद्धरण शुरू होता है कि "हम एक मजबूत सही डोमेन स्वतंत्र दृष्टिकोण ... वर्णन" है:

(| ncsubj | | वर्णन: 2_VV0 | | हम: 1_PPIS2 | _)
(| dobj | | वर्णन: 2_VV0 | | दृष्टिकोण: 7_एनएन 1 |)

संबंधित मुद्दे