2012-01-20 8 views
5

क्या भाषण टैगिंग की सटीकता में सुधार करने के लिए शब्द के संदर्भ का उपयोग करने के लिए कुछ सामान्य या अनुशंसित तकनीकें हैं?अंश-भाषण टैगिंग को सुधारने के लिए संदर्भ का उपयोग

उदाहरण के लिए अगर मैं वाक्य था:

मैं एक लिंक पर गोल्फ खेला।

शब्द "लिंक" या तो एकवचन (एक गोल्फ कोर्स) या बहुवचन हो सकता है। मैंने इस वाक्य को कई व्याकरण जांचकर्ताओं में करने की कोशिश की और वे सभी ने वाक्यों को वैध रूप से मान्य माना।

मैं एक लिंक पर क्लिक किया:

समस्या वे यह भी सोचा कि इस वाक्य मान्य किया गया है।

क्या सही भाग-भाषण का अनुमान लगाने के लिए संदर्भ (क्लिक किए गए बनाम गोल्फ) का उपयोग करने का कोई अच्छा तरीका है?

धन्यवाद!

उत्तर

2

यह निर्धारित करना कि "लिंक" एक "गोल्फ कोर्स" या "संदर्भ" है, शब्द-अर्थ असंबद्धता नामक एक कार्य है। यहाँ Word-sense disambiguation पर विकिपीडिया के लेख संबंध हिस्सा के- भाषण के बारे में कहते हैं टैगिंग:

किसी भी वास्तविक परीक्षण में, भाग-ऑफ-द भाषण टैगिंग और भावना टैगिंग बहुत बारीकी से करने के लिए प्रत्येक संभावित बनाने बाधाओं के साथ संबंधित हैं अन्य। और सवाल यह है कि क्या इन कार्यों को एक साथ रखा जाना चाहिए या decoupled अभी भी सर्वसम्मति से हल नहीं किया जाना चाहिए, लेकिन हाल ही में वैज्ञानिकों ने इन चीजों को अलग से जांचने के लिए प्रेरित किया है (उदाहरण के लिए भाषण के हिस्सों में सेंसल/सेमेवल प्रतियोगिताओं में पाठ के लिए इनपुट के रूप में प्रदान किया जाता है)। भाग-के-भाषण टैगिंग की समस्या के साथ शब्द असंबद्धता की समस्या की तुलना करना निर्देशक है। दोनों शब्दों के साथ असंबद्ध या टैगिंग शामिल हैं, यह इंद्रियों या भाषण के हिस्सों के साथ हो। हालांकि, किसी के लिए उपयोग किए जाने वाले एल्गोरिदम दूसरे के लिए अच्छी तरह से काम नहीं करते हैं, मुख्य रूप से क्योंकि किसी शब्द के भाषण का हिस्सा मुख्य रूप से तुरंत एक से तीन शब्दों द्वारा निर्धारित किया जाता है, जबकि एक शब्द की भावना शब्दों द्वारा आगे निर्धारित की जा सकती है । भाषण टैगिंग एल्गोरिदम के लिए सफलता दर वर्तमान में डब्लूएसडी के लिए बहुत अधिक है, अत्याधुनिक सीखने के साथ शब्द भावना असंबद्धता में 75% से कम सटीकता की तुलना में, अत्याधुनिक कला लगभग 9 5% सटीकता या बेहतर है, । ये आंकड़े अंग्रेजी के लिए विशिष्ट हैं, और अन्य भाषाओं के लिए उनसे बहुत अलग हो सकते हैं।

मैं काम करता है कि WSD का उपयोग सूचित करने के लिए के बारे में पता नहीं कर रहा हूँ पीओएस-टैगिंग भले ही सटीकता को लाभ होगा (हालांकि, यह सूचित करते हुए WSD मानक है पीओएस टैग का उपयोग।) यह मेरे लिए एक अच्छा विचार की तरह लगता है, छोटा हो क्योंकि शुद्धता पहले से ही अधिक है। इसे टौटानोवा के सीआरएफ टैगर में एक सुविधा के रूप में लागू किया जा सकता है।

संबंधित मुद्दे