2009-11-08 18 views
6

उदाहरण के लिए ...क्या वर्डनेट के पास "स्तर" हैं? (एनएलपी)

चिकन पशु है।
Burrito भोजन है।

वर्डनेट आपको "is-a" ... hiearchy सुविधा करने की अनुमति देता है।

हालांकि, मुझे कैसे पता चलेगा कि पेड़ की यात्रा कब बंद करना है? मुझे एक स्तर चाहिए
यह संगत है।

उदाहरण के लिए, यदि शब्दों के समूह के साथ प्रस्तुत किया गया है, तो मैं शब्द सभी को वर्गीकृत करना चाहता हूं, लेकिन एक निश्चित स्तर पर, इसलिए यह बहुत दूर नहीं जाता है। "Burrito" को "चीज़" के रूप में वर्गीकृत करना बहुत व्यापक है, फिर भी "मैक्सिकन लपेटा हुआ भोजन" बहुत विशिष्ट है। मैं सही स्तर तक सीधे खोज या नीचे जाना चाहता हूं।

उत्तर

12

वर्डनेट एक ऑटोलॉजी के बजाए एक लेक्सिकॉन है, इसलिए 'स्तर' वास्तव में लागू नहीं होते हैं।

SUMO है, जो एक ऊपरी ऑटोलॉजी है जो वर्डनेट से संबंधित है यदि आप किसी नेटवर्क के बजाय निर्देशित जाली चाहते हैं।

कुछ डोमेन के लिए, एसयूएमओ के मध्य-स्तर के ऑटोलॉजी शायद आप जहां देखना चाहते हैं, लेकिन मुझे यकीन नहीं है कि इसमें 'मैक्सिकन लपेटा हुआ भोजन' है, क्योंकि इसके अधिकांश विषय वैज्ञानिक या इंजीनियरिंग हैं।

WordNet के पदानुक्रम

beef burrito < burrito < dish/2 < victuals < food < substance < entity. 

है इकाई, एक शीर्ष स्तर अवधारणा है, इसलिए यदि आप पदार्थ आप बरिटो इसा भोजन मिल जाएगा एक नीचे बंद करो। आप उस पर आधारित एक स्तर की गणना कर सकते हैं, लेकिन यह अनिवार्य रूप से SUMO के रूप में संगत नहीं होगा, या समाप्त होने के लिए उपयोगी मध्य-स्तरीय अवधारणाओं का अपना सेट उत्पन्न नहीं करेगा। वर्डनेट में कोई 'मैक्सिकन लपेटा हुआ भोजन' कदम नहीं है।

+0

अधिकांश एसयूएमओ विज्ञान या इंजीनियरिंग है? इसमें हर दिन जैसे खाद्य पदार्थ, लोग, कार, नौकरियां इत्यादि शामिल नहीं हैं? – TIMEX

+0

SUMO एक ऊपरी ऑटोलॉजी है। मध्य-स्तरीय ऑटोलॉजीज (जहां आपको पृष्ठ पर सूचीबद्ध 'चीज़' और 'बीफ burrito' के बीच अवधारणाएं मिलती हैं) में भोजन शामिल नहीं होता है, लेकिन परियोजना को निधि देने वाले संगठनों के प्रकार को प्रतिबिंबित करता है। लोगों के लिए एक मध्य स्तर के ऑटोलॉजी है। खाद्य आपूर्तिकर्ताओं समेत उद्योगों (और इसलिए नौकरियों) के लिए भी एक है, लेकिन यदि आप इसे grep करते हैं तो burritos का कोई उल्लेख नहीं है। –

+0

धन्यवाद, पीट। एफ – TIMEX

2

स्तर प्राप्त करने के लिए, आपको प्रत्येक स्तर की सामग्री को पूर्वनिर्धारित करने की आवश्यकता है। एक ऑटोलॉजी अक्सर इन्हें एक विशिष्ट अवधारणा के तत्काल IS_A बच्चों के रूप में परिभाषित करता है, लेकिन यदि यह अनुपस्थित है, तो आपको स्वयं की एक विधि विकसित करने की आवश्यकता है।

अगला चरण प्रत्येक अवधारणा पर प्राथमिकता देना है, यदि आप प्रत्येक शब्द के लिए केवल एक श्रेणी प्रस्तुत करना चाहते हैं। प्राथमिकता कई तरीकों से की जा सकती है, उदाहरण के लिए श्रेणी और शब्द के बीच आईएस_ए संबंधों की गणना, या प्रत्येक श्रेणी के लिए मैन्युअल रूप से चयनित प्राथमिकताओं के रूप में। प्रत्येक शब्द के लिए, आप श्रेणी को सर्वोच्च प्राथमिकता के साथ चुन सकते हैं। उदाहरण के लिए, आप मांस को रासायनिक पदार्थ के बजाय "भोजन" होना चाहते हैं।

आप कुछ शब्द भी चुनना चाहेंगे, जो पथ में हैं तो प्राथमिकता को बदल दें। उदाहरण के लिए, यदि आप कुछ रसायन चाहते हैं जो भोजन भी हैं, तो रसायनों के रूप में घोषित किया जाना चाहिए, लेकिन अन्य अभी भी भोजन होना चाहिए।

5

(मैं सिर्फ जानकारी का एक पूरक यहाँ प्रदान कर रहा हूँ [कृपया पीट Kirkham में जमा, वह पहले सूमो के संदर्भ में जो अच्छी तरह से सवाल एलेक्स, ओपी द्वारा पूछे जाने पर जवाब देने के कर सकते हैं के साथ आया था]; मैं एक टिप्पणी क्षेत्र में शुरू हुआ लेकिन जल्द ही अंतरिक्ष और लेआउट capabilites से बाहर भाग गया ...)

एलेक्स: अधिकांश एसयूएमओ विज्ञान या इंजीनियरिंग है? इसमें हर दिन जैसे खाद्य पदार्थ, लोग, कार, नौकरियां इत्यादि शामिल नहीं हैं?
पीट के: SUMO एक ऊपरी ऑटोलॉजी है। मध्य-स्तरीय ऑटोलॉजीज (जहां आपको पृष्ठ पर सूचीबद्ध 'चीज़' और 'बीफ burrito' के बीच अवधारणाएं मिलती हैं) में भोजन शामिल नहीं होता है, लेकिन परियोजना को निधि देने वाले संगठनों के प्रकार को प्रतिबिंबित करता है। लोगों के लिए एक मध्य स्तर के ऑटोलॉजी है। खाद्य आपूर्तिकर्ताओं समेत उद्योगों (और इसलिए नौकरियों) के लिए भी एक है, लेकिन अगर आप इसे grep करते हैं तो burritos का कोई उल्लेख नहीं है।

मेरे दो सेंट WordNet की
100% (3.0 अर्थात नवीनतम है, साथ ही पुराने संस्करणों) सूमो को मैप किया, और कहा कि सिर्फ तुम क्या जरूरत है एलेक्स हो सकता है। एसयूएमओ (या एमआईएलओ के साथ) के साथ जुड़े मध्य-स्तरीय ऑटोलॉजीज प्रभावी डोमेन में प्रभावी ढंग से होते हैं, और इस समय, खाद्य पदार्थों को शामिल नहीं करते हैं, लेकिन चूंकि वर्डनेट करता है (सभी को शामिल करें, इनमें से कई- इन रोजमर्रा की चीजें) आप करते हैं SUMO के तहत "औपचारिक औपचारिकता" का उपयोग करने की आवश्यकता नहीं है, लेकिन इसके बजाय सुमो के वर्डनेट मैपिंग का उपयोग करें (संभवतः वर्डनेट के अलावा, जो कि फिर से, एक ऑटोलॉजी नहीं है, लेकिन इसके अनौपचारिक और ढीले "पदानुक्रम" के साथ भी मदद मिल सकती है।

कुछ कठिनाई उत्पन्न हो सकती है, हालांकि, दो क्षेत्र से (और फिर कुछ ;-)?):

  • सूमो सत्तामीमांसा के "स्तर" अपने विशेष आवेदन के लिए स्तर को ध्यान में होगा नहीं हो सकता। उदाहरण के लिए, जबकि "बरिटो" लाता है "खाद्य", सूमो में "चिकन" शीर्ष स्तर इकाई में अच्छी तरह से पेश करती है "चिकन" जो केवल एक लंबी श्रृंखला के माध्यम से विशेष रूप से पाता है "पशु" (: Chicken- > Poultry-> Bird-> Warm_Blooded_Vertebrae-> Vertebrae-> पशु)।
  • वर्डनेट का कवरेज और मेटाडाटा प्रभावशाली है, लेकिन मध्य-स्तर की अवधारणाओं के संबंध में थोड़ा असंगत हो सकता है। उदाहरण के लिए "हमारा" बुरिटो का हाइपरनीम उचित रूप से "डिश" है, जो इसे लगभग 140 खाद्य व्यंजन प्रदान करता है, जिसमें "सूप" या "कैसरोल" के साथ-साथ "चिकन मैरेंगो" जैसे जेनेरिक भी शामिल हैं (लेकिन "चिकन कैसीटोर" कह रहे हैं)

मेरे बिंदु, इन मुद्दों को लाने में, WordNet या Sumo और इससे संबंधित ontologies आलोचना करने के लिए नहीं, बल्कि बस विशेष रूप से मध्य स्तर पर, सत्तामीमांसा के निर्माण के साथ जुड़े चुनौतियों में से कुछ को वर्णन करने के लिए है।

कुछ संभव दोषों और एक समाधान के lackings सूमो और WordNet, के आधार पर की परवाह किए बिना इन चौखटे के एक व्यावहारिक उपयोग अच्छी तरह से (समय की 85%)

+0

स्पष्टीकरण के लिए धन्यवाद।यदि मेरा उद्देश्य दस्तावेज़ को स्कैन करना था और देखें कि किस भोजन, नौकरियां, शौक, उस व्यक्ति के हित में ... आप कैसे सलाह देंगे कि मैं इसके बारे में सोचूं? क्या "भोजन" की एक शब्द-सूची और "शौक" और "खेल" की एक शब्द-सूची खोजना सबसे अच्छा होगा? ऐसा करने का सबसे व्यावहारिक तरीका क्या है? – TIMEX

+0

@Alex: क्योंकि आप अपेक्षाकृत कुछ डोमेन को लक्षित कर रहे हैं, इसलिए मैं अपने स्वयं के शब्दावली विकसित करने पर विचार करता हूं। आप उन्हें SUMO Wordnet मानचित्र या इसी तरह के स्रोतों से निकालने से "प्राइम" कर सकते हैं। आपको शायद नामित संस्थाओं (जैसे कलाकार, एथलीट, शहर, विशेष स्थान इत्यादि) की एक सूची भी बनाना होगा। यद्यपि ऐसी सूचियां बनाना सस्ती नहीं है, आप पाएंगे कि परिणामी कम डोमेन समान (या आमतौर पर बेहतर) परिशुद्धता के लिए बहुत अधिक ढलान वाले तर्क/हेरिस्टिक को अनुमति देता है और टेजिंग में याद करता है। – mjv

0

WordNet के hypernym पेड़ एक साथ समाप्त होता है "बिल फिट" हो सकता है "इकाई" शब्द के लिए एकल रूट synset। यदि आप वर्डनेट की सी लाइब्रेरी का उपयोग कर रहे हैं, तो आप traceptrs_ds का उपयोग करके एक synset के पूर्वजों के लिए थोड़ी देर के लिए रिकर्सिव संरचना प्राप्त कर सकते हैं, और nextss और ptrlst पॉइंटर्स के बाद आप पूरे सिंकसेट पेड़ को फिर से प्राप्त कर सकते हैं जब तक आप null पॉइंटर्स हिट नहीं करते।

संबंधित मुद्दे