2014-04-10 8 views
5

में उपयोग के लिए वर्डनेट में सिन्ससेट ऑफसेट कैसे प्राप्त करूं, मैं एक भाषा कार्य के लिए समानार्थी शब्दों की सूची बनाने के लिए Image-Net का उपयोग करने की योजना बना रहा हूं। Image-Net API Docs के अनुसार,मैं इमेजनेट

ImageNet WordNet 3.0 पर आधारित है। एक synset की विशिष्ट पहचान करने के लिए, हम "वर्डनेट आईडी" (wnid) का उपयोग करते हैं, जो पीओएस (यानी भाषण का हिस्सा) और WordNet के SYNSET ऑफ़सेट का एक संयोजन है।

यह सब अच्छा और अच्छा लगता है, हालांकि WordNet में एक synset के लिए SYNSET ऑफ़सेट प्राप्त करने के तरीके पर दस्तावेज़ों का एक छोटा सा दस्तावेज नहीं है। यह बताता है कि सेंस आईडी कैसे प्राप्त करें, हालांकि ये वही मान नहीं हैं।

मैं सिन्ससेट ऑफसेट कैसे प्राप्त कर सकता हूं ताकि मैं चित्रकारी संज्ञाओं और समानार्थी शब्दों की सूची बनाने के लिए छवि-नेट एपीआई का उपयोग शुरू कर सकूं?

उत्तर

2

index.noun में, यहाँ और अधिक दिलचस्प प्रविष्टियों में से एक है:

car n 5 6 @ ~ #m #p %p - 5 2 02958343 02959942 02960501 02960352 02934451 

नंबर दिए गए हैं "ऑफसेट synset" यदि आप चाहते हैं। तो, कार पंक्ति में पहला नंबर लेना, 02958343, इसे दूसरे फ़ील्ड के साथ उपसर्ग करना, "एन" (index.noun में सभी प्रविष्टियों को निश्चित रूप से दूसरे क्षेत्र में "n" है), आपको n02958343 मिलता है, जो आपको देता है : http://image-net.org/synset?wnid=n02958343

यदि आप सूची में 5 वें नंबर के साथ प्रयास करते हैं तो आपको images for cable cars मिल जाएगा।

वैसे, index.noun क्षेत्रों के आराम के लिए प्रलेखन यहाँ है: https://wordnet.princeton.edu/wordnet/man/wndb.5WN.html

ही synset ऑफसेट (जो फ़ाइल है कि मध्य के सभी लिंक संग्रहीत करता है data.noun फ़ाइल के माध्यम से प्रयोग किया जाता है synsets)।


Btw, synset ऑफसेट रिलीज जारी करने के लिए से बदलने के लिए, और ImageNet ऐसा लगता है (या प्रत्येक WordNet रिहाई के लिए सभी यूआरएल को तोड़ने का इरादा रखता है) शब्दतंत्र 3.0 से जुड़ा हुआ है। जैसे यह कैसे कार Wordnet 3.1 में दिखाई देता है:

car n 5 6 @ ~ #m #p %p - 5 2 02961779 02963378 02963937 02963788 02937835 

(लेकिन http://image-net.org/synset?wnid=n02961779 कार चित्रों नहीं मिल रहा है)

यही कारण है कि जब मैं MLSN तैयार किया गया है, मैं बजाय "06car0" का इस्तेमाल किया कार के पहले synset मतलब करने के लिए (06 मतलब संज्ञा .artifact, WordNet docs देखें); तो वह अनूठी कुंजी वर्डनेट अपडेट से बच सकती है। दुर्भाग्यवश यह पकड़ नहीं आया, इसलिए लोग अभी भी वर्डनेट सिन्ससेट ऑफसेट का उपयोग करते हैं।

+0

यह बहुत अच्छा है। क्या आप मुझे बता सकते हैं कि आपने index.noun तक पहुंचने के लिए RiTaWN या कुछ अन्य जावा वर्डनेट इंटरफ़ेस का उपयोग किया है? –

+0

क्षमा करें, मैंने बस एक टेक्स्ट एडिटर में फ़ाइलों को लोड किया और खोजा :-) मैं जावा पुस्तकालयों से इतना परिचित नहीं हूं; मैंने बस RiWordNet पर देखा और ऐसा लगता है कि synset ऑफसेट आंतरिक रूप से उपयोग किया जा सकता है, लेकिन खुलासा नहीं किया? –