में सर्च कर रहे हैं से अधिक पद स्तर एनोटेशन परतें मैं कई विभिन्न natural language processing (NLP) उपकरण से इस तरह के part-of-tags, chunks from a shallow parser, name entities के रूप में अंतर्निहित पाठ पर टिप्पणी की परतों, और दूसरों के साथ एक डेटा सेट है। The man went to the store
की तरह एक वाक्य के लिए, एनोटेशन देखने की तरह हो सकता है:अनुक्रमण और Lucene
Word POS Chunk NER ==== === ===== ======== The DT NP Person man NN NP Person went VBD VP - to TO PP - the DT NP Location store NN NP Location
मैं सूचकांक करने के लिए इन Lucene का उपयोग कर की तरह एनोटेशन के साथ दस्तावेजों का एक समूह की तरह और फिर विभिन्न परतों में खोजें कर चाहते हैं। एक साधारण प्रश्न का एक उदाहरण सभी दस्तावेजों को पुनर्प्राप्त करना होगा जहां वाशिंगटन को व्यक्ति के रूप में टैग किया गया है। जब मैं पूरी तरह से अंकन के लिए प्रतिबद्ध नहीं हूँ, वाक्य रचना अंतिम उपयोगकर्ताओं के रूप में इस क्वेरी दर्ज हो सकता है:
क्वेरी: Word=Washington,NER=Person
मैं भी अनुक्रमिक आदेश से जुड़े और अधिक जटिल प्रश्नों करना चाहते हैं एनोटेशन विभिन्न परतों में, उदाहरण के लिए सभी दस्तावेजों जहां वहाँ एक शब्द में चिह्नित व्यक्ति शब्द arrived at
एक शब्द के बाद के बाद टैग किया स्थान पाते हैं।
क्वेरी: "NER=Person Word=arrived Word=at NER=Location"
Lucene के साथ इस बारे में आ जाने के लिए एक अच्छा तरीका क्या है इस तरह के एक प्रश्न की तरह लग सकता है? क्या प्रोजेक्ट किए गए टोकन वाले दस्तावेज़ फ़ील्ड पर इंडेक्स और खोज करने के लिए वैसे भी है?
पेलोड
एक सुझाव यह Lucene payloads उपयोग करने का प्रयास किया गया था। लेकिन, मैंने सोचा कि पेलोड का उपयोग केवल दस्तावेजों की रैंकिंग को समायोजित करने के लिए किया जा सकता है, और उनका उपयोग यह नहीं चुनने के लिए किया जाता है कि कौन से दस्तावेज़ लौटाए जाते हैं।
बाद में महत्वपूर्ण है, कुछ उपयोग-मामलों के लिए, दस्तावेजों की संख्या जिसमें एक पैटर्न है वास्तव में मैं चाहता हूं।
इसके अलावा, क्वेरी से मेल खाने वाले शब्दों पर केवल पेलोड की जांच की जाती है। इसका मतलब है कि पेलोड केवल भी पहला उदाहरण क्वेरी, Word=Washington,NER=Person
की रैंकिंग, जिसके तहत हम सिर्फ यकीन है कि अवधि Washingonton
एक Person
के रूप में चिह्नित किया गया है बनाना चाहते के साथ मदद कर सकता है। हालांकि, दूसरे उदाहरण क्वेरी के लिए, "NER=Person Word=arrived Word=at NER=Location"
, मुझे अनिर्दिष्ट पर टैग की जांच करने की आवश्यकता है, और इस प्रकार गैर मिलान, शर्तें।
क्या आपको एक संतोषजनक समाधान मिला? – enguerran