2008-08-22 8 views
5

मैं सोच रहा था कि कैसे ओपन कैलाइस जैसी अर्थपूर्ण सेवा टेक्स्ट के एक टुकड़े से कंपनियों, या लोगों, तकनीकी अवधारणाओं, कीवर्ड इत्यादि के नाम बताती है। क्या ऐसा इसलिए है क्योंकि उनके पास एक बड़ा डेटाबेस है कि वे टेक्स्ट से मेल खाते हैं?सामग्री खोज इंजन, जैसे ज़ेमेन्टा और ओपन कैलाइस कैसे काम करते हैं?

ज़ेमेन्टा जैसी सेवा कैसे पता चलेगी कि छवियों के उदाहरण के लिए पाठ के टुकड़े को क्या सुझाव देना है?

उत्तर

0

ओपन कैलाइस संभवतः भाषा पार्सिंग तकनीक और भाषा सांख्यिकी का उपयोग करने के लिए अनुमान लगाते हैं कि कौन से शब्द या वाक्यांश नाम, स्थान, कंपनियां इत्यादि हैं। फिर, यह उन संस्थाओं के लिए किसी प्रकार की खोज करने और मेटा डेटा लौटने का एक और कदम है।

ज़ेमेन्टा शायद कुछ ऐसा ही करता है, लेकिन संबंधित परिणामों को प्राप्त करने के लिए छवियों से जुड़े मेटा-डेटा के खिलाफ वाक्यांशों से मेल खाता है।

यह निश्चित रूप से आसान नहीं है।

7

मैं सूचीबद्ध विशिष्ट सेवाओं से परिचित नहीं हूं, लेकिन प्राकृतिक भाषा प्रसंस्करण के क्षेत्र ने कई तकनीकों का विकास किया है जो सामान्य पाठ से इस प्रकार की जानकारी निष्कर्षण को सक्षम करते हैं। जैसा कि शॉन ने कहा, एक बार आपके पास उम्मीदवार शर्तों के बाद, संदर्भ में कुछ अन्य संस्थाओं के साथ उन शर्तों की खोज करना मुश्किल नहीं है और फिर उस खोज के परिणामों का उपयोग यह निर्धारित करने के लिए करें कि आप कितने आश्वस्त हैं कि निकाला गया शब्द वास्तविक इकाई है ब्याज।

OpenNLP एक शानदार परियोजना है यदि आप प्राकृतिक भाषा प्रसंस्करण के साथ खेलना चाहते हैं। आपके द्वारा नामित क्षमताओं को शायद नामांकित इकाई पहचानकर्ता (एनईआर) (एल्गोरिदम जो उचित संज्ञाओं, आमतौर पर, और कभी-कभी तिथियों को भी ढूंढते हैं) और/या वर्ड सेंस डिसंबिगुएशन (डब्लूएसडी) (उदाहरण: शब्द 'बैंक' के साथ सबसे अच्छा पूरा किया जाएगा) इसके संदर्भ के आधार पर अलग-अलग अर्थ हैं, और पाठ से जानकारी निकालने पर यह बहुत महत्वपूर्ण हो सकता है। वाक्यों को देखते हुए: "विमान बाईं ओर बैंका हुआ", "बर्फ बैंक ऊंचा था", और "उन्होंने बैंक लूट लिया" आप देख सकते हैं कि कैसे असंतोष भाषा समझ में एक महत्वपूर्ण भूमिका निभा सकता है)

तकनीक आम तौर पर एक-दूसरे पर निर्माण करती है, और एनईआर अधिक जटिल कार्यों में से एक है, इसलिए सफलतापूर्वक एनईआर करने के लिए, आपको आम तौर पर सटीक टोकनकार (प्राकृतिक भाषा टोकनेज़र, दिमाग की आवश्यकता होती है) - सांख्यिकीय दृष्टिकोण सबसे अच्छा किराया देते हैं), स्ट्रिंग स्टेमर्स (एल्गोरिदम जो समान शब्दों को समान जड़ों में परिवर्तित करते हैं: ऐसे में शब्द जैसे फॉर्मेंट और सूचनार्थी को समान रूप से इलाज किया जाता है), वाक्य का पता लगाने ('श्रीमान। जोन्स लंबा था। ' केवल एक वाक्य है, इसलिए आप केवल विराम चिह्न की जांच नहीं कर सकते हैं), भाषण के अंश टैगर्स (पीओएस टैगर्स), और डब्ल्यूएसडी।

एनएलटीके (http://nltk.sourceforge.net) नामक ओपनएनएलपी (के कुछ हिस्सों) का एक अजगर बंदरगाह है लेकिन मुझे इसके साथ अभी तक अधिक अनुभव नहीं है। मेरा अधिकांश काम जावा और सी # बंदरगाहों के साथ रहा है, जो अच्छी तरह से काम करते हैं।

ये सभी एल्गोरिदम निश्चित रूप से भाषा-विशिष्ट हैं, और वे चलाने के लिए महत्वपूर्ण समय ले सकते हैं (हालांकि, यह आपके द्वारा प्रसंस्करण की जाने वाली सामग्री को पढ़ने से आम तौर पर तेज़ है)। चूंकि अत्याधुनिक सांख्यिकीय रूप से सांख्यिकीय तकनीकों पर आधारित है, इसलिए ध्यान में रखना एक बड़ी त्रुटि दर भी है। इसके अलावा, क्योंकि त्रुटि दर सभी चरणों को प्रभावित करती है, और एनईआर जैसे कुछ को प्रसंस्करण के कई चरणों की आवश्यकता होती है, (टोकननाइजेशन -> वाक्य का पता लगाने -> पीओएस टैग -> डब्ल्यूएसडी -> एनईआर) त्रुटि दर परिसर।

9

ओपन कैलालिस से मीकल फिंकेलस्टीन यहां।

सबसे पहले, आपकी रुचि के लिए धन्यवाद।मैं यहां जवाब दूंगा लेकिन मैं आपको OpenCalais मंचों पर और पढ़ने के लिए भी प्रोत्साहित करता हूं; वहाँ जानकारी वहाँ सहित का एक बहुत है - लेकिन सीमित नहीं: http://opencalais.com/tagging-information http://opencalais.com/how-does-calais-learn इसके अलावा ट्विटर पर (@OpenCalais) हमें का पालन करने के लिए स्वतंत्र महसूस या जवाब देने के लिए अब [email protected]

पर हमें ईमेल करने के लिए:

ओपनकालिस प्राकृतिक भाषा प्रसंस्करण और टेक्स्ट Analytics के क्षेत्र में अनुसंधान और विकास के एक दशक पर आधारित है।

हम पूर्ण "एनएलपी स्टैक" का समर्थन करते हैं (जैसा कि हम इसे कॉल करना चाहते हैं): टेक्स्ट टोकननाइजेशन, मॉर्फोलॉजिकल विश्लेषण और पीओएस टैगिंग से, उथले पार्सिंग और नाममात्र और मौखिक वाक्यांशों की पहचान करने के लिए।

जब हम संस्थाओं (ए.के.ए. एंटिटी एक्सट्रैक्शन, नामांकित इकाई पहचान) की तलाश करते हैं तो सेमेन्टिक्स खेल में आते हैं। उस उद्देश्य के लिए हमारे पास एक परिष्कृत नियम-आधारित प्रणाली है जो खोज नियमों के साथ-साथ लेक्सिकॉन/शब्दकोशों को जोड़ती है। यह संयोजन हमें कंपनियों/व्यक्तियों/फिल्मों आदि के नामों की पहचान करने की इजाजत देता है, भले ही वे किसी भी उपलब्ध सूची में मौजूद न हों।

सबसे प्रमुख संस्थाओं (जैसे लोग, कंपनियां) के लिए हम लेख स्तर पर एनाफोरा रिज़ॉल्यूशन, क्रॉस-रेफरेंस और नाम कैनोनाइजेशन/सामान्यीकरण भी करते हैं, इसलिए हम जान लेंगे कि 'जॉन स्मिथ' और श्रीमान। स्मिथ, उदाहरण के लिए, संभवतः एक ही व्यक्ति का जिक्र कर रहे हैं। तो आपके प्रश्न का संक्षिप्त उत्तर यह है - नहीं, यह केवल बड़े डेटाबेस के खिलाफ मेल खाने के बारे में नहीं है।

घटनाक्रम/तथ्य वास्तव में दिलचस्प हैं क्योंकि वे हमारे खोज नियमों को एक स्तर गहरा लेते हैं; हम संस्थाओं के बीच संबंध पाते हैं और उचित प्रकार के साथ लेबल करते हैं, उदाहरण के लिए एम & (दो या दो से अधिक कंपनियों के बीच संबंध), रोजगार परिवर्तन (कंपनियों और लोगों के बीच संबंध), और इसी तरह। कहने की जरूरत नहीं है, सिस्टम/तथ्य निष्कर्ष उन प्रणालियों के लिए संभव नहीं है जो पूरी तरह से लेक्सिकॉन पर आधारित हैं। अधिकांश भाग के लिए, हमारी प्रणाली सटीक उन्मुख होने के लिए ट्यून की गई है, लेकिन हम हमेशा शुद्धता और संपूर्णता के बीच उचित संतुलन रखने की कोशिश करते हैं।

वैसे इस महीने के अंत में कुछ अच्छी नई मेटाडेटा क्षमताएं आ रही हैं, इसलिए देखते रहें।

सादर,

मीकल

संबंधित मुद्दे