ओपन कैलालिस से मीकल फिंकेलस्टीन यहां।
सबसे पहले, आपकी रुचि के लिए धन्यवाद।मैं यहां जवाब दूंगा लेकिन मैं आपको OpenCalais मंचों पर और पढ़ने के लिए भी प्रोत्साहित करता हूं; वहाँ जानकारी वहाँ सहित का एक बहुत है - लेकिन सीमित नहीं: http://opencalais.com/tagging-information http://opencalais.com/how-does-calais-learn इसके अलावा ट्विटर पर (@OpenCalais) हमें का पालन करने के लिए स्वतंत्र महसूस या जवाब देने के लिए अब [email protected]
पर हमें ईमेल करने के लिए:
ओपनकालिस प्राकृतिक भाषा प्रसंस्करण और टेक्स्ट Analytics के क्षेत्र में अनुसंधान और विकास के एक दशक पर आधारित है।
हम पूर्ण "एनएलपी स्टैक" का समर्थन करते हैं (जैसा कि हम इसे कॉल करना चाहते हैं): टेक्स्ट टोकननाइजेशन, मॉर्फोलॉजिकल विश्लेषण और पीओएस टैगिंग से, उथले पार्सिंग और नाममात्र और मौखिक वाक्यांशों की पहचान करने के लिए।
जब हम संस्थाओं (ए.के.ए. एंटिटी एक्सट्रैक्शन, नामांकित इकाई पहचान) की तलाश करते हैं तो सेमेन्टिक्स खेल में आते हैं। उस उद्देश्य के लिए हमारे पास एक परिष्कृत नियम-आधारित प्रणाली है जो खोज नियमों के साथ-साथ लेक्सिकॉन/शब्दकोशों को जोड़ती है। यह संयोजन हमें कंपनियों/व्यक्तियों/फिल्मों आदि के नामों की पहचान करने की इजाजत देता है, भले ही वे किसी भी उपलब्ध सूची में मौजूद न हों।
सबसे प्रमुख संस्थाओं (जैसे लोग, कंपनियां) के लिए हम लेख स्तर पर एनाफोरा रिज़ॉल्यूशन, क्रॉस-रेफरेंस और नाम कैनोनाइजेशन/सामान्यीकरण भी करते हैं, इसलिए हम जान लेंगे कि 'जॉन स्मिथ' और श्रीमान। स्मिथ, उदाहरण के लिए, संभवतः एक ही व्यक्ति का जिक्र कर रहे हैं। तो आपके प्रश्न का संक्षिप्त उत्तर यह है - नहीं, यह केवल बड़े डेटाबेस के खिलाफ मेल खाने के बारे में नहीं है।
घटनाक्रम/तथ्य वास्तव में दिलचस्प हैं क्योंकि वे हमारे खोज नियमों को एक स्तर गहरा लेते हैं; हम संस्थाओं के बीच संबंध पाते हैं और उचित प्रकार के साथ लेबल करते हैं, उदाहरण के लिए एम & (दो या दो से अधिक कंपनियों के बीच संबंध), रोजगार परिवर्तन (कंपनियों और लोगों के बीच संबंध), और इसी तरह। कहने की जरूरत नहीं है, सिस्टम/तथ्य निष्कर्ष उन प्रणालियों के लिए संभव नहीं है जो पूरी तरह से लेक्सिकॉन पर आधारित हैं। अधिकांश भाग के लिए, हमारी प्रणाली सटीक उन्मुख होने के लिए ट्यून की गई है, लेकिन हम हमेशा शुद्धता और संपूर्णता के बीच उचित संतुलन रखने की कोशिश करते हैं।
वैसे इस महीने के अंत में कुछ अच्छी नई मेटाडेटा क्षमताएं आ रही हैं, इसलिए देखते रहें।
सादर,
मीकल