मैं एक ऐसे प्रोजेक्ट पर काम कर रहा हूं जिसके लिए मुझे समान कीवर्ड के सेट के साथ वाक्यांश या कीवर्ड से मेल खाना आवश्यक है। मुझे इसके लिए अर्थपूर्ण विश्लेषण करने की जरूरत है।समान एनएलपी उपकरण समान अर्थ या अर्थशास्त्र वाले वाक्यांशों से मेल खाने के लिए उपयोग करते हैं
एक उदाहरण:
प्रासंगिक क्यूटी
सस्ते स्वास्थ्य बीमा
सस्ती स्वास्थ्य बीमा
कम लागत कम
सस्ती स्वास्थ्य कवरेज
आम अर्थ के लिए चिकित्सा बीमा
स्वास्थ्य योजना
कम लागत वाले स्वास्थ्य बीमा
यहां सामान्य अर्थ कॉलम के तहत शब्द प्रासंगिक QT कॉलम के अंतर्गत मेल खाना चाहिए। मैंने ऐसा करने के लिए टूल और तकनीकों का एक गुच्छा देखा। एस-मैच बहुत ही आशाजनक लग रहा था, लेकिन मुझे जावा में नहीं, पाइथन में काम करना है। इसके अलावा लेटेंट सेमेन्टिक विश्लेषण अच्छा दिखता है लेकिन मुझे लगता है कि कीवर्ड मिलान के बजाए एक कीवर्ड के आधार पर दस्तावेज़ वर्गीकरण के लिए यह और अधिक है। मैं एनएलटीके से कुछ हद तक परिचित हूं। क्या कोई इस बात पर कुछ अंतर्दृष्टि प्रदान कर सकता है कि मुझे किस दिशा में आगे बढ़ना चाहिए और इसके लिए मुझे किस टूल का उपयोग करना चाहिए?
अपनी परियोजना के दायरे में क्या है पर अजगर कार्यान्वयन - http://clic.cimec.unitn.it/composes/toolkit/installation.html
मुझे लगभग 200000 शब्दों के समूह से कम लागत वाले स्वास्थ्य बीमा जैसे अर्थात् समान शब्दों को निकालना है। मुझे लगता है कि मुझे इन शब्दों पर शुरुआती एल्गोरिदम चलाने के बाद क्लस्टरिंग लागू करना है ताकि केंद्रों (शब्दों) को उत्पन्न किया जा सके जो अपने क्लस्टर में अर्थात् समान शब्दों से मेल खाते हैं। पूरी प्रक्रिया असुरक्षित है। –