के लिए सिमेंटिक समानता स्कोर वहाँ वाक्य की एक जोड़ी के लिए कंप्यूटिंग अर्थ समानता स्कोर के लिए किसी भी लाइब्रेरी?पायथन: स्ट्रिंग्स
मुझे वर्डनेट के अर्थात् डेटाबेस के बारे में पता है, और मैं 2 शब्दों के लिए स्कोर कैसे उत्पन्न कर सकता हूं, लेकिन मैं उन पुस्तकालयों की तलाश में हूं जो पोर्ट-स्टेमिंग जैसे सभी प्री-प्रोसेसिंग कार्यों को रोकते हैं, शब्द हटाने को रोकते हैं, आदि पूरे वाक्यों और दो वाक्यों से संबंधित के लिए स्कोर आउटपुट करता है।
मैं एक work का कार्य प्रगति पर जो .NET रूपरेखा है कि पूर्व संसाधन चरणों की एक सरणी का उपयोग कर स्कोर गणना करता है का उपयोग करते हुए लिखा है पाया। क्या कोई ऐसी परियोजना है जो इसे पायथन में करती है?
मैं संचालन में मदद मिलेगी कि मुझे लगता है स्कोर (के रूप में here के लिए कहा जाता है)
मैं अपने दम पर प्रत्येक चरण को लागू करने या अलग पुस्तकालयों से गोंद कार्यों में खुशी होगी, के अनुक्रम के लिए नहीं देख रहा हूँ ताकि यह वाक्य जोड़े के लिए काम करता है, लेकिन मुझे डेटा पर संदर्भों का परीक्षण करने के लिए इसे एक उपकरण के रूप में अधिकतर चाहिए।
संपादित करें: मैं NLTK का उपयोग करने और दो वाक्यों से अधिक दोहराया शब्द के हर जोड़ी के लिए स्कोर की गणना, और फिर परिणाम का मानक विचलन से अनुमान आकर्षित विचार कर रहा था, लेकिन मैं नहीं जानता कि यदि यह समानता का एक वैध अनुमान है। इसके अलावा, इसमें लंबे तारों के लिए बहुत समय लगेगा।
फिर से, मैं उन परियोजनाओं/पुस्तकालयों की तलाश में हूं जो पहले से ही समझदारी से लागू कर रहे हैं। मुझे कुछ ऐसा कर देता है कि: अजगर के लिए
import amazing_semsim_package
str1='Birthday party ruined as cake explodes'
str2='Grandma mistakenly bakes cake using gunpowder'
>>similarity(str1,str2)
>>0.889
वेक्टर आधार अर्थ मॉडल या मैट्रिक्स अपघटन मॉडल वाक्य समानता की तुलना करने के लिए पर विचार करें। आप lesk की तरह कोज्या पर वापस गिर सकता है यदि नहीं, कि पहली vectorize एक वाक्य calculate 2 वैक्टर – alvas
के बीच कोज्या आप एक कटऑफ के रूप में कुछ वजन करने के लिए देख या सख्त रहे हैं स्कोर की जरूरत है, NLTK के wup समानता पर विचार करें। टाइप (क्रिया, संज्ञा, adj; आदि) प्राप्त करने के लिए आपको CLIPS पैटर्न जैसे कुछ उपयोग करने की आवश्यकता होगी।आप वास्तव में जेएसईएम/एलडीए के लिए श्रेणियों की सही संख्या को खोजने के लिए इसका उपयोग कर सकते हैं जैसा कि जेन्सिम या केमैन के एक अस्पष्ट/कोसाइन कार्यान्वयन में पाया गया है। –