मैं यह जानना चाहता हूं कि दो वेब पेज समान हैं या नहीं। क्या कोई सुझाव दे सकता है कि क्या वर्डनेट समानता के साथ पायथन एनएलटीके उपयोगी और कैसे काम करता है? इस मामले में इस्तेमाल होने वाला सबसे अच्छा समानता कार्य क्या है?दो वेब पृष्ठों के बीच समानता खोजने के लिए पायथन nltk का उपयोग कर?
उत्तर
spotsigs कागज joyceschan पतों सामग्री दोहराव का पता लगाने से उल्लेख लागू करने पर विचार और यह सोचा के लिए भोजन के बहुत सारे हैं।
यदि आप कुंजी शर्तों की त्वरित तुलना की तलाश में हैं, तो nltk
मानक फ़ंक्शन पर्याप्त हो सकते हैं।
nltk
आप
द्वारा synsets निहित पर नज़र डालकर अपने शब्दों के समानार्थी खींच सकते हैं WordNet
>>> from nltk.corpus import wordnet
>>> wordnet.synsets('donation')
[Synset('contribution.n.02'), Synset('contribution.n.03')]
>>> wordnet.synsets('donations')
[Synset('contribution.n.02'), Synset('contribution.n.03')]
यह बहुवचन को समझता है और यह आपको यह भी बताता भाषण का कौन सा हिस्सा पर्याय
से मेल खाती है के साथ
सिन्ससेट एक पेड़ में संग्रहित होते हैं जिसमें पत्तियों पर अधिक विशिष्ट शब्द होते हैं और रूट पर अधिक सामान्य होते हैं। जड़ शर्तों कहा जाता है hypernyms
आप कितने करीब शर्तों आम hypernym कर रहे हैं द्वारा समानता
भाषण के विभिन्न भागों से सावधान रहें माप सकते हैं NLTK रसोई की किताब वे नहीं है के अनुसार पथों को ओवरलैप करना है, इसलिए आपको उनके बीच समानता मापने की कोशिश नहीं करनी चाहिए।
कहो, आप दो शब्दों दान और उपहार है, तो आप उन्हें synsets
से प्राप्त कर सकते हैं लेकिन इस उदाहरण में मैं उन्हें सीधे प्रारंभ:
>>> d = wordnet.synset('donation.n.01')
>>> g = wordnet.synset('gift.n.01')
रसोई की किताब की सिफारिश की वू-पामर समानता विधि
>>> d.wup_similarity(g)
0.93333333333333335
यह दृष्टिकोण आपको यह निर्धारित करने का एक त्वरित तरीका देता है कि संबंधित शर्तों से संबंधित शब्द क्या हैं। Natural Language Processing with Python पर एक नज़र डालें ताकि आप यह देखने के लिए टेक्स्ट के अपने विश्लेषण में मदद के लिए और क्या कर सकें।
धन्यवाद दोस्त जो मददगार था। लेकिन, उन चीजों का उपयोग करके मैं शब्दों की एक जोड़ी के बीच समानता पा सकता हूं लेकिन मैं वाक्यों के लिए ऐसा कैसे कर सकता हूं। – station
वाह! यह सेक्स या आइसक्रीम से बेहतर है! –
@ user567797 कोई जांच नहीं। यह पेपर दो वाक्यों के बीच अर्थपूर्ण समानता को मापने के लिए एल्गोरिदम को रेखांकित करता है। http://www.google.com/url?sa=t&source=web&cd=2&ved=0CCYQFjAB&url=http%3A%2F%2Fwordnetdotnet.googlecode।कॉम% 2Fsvn% 2Ftrunk% 2FProjects% 2FThanh% 2FPaper% 2FWordNetDotNet_Semantic_Similarity.pdf और RCT = जम्मू q = समानता% 20sentences और Ei = XEruTanSLcXegQetyeSVDw और यूएसजी = AFQjCNF9fWcVrWZ4_cBZcfW_p7fFxaL_1A और sig2 = qY7LW7YWGzNXMhOOPS5Llw और सीएडी = RJA –
Spotsigs
- 1. दो संख्याओं के बीच समानता
- 2. nltk.corpus.wordnet का समानता फ़ंक्शन दो शब्दों की समानता खोजने के लिए उपयुक्त है?
- 3. दो ऑडियो अनुक्रमों के बीच अवधारणात्मक समानता
- 4. पृष्ठों के बीच websockets का उपयोग कर रहे हैं?
- 5. दो घटता और समानता के स्कोर के बीच समानता कैसे प्राप्त करें?
- 6. पायथन nltk: डॉट से अलग शब्दों के बिना कोलोशेशन खोजें
- 7. समानता 2 के बीच HashMap
- 8. Assert.AreEqual दो जेनेरिक IENumerables के बीच समानता निर्धारित करता है?
- 9. दूरस्थ वेब पृष्ठों के लिए कुकीज़ सहेजें
- 10. तीन.जेएस का उपयोग कर दो रंगों के बीच कैसे जुड़ें?
- 11. दो सूचियों के बीच समानता की गणना करें
- 12. दो बिंदुओं के बीच स्थिति?
- 13. नियंत्रण खोजने के लिए FindControl() का उपयोग
- 14. स्ट्रिंग्स के दो अनुक्रमों के बीच समानता मापने के लिए एल्गोरिदम
- 15. वेब अनुप्रयोग विकसित करने के लिए पायथन का उपयोग
- 16. nltk
- 17. nltk
- 18. सीएसएस का उपयोग कर दो लाइनों के बीच रिक्त स्थान को परिभाषित करने के लिए कैसे?
- 19. शर्तों के साथ दो पंक्तियों के बीच अंतर को खोजने के लिए कैसे
- 20. उल्का पृष्ठों के बीच सत्र का मूल्य नहीं रख सका
- 21. दो ग्रंथों के बीच समानता प्रतिशत की जांच के लिए MySQL फ़ंक्शन
- 22. कुछ स्रोत कोड वाले पृष्ठों के लिए वेब कैसे खोजें?
- 23. .asp और .aspx पृष्ठों के बीच अंतर?
- 24. स्थानीय स्टोरेज दो पृष्ठों के बीच लगातार भंडारण नहीं कर रहा है
- 25. जावा में दो सर्किलों के बीच दूरी खोजने के लिए सबसे प्रभावी तरीका?
- 26. पेज लोड - पृष्ठों के बीच सफेद "फ्लैश"
- 27. क्या दो एक्सकोड परियोजनाओं के बीच कोई अंतर खोजने के लिए कोई उपकरण है?
- 28. आरपीसी के बजाय दो आंतरिक प्रक्रियाओं के बीच वेब सेवाओं का उपयोग क्यों करें?
- 29. मिनटों में अवधि खोजने के लिए डेटडिफ़ का उपयोग
- 30. समानता के लिए सरल अज्ञात पायथन कार्यों का परीक्षण करने के लिए एक ह्युरिस्टिक विकसित करना
एनएलटीके अच्छी तरह से उपयोगी हो सकता है। ओपन स्रोत (ओपन सोर्स) ओ'रेली पुस्तक पर एक नज़र डालें - यह nltk.org पर प्रकाशित है यदि आप प्रिंट संस्करण को पा सकते हैं/बर्दाश्त नहीं कर सकते हैं। यह आपको सही दिशा में इंगित करना चाहिए क्योंकि इसमें एनएलटीके क्या कर सकता है। – winwaed
[सुविधा के लिए पायथन 2 पुस्तक से लिंक] (http://www.nltk.org/book_1ed/) - वे वर्तमान में पाइथन 3 और एनएलटीके 3 – Ksofiac
[पायथन 3 पुस्तक से लिंक] के लिए एक संशोधित संस्करण पर काम कर रहे हैं (http: //www.nltk.org/book/) – Ksofiac