मैं जावा पर दो दस्तावेजों के बीच समानता खोजने के लिए काम कर रहा हूं। मैं अर्थपूर्ण समानता खोजना पसंद करता हूं, लेकिन अभी तक इसे खोजने के प्रयासों को पूरा किया है। मैं निम्नलिखित दृष्टिकोण का उपयोग कर रहा हूँ।पाइथन बनाम जावा
- निकालें शर्तों/टोकन (मैं Wordnet साथ जबड़े का उपयोग कर रहा समानार्थी शब्दों को हटाने के लिए इस प्रकार समानता में सुधार)
- एक शब्द दस्तावेज़ मैट्रिक्स
- एलएसए
- कोसाइन समानता बनाने
जब मैं कुछ stackoverflow पृष्ठों को देख रहा था, मुझे पाइथन कार्यान्वयन के लिए कुछ लिंक मिल गए।
मैं अगर अजगर पाठ समानता खोजने के लिए एक बेहतर भाषा है जानना चाहते हैं और यह भी अगर मैं आप यह मानते हुए एक मंच प्रतिबंधित भी नहीं हैं अजगर
पाइथन में आप जो कुछ भी कर सकते हैं, आप जावा (पर्याप्त काम के साथ) में भी कर सकते हैं। उस ने कहा, [प्राकृतिक भाषा टूलकिट] (http://www.nltk.org/) मौजूद है जो एक पायथन पुस्तकालय है जो प्राकृतिक भाषा प्रसंस्करण के लिए बहुत सारे टूल प्रदान करता है। –