2012-02-13 18 views
5

मैं जावा पर दो दस्तावेजों के बीच समानता खोजने के लिए काम कर रहा हूं। मैं अर्थपूर्ण समानता खोजना पसंद करता हूं, लेकिन अभी तक इसे खोजने के प्रयासों को पूरा किया है। मैं निम्नलिखित दृष्टिकोण का उपयोग कर रहा हूँ।पाइथन बनाम जावा

  1. निकालें शर्तों/टोकन (मैं Wordnet साथ जबड़े का उपयोग कर रहा समानार्थी शब्दों को हटाने के लिए इस प्रकार समानता में सुधार)
  2. एक शब्द दस्तावेज़ मैट्रिक्स
  3. एलएसए
  4. कोसाइन समानता बनाने

जब मैं कुछ stackoverflow पृष्ठों को देख रहा था, मुझे पाइथन कार्यान्वयन के लिए कुछ लिंक मिल गए।

मैं अगर अजगर पाठ समानता खोजने के लिए एक बेहतर भाषा है जानना चाहते हैं और यह भी अगर मैं आप यह मानते हुए एक मंच प्रतिबंधित भी नहीं हैं अजगर

+0

पाइथन में आप जो कुछ भी कर सकते हैं, आप जावा (पर्याप्त काम के साथ) में भी कर सकते हैं। उस ने कहा, [प्राकृतिक भाषा टूलकिट] (http://www.nltk.org/) मौजूद है जो एक पायथन पुस्तकालय है जो प्राकृतिक भाषा प्रसंस्करण के लिए बहुत सारे टूल प्रदान करता है। –

उत्तर

2

में दो दस्तावेज़ों के बीच अर्थ similairty पा सकते हैं जानना चाहूंगा जो आपकी भाषा की पसंद को बाधित करेगा, आपको अपनी भाषा को जो कुछ भी आप सबसे सहज महसूस करते हैं, उसके आधार पर चुनना चाहिए (और मुझे अपने पायथन पसंद है), और आपके एप्लिकेशन के लिए सबसे अच्छी लाइब्रेरी है (जैसे @GregHewgill ने पायथन टूल (Natural Language Toolkit) को इंगित किया है। परिपक्व और व्यापक हैं)।

इसलिए जब मैं व्यक्तिगत रूप से पायथन चुनता हूं, तो यह वास्तव में कुछ है जो आपको स्वयं चुनना है।

== संपादित करें ==

जावा NLP पुस्तकालयों के बारे में यह question अगर आप अपने विश्लेषण के लिए जावा का उपयोग कर सकते आप तय करने में मदद कर सकते हैं, शीर्ष जवाब में एक सूची है जिसे आप जांच सकते हैं। आपकी समस्या सेट के बारे में अधिक जानकारी के बिना, मैं अधिक विशिष्ट सलाह प्रदान नहीं कर सकता।

+0

धन्यवाद .. मैंने पहले कभी अजगर पर काम नहीं किया है। लेकिन अगर इसकी कार्यक्षमता बहुत अधिक है, तो मैंने सोचा कि मुझे अजगर में स्थानांतरित करना चाहिए और इसका उपयोग करना चाहिए। इसलिए मैं जानना चाहता था कि यह फायदेमंद होगा या नहीं, वे केवल – CTsiddharth

+1

समान कार्यक्षमताओं को देते हैं, मुझे पाइथन को अधिक प्राकृतिक और अधिक अभिव्यक्तिपूर्ण भाषा के रूप में मिलता है। ** लेकिन वास्तव में, यह पुस्तकालयों के बारे में ** है। अगर मुझे हल करने में कोई समस्या थी, और सर्वश्रेष्ठ पुस्तकालय जावा-आधारित थे, तो मैं एक जेवीएम-आधारित भाषा का उपयोग करता हूं। – ironchefpython

+0

लिंक के लिए धन्यवाद। मेरा प्रोजेक्ट एक संदर्भ दस्तावेज़ के साथ समानता के आधार पर दस्तावेजों को रैंकिंग का लक्ष्य रखता है। मेरा उद्देश्य स्थानीय भंडार से सबसे प्रासंगिक दस्तावेज़ ढूंढना है। चूंकि वास्तविक समय में इसका उपयोग होने की संभावनाएं हैं, इसलिए मैं इसे यथासंभव प्रभावी बनाना चाहता हूं। – CTsiddharth

संबंधित मुद्दे