2010-02-17 16 views
5

मैंने दो दस्तावेज़ों के बीच समानता समानता की गणना करने के लिए टीएफ/आईडीएफ का उपयोग किया। इसमें कुछ सीमा है और यह बहुत अच्छी तरह से प्रदर्शन नहीं करता है।दस्तावेज़ समानता

मैं झील प्राधिकरण (अव्यक्त Dirichlet आवंटन) के लिए देखा दस्तावेज़ समानता की गणना करने के। मुझे इस बारे में पता नहीं है। मुझे अपनी समस्या के बारे में बहुत कुछ नहीं मिला।

आप मुझे किसी भी मेरी समस्या से संबंधित ट्यूटोरियल प्रदान करें कर सकते हैं? या आप कुछ सलाह दे सकते हैं कि मैं इस कार्य को एलडीए के साथ कैसे प्राप्त कर सकता हूं ???

धन्यवाद

पी.एस: भी वहाँ झील प्राधिकरण के साथ इस तरह कार्य करने के लिए किसी भी स्रोत कोड availabe है ??

+0

के बीच आप क्यों कोज्या समानता आप के लिए काम नहीं किया पर विस्तृत कृपया के लिए इस सेवा का प्रयास करें? –

उत्तर

0

आप LSA (अव्यक्त अर्थ विश्लेषण) के बारे में सोच रहा हो सकता है जो इस तरह की समस्या के लिए एक बहुत ही आम समाधान है।

+0

हाय गति, आपके उत्तर के लिए धन्यवाद। हां, मुझे एलएसए के बारे में पता है और मैंने इसे भी लागू किया है। मैंने एसवीडी के लिए जामा पैकेज का इस्तेमाल किया लेकिन मुझे एक समस्या थी कि अगर मेरी पंक्तियां कॉलम से कम हैं तो यह काम नहीं करती है :(। क्या आप मुझे कोई अन्य SMALL svd पैकेज बता सकते हैं? – user238384

1

क्या आपने लुसीन और महौत को देखा है?

यह उपयोगी हो सकता है - Lucene और महावत के साथ Latent Dirichlet Allocation

+0

धन्यवाद, क्या आप कृपया जवाब दे सकते हैं कि गणना करना संभव है एलडीए की मदद से दो दस्तावेजों के बीच समानता? जैसा कि ज्यादातर लोगों ने कहा है कि इसका उपयोग गैर-पर्यवेक्षित क्लस्टरिंग के लिए किया जा सकता है :( – user238384

+0

क्षमा करें, मुझे एलडीए के बारे में पर्याप्त जानकारी नहीं है कि वह विशेषज्ञों को इसका उत्तर दें, यह महाौत का हिस्सा नहीं है मैंने उपयोग किया है। हालांकि, क्लस्टरिंग की मेरी समझ यह है कि आपकी समूह वस्तुएं कुछ समानता माप के आधार पर होती हैं, जो इस मामले में एलडीए होगी। –

0

एक वर्ष काटा, लेकिन किसी को अभी भी रुचि के लिए, इस blog post पर एक नज़र डालें (अस्वीकरण: यह मेरा स्वयं का ब्लॉग है)। वहां वर्णित एल्गोरिदम और लिंक किए गए कोड शायद आपको वही करेंगे जो आपको चाहिए यदि आपके दिल को किसी विशिष्ट दृष्टिकोण पर सेट नहीं किया गया है।

शशिकांत की टिप्पणी के बारे में, कोज्या समानता एक अच्छा विकल्प नहीं हो सकता है क्योंकि हस्ताक्षर दस्तावेजों को लंबाई में आनुपातिक हैं। लगातार लंबाई हस्ताक्षर बेहतर हैं।

0

कोज्या समानता की गणना दो दस्तावेज़ों

http://www.scurtu.it/documentSimilarity.html

import urllib,urllib2 
import json 
API_URL="http://www.scurtu.it/apis/documentSimilarity" 
inputDict={} 
inputDict['doc1']='Document with some text' 
inputDict['doc2']='Other document with some text' 
params = urllib.urlencode(inputDict)  
f = urllib2.urlopen(API_URL, params) 
response= f.read() 
responseObject=json.loads(response) 
print responseObject 
संबंधित मुद्दे