एसोसिएशन खनन टेक्स्ट कॉर्पोरेशन में संबंधित शर्तों को पुनर्प्राप्त करने के लिए अच्छे परिणाम देने लगता है। इस विषय पर कई काम हैं जिनमें प्रसिद्ध LSA विधि शामिल है। मेरा संघों के लिए सबसे सरल तरीका docs X terms
की सह-घटना मैट्रिक्स का निर्माण और शर्तों है कि सबसे अधिक बार एक ही दस्तावेज में पाए जाते हैं मिल रहा है। मेरी पिछली परियोजनाओं में मैं यात्रा से Lucene में सीधे लागू किया TermDocs से अधिक (मैं IndexReader.termDocs(Term) को फोन करके यह मिल गया)। लेकिन मैं सोलर में कुछ भी नहीं देख सकता।सोलर में टर्म एसोसिएशन खनन को लागू करने का सबसे आसान तरीका क्या है?
तो, मेरी जरूरतों हैं:
- सबसे संबद्ध शब्द विशेष क्षेत्र के भीतर प्राप्त करने के लिए।
- अवधि, कि निर्दिष्ट एक विशेष क्षेत्र के भीतर के सबसे करीब है प्राप्त करने के लिए।
मैं लूंगा दर निम्नलिखित तरीके से जवाब देता है:
- आदर्श रूप में मैं Solr के घटक, कि है, संबद्ध शब्द सीधे प्राप्त करने के लिए कुछ है कि सीधे निर्दिष्ट आवश्यकताओं को भी शामिल प्राप्त करना चाहते हैं।
- यदि यह संभव नहीं है, मैं जिस तरह से निर्दिष्ट क्षेत्र के लिए सह-घटना मैट्रिक्स जानकारी प्राप्त करने के लिए मांग कर रहा हूँ।
- यदि यह एक विकल्प भी नहीं है, मैं 1 के लिए सबसे सरल तरीका जानना चाहते हैं) सभी शर्तों मिलता है और 2) मिल आईडी (संख्या) दस्तावेजों की इन शर्तों में होते हैं।
मैं विषय googled और मैं इस सवाल का जवाब अपने आप का इंतजार कर रहा हूँ। बीटीडब्ल्यू, सोलर की क्लस्टरिंग क्षमताओं को "अर्थात् संबंधित परिणामों/दस्तावेजों को एक साथ समूहबद्ध करने के तरीके के रूप में वर्णित किया गया है"। पर्याप्त नहीं है, है ना? – aitchnyu
क्लस्टरिंग एक अलग बात है। सबसे पहले, यह दस्तावेजों के साथ काम करता है, नियम नहीं, इसलिए आप शब्दों को क्लस्टर नहीं कर सकते हैं (कम से कम मैं क्लस्टरिंग के मामले में कोई समझ नहीं देख सकता और सौर के साथ ऐसा करने का आसान तरीका नहीं जानता)। हालांकि ऐसा लगता है कि विपरीत चीज संभव है: आप दस्तावेज़ों पर क्लस्टरिंग करने के लिए शर्तों पर संघ खनन का उपयोग कर सकते हैं। – ffriend