मैं वर्तमान में लुसीन का उपयोग कर वेबपृष्ठ अनुक्रमणित कर रहा हूं। इसका लक्ष्य जल्दी से निकालने में सक्षम होना चाहिए कि किस पृष्ठ में एक निश्चित अभिव्यक्ति (आमतौर पर 1, 2 या 3 शब्द) होती है, और कौन से दूसरे शब्द (या उनमें से 1to 3 का समूह) पृष्ठ में भी होते हैं। इसका उपयोग थिसॉरस (निश्चित शब्दावली) को बनाने/समृद्ध/परिवर्तित करने के लिए किया जाएगा।वाक्यांश क्वेरी और शिंगल फ़िल्टर का उपयोग करने के बीच क्या अंतर है?
लेख मैंने पाया से ऐसा प्रतीत होता समस्या n-grams (या पीटना) मिल रहा है।
Lucene एक ShingleFilter, एक ShingleMatrixFilter, और एक ShingleAnalyzerWrapper है, जो इस कार्य से संबंधित तो लग गया है।
इस presentation से, मैं Lucene भी शब्द (बुलाया धोवन) की एक निश्चित संख्या के द्वारा अलग शब्दों के लिए खोज कर सकते हैं कि सीखा है। एक उदाहरण here प्रदान किया गया है।
हालांकि, मैं स्पष्ट रूप से उन दृष्टिकोणों के बीच अंतर को समझ नहीं पा रहा हूं? क्या वे मूल रूप से अलग हैं, या यह एक प्रदर्शन/सूचकांक आकार पसंद है जिसे आपको बनाना है?
ShingleMatrixFilter और ShingleFilter के बीच क्या अंतर है?
आशा है कि एक लुसीन गुरु इस प्रश्न को ढूंढेंगे, और उत्तर ;-)!
इस विस्तृत जवाब (स्वीकार किए जाते हैं) के लिए धन्यवाद। ShingleFilter और ShingleMatrixFilter के बीच के अंतर पर टिप्पणी कर सकते हैं? – blackbox
वास्तव में अच्छी व्याख्या। इस आलेख ने मुझे उदाहरणों पर कुछ हाथों से शिंगलों को समझने में मदद की: https://www.elastic.co/blog/searching-with-shingles – krinker