2008-11-07 17 views
12

क्या लुसीन.Net अक्सर बदलती सामग्री के लिए खोज इंजन के रूप में उपयुक्त है?क्या Lucene.Net अक्सर बदलती सामग्री के लिए खोज इंजन के रूप में उपयुक्त है?

या अधिक विशिष्ट रूप से, क्या कोई व्यक्ति इस बारे में एक व्यक्तिपरक राय दे सकता है कि lucene.net अनुक्रमणिका को कितनी जल्दी अपडेट किया जा सकता है। अक्सर बदलती सामग्री खोजने के लिए कोई अन्य दृष्टिकोण बहुत अच्छा होगा।

हम एक मंच विकसित कर रहे हैं। फोरम पदों को अक्सर फोरम भंडार में जोड़ा जाएगा। हमें लगता है कि खोज के लिए उपलब्ध होने के लिए हमें इन पदों को ल्यूसीन इंडेक्स में बहुत तेज़ी से जोड़ने की आवश्यकता है (< 0.5s)। शुरुआत में भंडार में लगभग 5E6 पद होंगे। गैर-विदेशी सर्वर पर चल रहे खोज इंजन को मानें (मुझे पता है कि यह बहुत अस्पष्ट है!)।

अक्सर बदलती सामग्री की खोज के मुद्दे को संबोधित करने के संबंध में अन्य सुझावों की सराहना की गई। फ़ोरम पोस्ट को नामित टैग की एक चर संख्या पर खोजने योग्य होना चाहिए (टैग नाम और मान मिलान होना चाहिए)। एक एसक्यूएल आधारित दृष्टिकोण (टोक्सी स्कीमा पर आधारित) हमें वह प्रदर्शन नहीं दे रहा है जिसे हम चाहते हैं।

+0

भले ही प्रश्न का उत्तर पहले से ही दिया जा चुका है, हो सकता है कि आप किसी सर्वर को खोज को संभालने के लिए विचार करना चाहें (यदि आउट ऑफ़ प्रोसेस एक विकल्प है), जैसे कुछ [Solr] (http://lucene.apache.org/ solr /) या [elasticsearch] (http://www.elasticsearch.org/); दोनों इंडेक्स के निर्माण और प्रबंधन को बहुत अच्छी तरह से संभालते हैं, साथ ही प्रतिकृति, शेरिंग इत्यादि जैसी चीजों का ख्याल रखते हैं, जो बड़े/एकाधिक इंडेक्स से निपटने के दौरान महत्वपूर्ण होते हैं। – casperOne

उत्तर

9

आउट फ़ोरम (http://episteme.arstechnica.com) ल्यूसीन को बैकएंड के रूप में उपयोग करें, इसलिए यह करने योग्य है। पोस्ट जितनी जल्दी हो सके उतनी जल्दी अनुक्रमित नहीं होते हैं, लेकिन हम इंडेक्सिंग हार्डवेयर को बढ़ाकर और एक बेहतर कैशिंग रणनीति का उपयोग करके इसे हल कर सकते हैं।

इस प्रश्न का सामान्य उत्तर यह है: यह निर्भर करता है कि आपका लेखन/अद्यतन पैटर्न क्या है। मंच अपेक्षाकृत आसान हैं, क्योंकि अधिकांश सामग्री नई है और मौजूदा सामग्री को कम बार अपडेट किया जाता है।

एक मंच के लिए, मैं एक "संग्रह" सूचकांक और "लाइव" सूचकांक रखने की अनुशंसा करता हूं। लाइव इंडेक्स में अंतिम दिन, सप्ताह, वर्ष की पोस्ट शामिल हो सकती हैं, जबकि संग्रह सूचकांक में पोस्ट का एक बड़ा हिस्सा शामिल होगा जो शायद कभी भी स्पर्श नहीं होगा। तो जब कोई नई पोस्ट बनाता है, तो इसे प्रारंभ में लाइव इंडेक्स में अनुक्रमित किया जाएगा। बाद में, कुछ बैच नौकरी लाइव इंडेक्स को साफ़ कर देगी, और संग्रह में सबकुछ फिर से कर देगा।

ल्यूसीन कई इंडेक्स में पूछताछ में बहुत अच्छा है। आपको उस क्षमता का दुरुपयोग करना चाहिए। :)

4

लुसेन.Net बेहद तेज़ है, हालांकि ऐसी कई चीजें हैं जो गलत इस्तेमाल होने पर क्वेरी को धीमा कर सकती हैं। मैं एरिक हैचर और ओटिस गोस्पोडनेटिक द्वारा Lucene in Action पुस्तक पढ़ने की दृढ़ता से अनुशंसा करता हूं। इसमें प्रदर्शन परीक्षण और ट्यूनिंग के बारे में एक बहुत अच्छा अध्याय शामिल है।

संबंधित मुद्दे