2010-05-19 11 views
7

मैं वेबसाइट पर स्फिंक्स-आधारित खोज को एकीकृत करने वाला था, लेकिन मुझे पता चला है कि वर्तनी सुधार के लिए कोई निर्मित समर्थन नहीं है।स्फिंक्स में वर्तनी सुधार?

वेब पर लोग काम करने के लिए pspell या अन्य तृतीय-पक्ष पुस्तकालयों का उपयोग करने का सुझाव देते हैं, लेकिन समस्या यह है कि मैं जिस डेटा को खोजना चाहता हूं, इसमें ब्रांड नाम जैसे अधिकतर "तकनीकी" शब्द शामिल हैं, इस प्रकार मैं डॉन ' टी लगता है कि आम पुस्तकालयों में उन्हें शामिल किया जाएगा।

दूसरी तरफ, एक्सपियन के पास इंडेक्स किए गए डेटा के आधार पर वर्तनी सुधार समर्थन है, इसलिए मैं वास्तव में क्या चाहता हूं। क्या इसके बजाय एक्सपियन का उपयोग करना उचित है? मैं अभी भी काफी उलझन में हूं कि मुझे किस फुलटेक्स्ट सर्च इंजन का उपयोग करना चाहिए: स्फिंक्स काफी अच्छा प्रतीत होता है, लेकिन एक्सपियन (या शायद लुसीन?) की कुछ अच्छी सुविधाओं की कमी है, जबकि ऐसा लगता है कि बाद वाले के पास छोटे समुदाय और कम दस्तावेज हैं।

मुझे लगता है कि मैं pspell शब्दकोश में मौजूद शब्दों के साथ समस्या को हल नहीं कर सकता, इसके लिए कस्टम एक का उपयोग कर, लेकिन मुझे यकीन नहीं है कि यह ध्यान देने योग्य प्रदर्शन हानि लगाएगा या नहीं? मैं एक लोकप्रिय लोकप्रिय वेबसाइट पर स्पॉटलाइट सर्च (दर्ज किए गए प्रत्येक पत्र पर AJAX के माध्यम से अलग खोज) के लिए खोज प्रणाली का उपयोग करने जा रहा हूं, इसलिए प्रदर्शन मायने रखता है।

आदर्श रूप से, मैं कुछ क्षेत्रों जैसे ब्रांड नामों को सामान्य शब्दकोश पर अधिक प्राथमिकता देना चाहता हूं लेकिन मुझे लगता है कि यह वास्तव में महत्वपूर्ण नहीं है क्योंकि अधिकांश ब्रांड नाम दूसरे शब्दों से काफी अलग हैं।

कस्टम पूर्ण-पाठ खोज इंजन के सामान्य डिज़ाइन पर कोई भी सुझाव स्वागत है।

धन्यवाद

+0

क्या आपने अपाचे सोलर पर स्विच करने पर विचार किया था? यह ल्यूसीन के शीर्ष पर बनाया गया एक खोज मंच है: http://lucene.apache.org/solr/features.html#Detailed+ विशेषताएं – nuqqsa

उत्तर

1

स्फिंक्स आप आकृति विज्ञान preprocessors और शब्द का उपयोग करने की अनुमति देता रूपों शब्दकोशों। इन दोनों संयुक्त जो आप प्राप्त करना चाहते हैं उसके करीब हो सकते हैं। आप यहां दोनों विषयों के बारे में अधिक पढ़ सकते हैं: http://sphinxsearch.com/docs/manual-0.9.8.html#conf-morphology और नीचे।

मॉर्फोलॉजी प्रीप्रोसेसरों के कई "स्वाद" उपलब्ध हैं, जो आपकी आवश्यकताओं के अनुरूप सर्वोत्तम विकल्प चुनते हैं। दस्तावेज़ों में स्नोबॉल प्रोजेक्ट का भी उल्लेख है, जिसका उपयोग आवश्यकतानुसार अंतर्निहित अंग्रेजी और रूसी की तुलना में अन्य भाषाओं में उपभेदों को जोड़ने के लिए किया जा सकता है। प्रोजेक्ट वेबसाइट: http://snowball.tartarus.org/

स्फिंक्स एक बहुत तेज़ पूर्ण पाठ खोज इंजन है और स्टेमर्स का उपयोग करके इसे धीमा करने की संभावना नहीं है कि आप इसे देखना शुरू कर दें।

5

स्फिंक्स में कोई अंतर्निहित वर्तनी-सुधार नहीं है, लेकिन इसे स्फिंक्स का उपयोग करके कार्यान्वित किया जा सकता है। इसके बारे में केवल एक कैसे लेख (स्फिंक्स लेखक द्वारा) http://habrahabr.ru/blogs/sphinx/61807 (रूसी में, आप इस आलेख को पढ़ने के लिए GoogleTranslate का उपयोग कर सकते हैं। "Я понял, это намек।" नाम के आलेख के दूसरे भाग को देखें)

मैं हाल ही में उस विधि को लागू करता हूं - सही काम करता है!

+0

Google का रूसी मेरा से बेहतर तरीका है, लेकिन यह अभी भी तकनीकी निर्देश उद्देश्यों के लिए बहुत बेकार है। –

+0

@ बेमस, स्रोत टैरबॉल में विविध/सुझाव निर्देशिका में देखें। यह एक बुनियादी विचार देता है कि यह कैसे काम करता है। – user187291

+0

हाँ! सुझाव सुविधा का मेरा कार्यान्वयन स्फिंक्स टैरबॉल के विविध/सुझाव फ़ोल्डर की सामग्री पर आधारित था। @stereofrog धन्यवाद! – seriyPS

संबंधित मुद्दे