2009-06-26 15 views
10

किसी को भी एक अच्छी किताब (s)/कागज (रों)/लेख (ओं) पर पूर्ण पाठ खोज (और शायद सामान्य रूप में का अनुक्रमण) की सिफारिश कर सकते हैं। मुझे यह समझाया गया कि मेरी अनुप्रयोगों में पर्दे के पीछे क्या हो रहा है होने के बारे में बहुत गुदा हूं, और मैं समझ समस्या हो रही है क्यों स्फिंक्स और अन्य बाहरी FTS की धूल में MySQL/MyISAM छोड़ देता है।पूर्ण पाठ खोज प्राइमर?

उत्तर

5

नीचे से पूर्ण पाठ खोज को समझने के लिए, मैं "गीगाबाइट प्रबंधित करना" की अनुशंसा करता हूं।

http://www.cs.mu.oz.au/mg/

2

मैं this के साथ शुरू होगा। यह SQL सर्वर के लिए है, लेकिन एक पठन चोट नहीं पहुंचाएगा, क्योंकि कार्यान्वयन विवरण के अलावा कई अवधारणाएं डीबी के समान ही होंगी (बहुत संभावना है)।

3

मैं postgres पूर्ण पाठ खोज पेज http://www.postgresql.org/docs/8.3/static/textsearch.html बहुत शिक्षाप्रद पाया।

विशेष रूप से: http://www.postgresql.org/docs/8.3/static/textsearch-intro.html

शाब्दिक खोज ऑपरेटर साल के लिए डेटाबेस में ही अस्तित्व में है। PostgreSQL है ~, ~ *, टेक्स्ट का डेटा प्रकार के लिए पसंद है, और iLike ऑपरेटरों, पर वे कई आवश्यक गुण आधुनिक सूचना प्रणाली के लिए आवश्यक की कमी:

  • वहाँ, कोई भाषाई समर्थन है भी अंग्रेजी के लिए। रेग्युलर एक्सप्रेशंस नहीं पर्याप्त है क्योंकि वे आसानी से व्युत्पन्न संभाल शब्द, उदाहरण के लिए, संतुष्ट नहीं कर सकते हैं और संतुष्ट हैं। आप दस्तावेज़ों को याद कर सकते हैं जिनमें संतुष्टि होती है, हालांकि आप शायद को संतुष्ट करने के लिए खोज करते समय उन्हें ढूंढना चाहेंगे। एकाधिक व्युत्पन्न रूपों के लिए का उपयोग करना संभव है, लेकिन यह कठिन और त्रुटि-प्रवण है (कुछ शब्दों में कई हजार डेरिवेटिव हो सकते हैं)।
  • वे खोज परिणामों की कोई ऑर्डरिंग (रैंकिंग) प्रदान नहीं करते हैं, जो उन्हें अप्रभावी बनाता है जब हजारों मेल खाने वाले दस्तावेज़ पाए जाते हैं।
  • वे धीमे होते हैं क्योंकि कोई अनुक्रमणिका समर्थन नहीं है, इसलिए उन्हें प्रत्येक खोज के लिए सभी दस्तावेज़ों को संसाधित करना होगा।
3

वहाँ एक उत्कृष्ट मुक्त सूचना पुनर्प्राप्ति पुस्तक (क्रिस्टोफर डी मैनिंग, प्रभाकर राघवन और हिन्रिच Schütze, सूचना पुनर्प्राप्ति का परिचय, कैम्ब्रिज यूनिवर्सिटी प्रेस। 2008), पाठ खोज सहित, उपलब्ध मुक्त (legit) here है।

संबंधित मुद्दे