2010-10-06 10 views
20

बस लुसीन.Net के साथ शुरू करना। मैंने मानक विश्लेषक का उपयोग करके 100,000 पंक्तियों को अनुक्रमित किया, कुछ परीक्षण प्रश्नों को चलाया, और देखा कि मूल शब्द एकवचन होने पर बहुवचन प्रश्न परिणाम नहीं लौटाते हैं। मैं समझता हूं कि स्नोबॉल विश्लेषक स्टेमिंग सपोर्ट जोड़ता है, जो अच्छा लगता है। हालांकि, मैं सोच रहा हूं कि मानक पर स्नोबॉल के साथ गोंग में कोई कमी है? क्या मैं इसके साथ जाकर कुछ खो रहा हूं? क्या वहां कोई अन्य विश्लेषक विचार करने के लिए हैं?ल्यूसीन मानक विश्लेषक बनाम स्नोबॉल

+0

यदि आप स्नोबॉल विश्लेषक का उपयोग करते हैं, तो आपको एकवचन/बहुवचन के परिणाम मिलना चाहिए, क्योंकि स्नोबॉल उन्हें उसी रूप में सामान्यीकृत करेगा। क्या आप वाकई एक इंडेक्स बनाने और पूछताछ के लिए एक ही विश्लेषक का उपयोग करते हैं? – Skarab

उत्तर

18

हां, स्नोबॉल जैसे स्टेमर का उपयोग करके, आप अपने टेक्स्ट के मूल रूप के बारे में जानकारी खो रहे हैं। कभी-कभी यह उपयोगी होगा, कभी-कभी नहीं।

उदाहरण के लिए, स्नोबॉल "संगठन" को "अंग" में रखेगा, इसलिए "संगठन" की खोज किसी भी स्कोरिंग जुर्माना के बिना "अंग" के साथ परिणाम लौटाएगी।

चाहे यह आपके लिए उचित है या नहीं, आपकी सामग्री पर निर्भर करता है और आप जिस प्रकार के प्रश्नों का समर्थन कर रहे हैं, उस पर निर्भर करता है (उदाहरण के लिए, खोज बहुत ही बुनियादी हैं, या उपयोगकर्ता बहुत परिष्कृत हैं और सटीक रूप से फ़िल्टर करने के लिए आपकी खोज का उपयोग कर रहे हैं परिणाम)। आप KStem जैसे कम आक्रामक स्टेमर्स भी देखना चाहते हैं।

+0

मैंने अभी यह पता लगाया है कि आप इस "कंगारोस ~" जैसी अस्पष्ट खोज भी कर सकते हैं जो शब्द के एकवचन संस्करणों को भी वापस कर देगा, हालांकि यह क्वेरी को संसाधित करने में थोड़ा अधिक समय लगता है। – alchemical

+0

@ रसायन रसायन: मैं वास्तव में ऐसा करने के खिलाफ सिफारिश करता हूं। ~ एक बहुत ही धीमी ऑपरेटर है, और यदि आपका उपयोगकर्ता किसी वाक्यांश के लिए खोज की तरह सामान करता है तो आप थोड़े खराब हो जाते हैं। यदि आप "कंगारू" को "कंगारू" के रूप में संग्रहीत करते हैं तो यह इतना बुरा क्यों है? – Xodarap

+0

ठीक है, यह जानना अच्छा है - KStem का उपयोग करने के लिए आपको सौर की आवश्यकता है? क्या आपको इसे एकीकृत करने के लिए लुसीन स्रोत कोड के साथ काम करने की ज़रूरत है? – alchemical

4

मैंने अभी एक विश्लेषक तैयार किया है जो लेमैमैटिज़ेशन करता है। यह stemming के समान है, सिवाय इसके कि यह एक शब्द के प्रकार (संज्ञा, क्रिया, आदि) निर्धारित करने के लिए संदर्भ का उपयोग करता है और उस जानकारी का उपयोग स्टेम प्राप्त करने के लिए करता है। यह इंडेक्स में शब्द का मूल रूप भी रखता है। शायद my library आपके लिए उपयोग किया जा सकता है। इसके लिए लुसीन जावा की आवश्यकता है, और मुझे किसी भी सी #/.NET लेमैमाइज़र के बारे में पता नहीं है।

6

snowball विश्लेषक आपकी याद में वृद्धि करेगा, क्योंकि यह मानक विश्लेषक की तुलना में अधिक आक्रामक है। इसलिए आपको का मूल्यांकन करने के लिए अपने खोज परिणामों की समीक्षा करने के लिए recall or precision को बढ़ाने की आवश्यकता है या नहीं।

संबंधित मुद्दे