2008-10-22 18 views
7

मुझे जिस परियोजना पर काम कर रहा है, उसके लिए मुझे एक अच्छा स्टेमिंग एल्गोरिदम चाहिए। यह सुझाव दिया गया था कि मैं पोर्टर स्टेमर को देखता हूं। जब मैंने पोर्टर स्टेमर पर पेज की जांच की तो मुझे पता चला कि अब इसे "स्नोबॉल" स्टेमर के पक्ष में हटा दिया गया है।सबसे अच्छा "टर्नकी" स्टेमिंग एल्गोरिदम क्या है?

मुझे एक अच्छा स्टेमर चाहिए, लेकिन मैं वास्तव में अपना समय लागू करने (या अनुकूलित करने) में महत्वपूर्ण समय नहीं लगा सकता। सबसे अच्छा "शेल्फ से बाहर" क्या है, स्वतंत्र रूप से उपलब्ध स्टेमर? क्या उचित मूल्य के लिए कोई गैर-मुक्त स्टेमर्स उपलब्ध हैं? या, स्नोबॉल स्टेमर मेरा सबसे अच्छा शर्त है?

उत्तर

8

Porter2 स्टेमर वह है जिसे मैंने जाने का फैसला किया है। ऐसा लगता है कि पोर्टर स्टेमर मानक था, लेकिन जब मुझे लेखक द्वारा पृष्ठ मिला तो उसने "स्नोबॉल (पोर्टर 2)" स्टेमर की सिफारिश की। इस पृष्ठ पर एक सी पोर्ट लिंक है।

2

यह वास्तव में इस पर निर्भर करता है कि आप इसे कैसे लागू करने की योजना बना रहे हैं। प्राकृतिक भाषा टूलकिट (http://nltk.sourceforge.net) में इसमें कई स्टेमर्स लागू किए गए हैं जो अधिकांश अनुप्रयोगों को संभालने में सक्षम होना चाहिए। मैं मोर्फी स्टेमर पसंद करते हैं।

बेशक, यह पाइथन में उपलब्ध है, इसलिए यदि आप किसी अन्य भाषा के साथ काम कर रहे हैं, तो आप हमेशा एल्गोरिदम को गले लगाने के लिए कोड को देख सकते हैं और इसे अपनी पसंद की भाषा में स्थानांतरित कर सकते हैं। पायथन अत्यधिक पठनीय है।

संबंधित मुद्दे