2013-07-08 4 views
18

लुसीन का डिफॉल्ट स्टॉपफिल्टर (http://lucene.apache.org/core/4_0_0/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html) है, क्या किसी को पता है कि सूची में कौन से शब्द हैं?ल्यूसीन के स्टॉपफिल्टर में उपयोग किए गए स्टॉपवर्ड की डिफ़ॉल्ट सूची क्या है?

उत्तर

33

डिफ़ॉल्ट रोकने वाले शब्द StandardAnalyzer में स्थापित है और EnglishAnalyzerStopAnalyzer.ENGLISH_STOP_WORDS_SET से है, और वे कर रहे हैं:

"a", "an", "and", "are", "as", "at", "be", "but", "by", 
"for", "if", "in", "into", "is", "it", 
"no", "not", "of", "on", "or", "such", 
"that", "the", "their", "then", "there", "these", 
"they", "this", "to", "was", "will", "with" 

StopFilter ही रोकने वाले शब्द का कोई डिफ़ॉल्ट सेट को परिभाषित करता है।

+0

मैं कीवर्ड लाने के लिए 'ल्यूसीन 5.5.0 का उपयोग कर रहा हूं। मैं 'tokenStream = new StopFilter (नया क्लासिकफ़िल्टर (नया लोअरकेसफ़िल्टर (stdToken)), StopAnalyzer.ENGLISH_STOP_WORDS_SET) के साथ स्टॉप शब्द फ़िल्टर निर्दिष्ट करता हूं;' लेकिन 'ल्यूसीन' स्टॉप शब्दों को फ़िल्टर नहीं करता है। क्या मुझे कुछ याद आ रहा है? –

+1

वास्तविक स्रोत लिंक: http://alvinalexander.com/java/jwarehouse/lucene/src/java/org/apache/lucene/analysis/StopAnalyzer.java.shtml –

+2

सूची वर्तमान लोचदार खोज में पाया जा सकता है: परिभाषा गाइड , [स्टॉपवर्ड्स: प्रदर्शन बनाम प्रेसिजन] (https://www.elastic.co/guide/en/elasticsearch/guide/current/stopwords.html) – Paul

संबंधित मुद्दे