शुद्ध रूप से अचूक सबूत, लेकिन हम अपने सिस्टम के लिए StandardAnalyzer
के एक (अनुकूलित, लेकिन किसी भी प्रासंगिक तरीके से नहीं) संस्करण का उपयोग करते हैं। हमारे दस्तावेज़ न केवल एक दूसरे के लिए अलग-अलग भाषाओं में हो सकते हैं, लेकिन दस्तावेज़ों में विभिन्न भाषाओं के टुकड़े हो सकते हैं (उदाहरण के लिए, अंग्रेजी में टिप्पणियों के साथ जापानी में लिखे गए लेख की कल्पना करें), इसलिए भाषा-स्नीफिंग मुश्किल है।
हमारे अधिकांश दस्तावेज अंग्रेजी में हैं, लेकिन चीनी और जापानी में महत्वपूर्ण संख्याएं फ्रेंच, स्पेनिश, पुर्तगाली और कोरियाई में एक छोटी संख्या के साथ हैं।
अंतिम परिणाम? हम StandardAnalyzer
का उपयोग करते हैं, और हमारे खोज कार्यों के तरीके के बारे में गैर रोमन भाषाओं में सिस्टम का उपयोग करने वाले लोगों से बहुत कम शिकायतें हैं। हमारी प्रणाली कुछ हद तक 'लागू' है, वैसे, इसलिए ऐसा नहीं है कि लोग शिकायत नहीं कर रहे हैं लेकिन कहीं और चल रहे हैं; अगर वे दुखी हैं, तो हम आम तौर पर जानते हैं।
तो इस तथ्य के आधार पर कि मैं उपयोगकर्ता शिकायतों (बहुत ही कभी-कभी, मुख्य रूप से चीनी के बारे में नहीं, बल्कि कुछ भी गंभीर नहीं है और उन्हें आसानी से समझाया जाता है) के साथ घिरा हुआ नहीं है, यह कई मामलों के लिए 'काफी अच्छा' लगता है।
मुझे आपके सुझाव भी पसंद हैं, अधिक उन्नत लेकिन मैं इस पर माइग्रेट कर सकता हूं। यह एक उत्कृष्ट संतुलन प्रदान करता है। – Halirob