2009-06-16 10 views
6

के साथ उपयोग करने के लिए सर्वश्रेष्ठ क्रॉस-भाषा विश्लेषक मैं एक ऐसे इंडेक्स के साथ उपयोग करने के लिए विश्लेषक का उपयोग कर रहा हूं जिसमें एकाधिक भाषाओं के दस्तावेज़ हैं। वर्तमान में मैं सरलता का उपयोग कर रहा हूं, क्योंकि यह भाषाओं की सबसे बड़ी मात्रा को संभालने लगता है। अनुक्रमित किए जाने वाले अधिकांश दस्तावेज अंग्रेजी होंगे, लेकिन कभी-कभी डबल-बाइट भाषा भी अनुक्रमित होगी।ल्यूसीन इंडेक्स

क्या कोई अन्य सुझाव हैं या क्या मुझे बस सरलताकार के साथ रहना चाहिए।

धन्यवाद

उत्तर

1

SimpleAnalyzer वास्तव में आसान है, सब यह करता है लोअर केस मामले है। मैंने सोचा होगा कि मानक विश्लेषक गैर-अंग्रेजी भाषा डेटा के साथ भी सरल विश्लेषक से बेहतर परिणाम देगा। आप डिफ़ॉल्ट अंग्रेजी-भाषा वाले लोगों के अलावा स्टॉप शब्दों की एक कस्टम सूची की आपूर्ति करके शायद इसे थोड़ा सुधार सकते हैं।

2

मैंने गैर-अंग्रेज़ी शब्दों के साथ मानक विश्लेषक का उपयोग किया है और यह ठीक काम करता है। यह उच्चारण वर्णों से भी संबंधित है। यदि भाषा सीजेके (चीनी, जापानी, कोरियाई) है, तो रूसी या जर्मन में समस्याएं हो सकती हैं, लेकिन मुझे संदेह है कि ज्यादातर समस्याएं शब्दों के दायरे से संबंधित होंगी। यदि आपके पास स्टेमिंग सक्षम नहीं है, तो यह शायद पर्याप्त होगा।

6

आपके विवरण से, मुझे लगता है कि आपके पास एकाधिक भाषाओं का दस्तावेज़ है लेकिन प्रत्येक दस्तावेज़ में केवल एक भाषा में टेक्स्ट है।

इस मामले के लिए, आप दस्तावेज़ की भाषा प्राप्त करने के लिए नच की भाषा पहचान का उपयोग कर सकते हैं। फिर सूचकांक के लिए संबंधित भाषा विश्लेषक का उपयोग करें। खोज के लिए सही परिणाम प्राप्त करने के लिए, आपको खोज क्वेरी में भाषा पहचान लागू करने की आवश्यकता है और उस विश्लेषक का उपयोग करें।

ऊपर की ओर आप भाषा-विशिष्ट स्टेमर & स्टॉपवर्ड का उपयोग करने में सक्षम होंगे, खोज की गुणवत्ता को दबाएंगे। इंडेक्सिंग के दौरान अतिरिक्त ओवरहेड स्वीकार्य होना चाहिए। खोज क्वेरी जहां भाषा पहचान सही भाषा की पहचान करने में विफल रहता है, हालांकि पीड़ित हो सकता है। मैंने इस दो साल पहले उपयोग किया है और परिणाम अपेक्षा से बेहतर थे।

सीजेके के लिए, आप समान तकनीक लागू कर सकते हैं लेकिन उपकरण अलग-अलग हो सकते हैं।

+0

मुझे आपके सुझाव भी पसंद हैं, अधिक उन्नत लेकिन मैं इस पर माइग्रेट कर सकता हूं। यह एक उत्कृष्ट संतुलन प्रदान करता है। – Halirob

0

सबसे पहले, आपको यह पता होना चाहिए कि आपकी अपनी भाषा क्या है? उदाहरण के लिए मेरे दस्तावेज़ अंग्रेजी, जापान या फारसी में हैं। आप यूटीएफ -8 अक्षरों पर प्रक्रिया द्वारा अपनी दस्तावेज़ भाषा पा सकते हैं।

फिर, जब आपको लगता है कि आपका दस्तावेज़ किस भाषा में है, तो आप इसे विशिष्ट विश्लेषक के साथ विश्लेषण कर सकते हैं।

1

शुद्ध रूप से अचूक सबूत, लेकिन हम अपने सिस्टम के लिए StandardAnalyzer के एक (अनुकूलित, लेकिन किसी भी प्रासंगिक तरीके से नहीं) संस्करण का उपयोग करते हैं। हमारे दस्तावेज़ न केवल एक दूसरे के लिए अलग-अलग भाषाओं में हो सकते हैं, लेकिन दस्तावेज़ों में विभिन्न भाषाओं के टुकड़े हो सकते हैं (उदाहरण के लिए, अंग्रेजी में टिप्पणियों के साथ जापानी में लिखे गए लेख की कल्पना करें), इसलिए भाषा-स्नीफिंग मुश्किल है।

हमारे अधिकांश दस्तावेज अंग्रेजी में हैं, लेकिन चीनी और जापानी में महत्वपूर्ण संख्याएं फ्रेंच, स्पेनिश, पुर्तगाली और कोरियाई में एक छोटी संख्या के साथ हैं।

अंतिम परिणाम? हम StandardAnalyzer का उपयोग करते हैं, और हमारे खोज कार्यों के तरीके के बारे में गैर रोमन भाषाओं में सिस्टम का उपयोग करने वाले लोगों से बहुत कम शिकायतें हैं। हमारी प्रणाली कुछ हद तक 'लागू' है, वैसे, इसलिए ऐसा नहीं है कि लोग शिकायत नहीं कर रहे हैं लेकिन कहीं और चल रहे हैं; अगर वे दुखी हैं, तो हम आम तौर पर जानते हैं।

तो इस तथ्य के आधार पर कि मैं उपयोगकर्ता शिकायतों (बहुत ही कभी-कभी, मुख्य रूप से चीनी के बारे में नहीं, बल्कि कुछ भी गंभीर नहीं है और उन्हें आसानी से समझाया जाता है) के साथ घिरा हुआ नहीं है, यह कई मामलों के लिए 'काफी अच्छा' लगता है।

1

सही उत्तर आपकी मुख्य भाषा (यदि कोई है) पर निर्भर करता है।

सर्वोत्तम क्रॉस-भाषा आईआर प्रदर्शन के लिए मैं 4/5-ग्राम विश्लेषक के साथ जाऊंगा, यह कई भाषाओं पर बहुत अच्छा काम दिखा रहा है। यह अंग्रेजी के लिए SimpleAnalyzer से भी बेहतर काम कर सकता है। उदाहरण के लिए http://www.eecs.qmul.ac.uk/~christof/html/publications/inrt142.pdf देखें।

I have looked into this, लेकिन किसी अन्य कोण से। ऐसा लगता है कि कोई पकड़ नहीं है - सभी विश्लेषक - प्रत्येक भाषा को सर्वोत्तम परिणामों के लिए अपने दृष्टिकोण की आवश्यकता होती है।

संबंधित मुद्दे