ल्यूसीन इंडेक्स

के साथ उपयोग करने के लिए सर्वश्रेष्ठ क्रॉस-भाषा विश्लेषक मैं एक ऐसे इंडेक्स के साथ उपयोग करने के लिए विश्लेषक का उपयोग कर रहा हूं जिसमें एकाधिक भाषाओं के दस्तावेज़ हैं। वर्तमान में मैं सरलता का उपयोग कर रहा हूं, क्योंकि यह भाषाओं की सबसे बड़ी मात्रा को संभालने लगता है। अनुक्रमित किए जाने वाले अधिकांश दस्तावेज अंग्रेजी होंगे, लेकिन कभी-कभी डबल-बाइट भाषा भी अनुक्रमित होगी।ल्यूसीन इंडेक्स

क्या कोई अन्य सुझाव हैं या क्या मुझे बस सरलताकार के साथ रहना चाहिए।

धन्यवाद

स्रोत

2009-06-16 Halirob

SimpleAnalyzer वास्तव में आसान है, सब यह करता है लोअर केस मामले है। मैंने सोचा होगा कि मानक विश्लेषक गैर-अंग्रेजी भाषा डेटा के साथ भी सरल विश्लेषक से बेहतर परिणाम देगा। आप डिफ़ॉल्ट अंग्रेजी-भाषा वाले लोगों के अलावा स्टॉप शब्दों की एक कस्टम सूची की आपूर्ति करके शायद इसे थोड़ा सुधार सकते हैं।

स्रोत

2009-06-16 11:55:50 skaffman

मैंने गैर-अंग्रेज़ी शब्दों के साथ मानक विश्लेषक का उपयोग किया है और यह ठीक काम करता है। यह उच्चारण वर्णों से भी संबंधित है। यदि भाषा सीजेके (चीनी, जापानी, कोरियाई) है, तो रूसी या जर्मन में समस्याएं हो सकती हैं, लेकिन मुझे संदेह है कि ज्यादातर समस्याएं शब्दों के दायरे से संबंधित होंगी। यदि आपके पास स्टेमिंग सक्षम नहीं है, तो यह शायद पर्याप्त होगा।

स्रोत

2009-06-16 12:26:10 adrianbanks

आपके विवरण से, मुझे लगता है कि आपके पास एकाधिक भाषाओं का दस्तावेज़ है लेकिन प्रत्येक दस्तावेज़ में केवल एक भाषा में टेक्स्ट है।

इस मामले के लिए, आप दस्तावेज़ की भाषा प्राप्त करने के लिए नच की भाषा पहचान का उपयोग कर सकते हैं। फिर सूचकांक के लिए संबंधित भाषा विश्लेषक का उपयोग करें। खोज के लिए सही परिणाम प्राप्त करने के लिए, आपको खोज क्वेरी में भाषा पहचान लागू करने की आवश्यकता है और उस विश्लेषक का उपयोग करें।

ऊपर की ओर आप भाषा-विशिष्ट स्टेमर & स्टॉपवर्ड का उपयोग करने में सक्षम होंगे, खोज की गुणवत्ता को दबाएंगे। इंडेक्सिंग के दौरान अतिरिक्त ओवरहेड स्वीकार्य होना चाहिए। खोज क्वेरी जहां भाषा पहचान सही भाषा की पहचान करने में विफल रहता है, हालांकि पीड़ित हो सकता है। मैंने इस दो साल पहले उपयोग किया है और परिणाम अपेक्षा से बेहतर थे।

सीजेके के लिए, आप समान तकनीक लागू कर सकते हैं लेकिन उपकरण अलग-अलग हो सकते हैं।

स्रोत

2009-06-16 16:33:59

मुझे आपके सुझाव भी पसंद हैं, अधिक उन्नत लेकिन मैं इस पर माइग्रेट कर सकता हूं। यह एक उत्कृष्ट संतुलन प्रदान करता है। – Halirob

सबसे पहले, आपको यह पता होना चाहिए कि आपकी अपनी भाषा क्या है? उदाहरण के लिए मेरे दस्तावेज़ अंग्रेजी, जापान या फारसी में हैं। आप यूटीएफ -8 अक्षरों पर प्रक्रिया द्वारा अपनी दस्तावेज़ भाषा पा सकते हैं।

फिर, जब आपको लगता है कि आपका दस्तावेज़ किस भाषा में है, तो आप इसे विशिष्ट विश्लेषक के साथ विश्लेषण कर सकते हैं।

स्रोत

2010-05-03 06:22:50

शुद्ध रूप से अचूक सबूत, लेकिन हम अपने सिस्टम के लिए StandardAnalyzer के एक (अनुकूलित, लेकिन किसी भी प्रासंगिक तरीके से नहीं) संस्करण का उपयोग करते हैं। हमारे दस्तावेज़ न केवल एक दूसरे के लिए अलग-अलग भाषाओं में हो सकते हैं, लेकिन दस्तावेज़ों में विभिन्न भाषाओं के टुकड़े हो सकते हैं (उदाहरण के लिए, अंग्रेजी में टिप्पणियों के साथ जापानी में लिखे गए लेख की कल्पना करें), इसलिए भाषा-स्नीफिंग मुश्किल है।

हमारे अधिकांश दस्तावेज अंग्रेजी में हैं, लेकिन चीनी और जापानी में महत्वपूर्ण संख्याएं फ्रेंच, स्पेनिश, पुर्तगाली और कोरियाई में एक छोटी संख्या के साथ हैं।

अंतिम परिणाम? हम StandardAnalyzer का उपयोग करते हैं, और हमारे खोज कार्यों के तरीके के बारे में गैर रोमन भाषाओं में सिस्टम का उपयोग करने वाले लोगों से बहुत कम शिकायतें हैं। हमारी प्रणाली कुछ हद तक 'लागू' है, वैसे, इसलिए ऐसा नहीं है कि लोग शिकायत नहीं कर रहे हैं लेकिन कहीं और चल रहे हैं; अगर वे दुखी हैं, तो हम आम तौर पर जानते हैं।

तो इस तथ्य के आधार पर कि मैं उपयोगकर्ता शिकायतों (बहुत ही कभी-कभी, मुख्य रूप से चीनी के बारे में नहीं, बल्कि कुछ भी गंभीर नहीं है और उन्हें आसानी से समझाया जाता है) के साथ घिरा हुआ नहीं है, यह कई मामलों के लिए 'काफी अच्छा' लगता है।

स्रोत

2010-05-03 10:07:25 Cowan

सही उत्तर आपकी मुख्य भाषा (यदि कोई है) पर निर्भर करता है।

सर्वोत्तम क्रॉस-भाषा आईआर प्रदर्शन के लिए मैं 4/5-ग्राम विश्लेषक के साथ जाऊंगा, यह कई भाषाओं पर बहुत अच्छा काम दिखा रहा है। यह अंग्रेजी के लिए SimpleAnalyzer से भी बेहतर काम कर सकता है। उदाहरण के लिए http://www.eecs.qmul.ac.uk/~christof/html/publications/inrt142.pdf देखें।

I have looked into this, लेकिन किसी अन्य कोण से। ऐसा लगता है कि कोई पकड़ नहीं है - सभी विश्लेषक - प्रत्येक भाषा को सर्वोत्तम परिणामों के लिए अपने दृष्टिकोण की आवश्यकता होती है।

स्रोत

2010-08-25 00:11:23 synhershko

ल्यूसीन इंडेक्स

उत्तर

संबंधित मुद्दे