2011-10-20 18 views
7

मैं 3 Langues (, अरबी फ्रेंच और अंग्रेजी) में सूचकांक दस्तावेजों के Solr उपयोग कर रहा हूँ के लिए, मैं इस fieldType का इस्तेमाल किया है:Solr अरबी

<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100"> 
    <analyzer type="index"> 
     <tokenizer class="solr.StandardTokenizerFactory"/> 
     <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/> 
     <filter class="solr.LowerCaseFilterFactory"/> 
    </analyzer> 
    <analyzer type="query"> 
     <tokenizer class="solr.StandardTokenizerFactory"/> 
     <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/> 
     <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/> 
     <filter class="solr.LowerCaseFilterFactory"/> 
    </analyzer> 
</fieldType> 

सब कुछ अच्छा था, लेकिन अरबी भाषा में जब मैं इस डाल حقل जैसे शब्द को खोजने का अनुरोध सोलर शब्द नहीं ढूंढता है, लेकिन जब मैंने शब्द को لقح से बाएं से दाएं तरफ रखा है तो शब्द शब्द और वापसी परिणाम ढूंढें।

क्या मेरे पास अरबी शब्द का परिणाम हो सकता है?

+1

मुझे किसी भी तंत्र के बारे में पता नहीं है जो सोलर में आरटीएल पाठ के क्रम को उलट सकता है। आम तौर पर, लोगों को लगता है कि वे सभी अंतर्निहित रूपों से निपटने के लिए अरबी में कुछ प्रकार के लेमैमैटिज़ेशन चाहते हैं। यूआई बनाने के लिए आप क्या उपयोग कर रहे हैं कि आप खोज शब्द टाइप कर रहे हैं? – bmargulies

+0

मैं एक वेब पेज का उपयोग कर रहा हूं, मेरे परीक्षण में भी मैं सीधे एपीएल सोल्रज के साथ एक्लिप्स का उपयोग करता हूं। –

+2

क्या आप पीडीएफ फाइलों से अपने पाठ को अतिरिक्त करने के किसी भी मौके से हैं? यदि ऐसा है तो Tika के साथ एक ज्ञात समस्या प्रतीत होती है: https://issues.apache.org/jira/browse/TIKA-469?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=12995516 –

उत्तर

5

मैं डैनियल के चालाक विश्लेषण को रिकॉर्ड के जवाब में बदलने जा रहा हूं। इसके लिए वोट न दें, बस इसके लिए वोट देने के लिए कुछ ढूंढें :-)

आरटीएल टेक्स्ट के साथ दिशात्मकता मेल नहीं खा पाने के दो तरीके हैं। आप इसे पीछे की ओर अनुक्रमणित कर सकते हैं, या आप इसे पीछे से पूछताछ कर सकते हैं। सोलर से पूछताछ करने वाला एक साधारण HTML फॉर्म दिशात्मकता को कभी गड़बड़ नहीं करेगा। इस देखभाल में, खलील एक पुस्तकालय का उपयोग करके पीडीएफ से टेक्स्ट निकाल रहा था जो 'लॉजिकल ऑर्डर' के बजाय 'विज़ुअल ऑर्डर' टेक्स्ट रखने के लिए पीडीएफ की प्रवृत्ति से पीड़ित होता है। तो सूचकांक पीछे अरबी से भरा था। इसे ठीक करने के लिए, उसे एक वर्किंग लाइब्रेरी के साथ आना होगा जो पीडीएफ से पाठ निकालता है।

अपाचे टिका को नवीनतम अपाचे पीडीएफबॉक्स का उपयोग करने के लिए मजबूर करना मदद कर सकता है, या उसका पीडीएफ इतना विचित्र हो सकता है कि नवीनतम पीडीएफबॉक्स भी इसे संभाल नहीं सकता है। इस मामले में उसे एक कठिन समस्या है।

+1

धन्यवाद, मेरी परियोजना में आईसीयू 4 जे.जर शामिल है, अब टिका किसी भी समस्या के बिना अरबी पाठ निकाल सकता है। –

+0

कृपया मुझे एक ही समस्या है, क्या आप एक ही समस्या का समाधान कर सकते हैं: http://stackoverflow.com/questions/10076959/how-to-parse-arabic-pdf-with-tika –

+0

हाय खलील, परियोजना में "आईसीयू 4 जे" शामिल करने का क्या मतलब है? मुझे नहीं पता कि यह कैसे किया जा सकता है। क्या कोई इस पर रोशनी डाल सकता है? –