2013-03-26 5 views
5

अपाचे टीका चीनी, जापानी जैसी विदेशी भाषाओं को निकालने में सक्षम है? "?" इनपुट कोई दस्तावेज़ फ़ाइल है कि चीनी वर्ण हैं हैअपाचे टीका चीनी, जापानी जैसी विदेशी भाषाओं को निकालने में सक्षम है?

Detector detector = new DefaultDetector(); 
    Parser parser = new AutoDetectParser(detector); 
    InputStream stream = new ByteArrayInputStream(bytes); 
    OutputStream outputstream = new ByteArrayOutputStream(); 
    ContentHandler textHandler = new BodyContentHandler(outputstream); 
    Metadata metadata = new Metadata(); 
    // Set<String> langs = LanguageIdentifier.getSupportedLanguages(); 
    // metadata.set(Metadata.CONTENT_LANGUAGE, lang); 
    // metadata.set(Metadata.FORMAT, hint); 
    ParseContext context = new ParseContext(); 
    try { 
     parser.parse(stream, textHandler, metadata, context); 
     String extractedText = outputstream.toString(); 
     return extractedText; 
    } catch (IOException e) { 
     e.printStackTrace(); 
    } catch (SAXException e) { 
     e.printStackTrace(); 
    } catch (TikaException e) { 
     e.printStackTrace(); 
    } 

हैं, तो प्रत्येक चीनी अक्षरों के रूप में निकाला जाएगा:

मैं निम्नलिखित कोड है।

बहुत बहुत धन्यवाद!

+0

टिकिका उन्हें ठीक से संभालने में सक्षम होना चाहिए। क्या आप वाकई पाठ को आउटपुट/देखने पर सही एन्कोडिंग प्राप्त कर चुके हैं? (संकेत - यह संभवतः यूटीएफ -8 की तरह कुछ होने की आवश्यकता होगी, और आपको इसे एक फ़ॉन्ट का उपयोग करके प्रदर्शित करना होगा जिसमें चीनी वर्णों के लिए ग्लिफ हैं!) – Gagravarr

उत्तर

0

मैं नहीं कहीं भी देखा लिखा है कि अपाचे टीका चीनी और जापानी की तरह विदेशी भाषाओं का समर्थन नहीं करता। लेकिन अपाचे Tika स्रोत फ़ाइल को देखते समय, मुझे दोनों भाषाओं को नहीं मिला।

http://svn.apache.org/repos/asf/tika/branches/1.4/tika-core/src/main/resources/org/apache/tika/language/tika.language.properties

हालांकि आप अभी भी रूप में पांच मिनट के उपयोगकर्ता पुस्तिका में चर्चा अपने चीनी डॉक्टर फ़ाइल

https://tika.apache.org/1.4/parser_guide.html

+1

जिस कोड का आप संदर्भ दे रहे हैं वह * भाषा पहचान * नहीं है टेक्स्ट निष्कर्षण के लिए, जो टिका का एक अलग बिट है – Gagravarr

1

अपाचे टीका के साथ परीक्षण करने के लिए एक ही तरीके से लागू करने की कोशिश कर सकते यूनिकोड निकालने में सक्षम है इसके समर्थित फ़ाइल स्वरूपों से पाठ। जब तक फ़ाइल प्रारूप यूनिकोड टेक्स्ट (जैसे चीनी या जापानी वर्ण) स्टोर कर सकता है, अपाचे टीका इसे

टिका में इसके लिए कई यूनिट परीक्षण भी शामिल कर सकता है, जो यह सत्यापित करता है कि यह काम करता है। ऐसा एक परीक्षण this sample chinese email का उपयोग करता है।

$ java -jar tika-app-1.4.jar --text testMSG_chinese.msg | head 
Alfresco MSG format testing (MSG 格式測試) 
    From 
    Tests [email protected] (張毓倫) 
    To 
    Tests [email protected] (張毓倫) 
    Recipients 
    [email protected] 

या इस Japanese document साथ:

$ java -jar tika-app-1.4.jar --text testRTFJapanese.rtf | head -2 
ゾルゲの処刑記録、 
ゾルゲと尾崎、淡々と最期  

तुम बस सुनिश्चित करने के लिए किसी भी पाठ है कि आवश्यकता होगी उपयोग कमांड लाइन टीका अनुप्रयोग, और पहली कुछ पंक्तियों हड़पने के साथ है, हम इसे काम करते हुए देखना आपके द्वारा उत्पन्न आउटपुट उपयुक्त एन्कोडिंग (जैसे utf8) में संग्रहीत हो जाता है, और जिस फ़ॉन्ट को आप प्रदर्शित करने के लिए उपयोग करते हैं वह उन ग्लिफ का समर्थन करता है!

संबंधित मुद्दे