अपाचे टीका चीनी, जापानी जैसी विदेशी भाषाओं को निकालने में सक्षम है? "?" इनपुट कोई दस्तावेज़ फ़ाइल है कि चीनी वर्ण हैं हैअपाचे टीका चीनी, जापानी जैसी विदेशी भाषाओं को निकालने में सक्षम है?
Detector detector = new DefaultDetector();
Parser parser = new AutoDetectParser(detector);
InputStream stream = new ByteArrayInputStream(bytes);
OutputStream outputstream = new ByteArrayOutputStream();
ContentHandler textHandler = new BodyContentHandler(outputstream);
Metadata metadata = new Metadata();
// Set<String> langs = LanguageIdentifier.getSupportedLanguages();
// metadata.set(Metadata.CONTENT_LANGUAGE, lang);
// metadata.set(Metadata.FORMAT, hint);
ParseContext context = new ParseContext();
try {
parser.parse(stream, textHandler, metadata, context);
String extractedText = outputstream.toString();
return extractedText;
} catch (IOException e) {
e.printStackTrace();
} catch (SAXException e) {
e.printStackTrace();
} catch (TikaException e) {
e.printStackTrace();
}
हैं, तो प्रत्येक चीनी अक्षरों के रूप में निकाला जाएगा:
मैं निम्नलिखित कोड है।
बहुत बहुत धन्यवाद!
टिकिका उन्हें ठीक से संभालने में सक्षम होना चाहिए। क्या आप वाकई पाठ को आउटपुट/देखने पर सही एन्कोडिंग प्राप्त कर चुके हैं? (संकेत - यह संभवतः यूटीएफ -8 की तरह कुछ होने की आवश्यकता होगी, और आपको इसे एक फ़ॉन्ट का उपयोग करके प्रदर्शित करना होगा जिसमें चीनी वर्णों के लिए ग्लिफ हैं!) – Gagravarr