मैं वेबसाइटों के एक सेट से समाचार लेख निकालने के लिए boilerpipe जावा लाइब्रेरी का उपयोग करने का प्रयास कर रहा हूं। यह अंग्रेजी में ग्रंथों के लिए बहुत अच्छा काम करता है, लेकिन विशेष पात्रों के साथ पाठ के लिए, उदाहरण के लिए, उच्चारण अंक (हिस्टोरिया) वाले शब्द, यह विशेष वर्ण सही तरीके से निकाले नहीं जाते हैं। मुझे लगता है कि यह एक एन्कोडिंग समस्या है।गैर-अंग्रेजी लेख निकालने के लिए बॉयलरपाइप का उपयोग
बॉयलरपाइप faq में, यह कहता है "यदि आप गैर-अंग्रेजी पाठ निकालते हैं तो आपको कुछ पैरामीटर बदलना पड़ सकता है" और फिर paper को संदर्भित करता है। मुझे इस पेपर में कोई समाधान नहीं मिला।
मेरा सवाल है, क्या बॉयलरपाइप का उपयोग करते समय कोई पैरामेट है जहां मैं एन्कोडिंग निर्दिष्ट कर सकता हूं? क्या आसपास जाने और पाठ को सही तरीके से प्राप्त करने का कोई तरीका है?
कैसे मैं पुस्तकालय का उपयोग कर रहा: (प्रथम URL के आधार पर प्रयास):
URL url = new URL(link);
String article = ArticleExtractor.INSTANCE.getText(url);
(दूसरे पर HTLM स्रोत कोड)
String article = ArticleExtractor.INSTANCE.getText(html_page_as_string);
आपके उत्तर के लिए धन्यवाद। मुझे अभी केवल ध्यान देने के लिए खेद है, लेकिन मैं एक और परियोजना में फंस गया हूं। मैंने कोड के इस खंड के बाद परिवर्तनीय सीएस पर सेट किया गया एन्कॉन्डिंग प्रिंट करने का प्रयास किया, और परिणाम हमेशा आईएसओ -885 9 -1 था। मैंने एन्कोडिंग को यूटीएफ -8 होने के लिए मजबूर करने की भी कोशिश की, लेकिन कोई बेहतर परिणाम नहीं मिला। समस्या किसी एक रूपांतरण में, HTMLDocument, टेक्स्ट डॉक्यूमेंट आदि में होनी चाहिए, लेकिन मुझे अपनी टेक्स्ट सामग्री प्रिंट करने में कुछ परेशानी हो रही है। कोई विचार? एक बार फिर धन्यवाद। –
आंद्रेई, आप सही थे। मैं बहुत जटिल करने की कोशिश कर रहा था, लेकिन अंत में यह एक बहुत ही सरल समाधान था। फिर से धन्यवाद, मुझे खेद है कि मैं अभी तक आपको ऊपर नहीं उठा सकता। –