यदि आपको सादे पाठ की आवश्यकता है तो आपको विकीक्लीन पुस्तकालय https://github.com/lintool/wikiclean का उपयोग करना चाहिए।
मुझे एक ही समस्या थी और ऐसा लगता है कि यह एकमात्र कुशल समाधान था जो जावा में मेरे लिए काम करता था।
1) आप XML स्वरूप में नहीं पाठ है तो आप एक्सएमएल इस प्रसंस्करण करने के लिए किए जाने वाले टैग जोड़ना चाहिए:
दो usecases रहे हैं। मान लीजिए कि आप पहले एक्सएमएल फाइल को संसाधित कर रहे हैं, और अब आपके पास XML संरचना के बिना सामग्री है, तो आप कोड bellow में xmlStartTag और xmlEndTag को जोड़ते हैं, और यह इसे संसाधित करता है।
String xmlStartTag = "<text xml:space=\"preserve\">";
String xmlEndTag = "</text>";
String articleWithXml = xmlStartTag + article.getText() + xmlEndTag;
WikiClean cleaner = new WikiClean.Builder().build();
String plainWikiText = cleaner.clean(articleWithXml);
2) जब आप विकिपीडिया सीधे फ़ाइल डंप (xml फ़ाइल पढ़ रहे हैं), उस मामले में आप इसे फ़ाइल के माध्यम से पारित और यह माध्यम से चला जाता है।
WikiClean cleaner = new WikiClean.Builder().build();
String plainWikiText = cleaner.clean(XMLFileContents);
स्रोत
2018-01-16 15:25:28
क्लाउड आप जिस पृष्ठ को निकालना चाहते हैं उसे दिखाते हुए एक पृष्ठ का नमूना पोस्ट करते हैं? – bakkal