मैं एक HTML पृष्ठ से सभी छवियों को हटाने के लिए Jsoup का उपयोग कर रहा हूं। मुझे एक HTTP प्रतिक्रिया के माध्यम से पृष्ठ प्राप्त हो रहा है - जिसमें सामग्री वर्णमाला भी शामिल है।Jsoup विशेष वर्णों को अनदेखा करता है
समस्या यह है कि Jsoup कुछ विशेष पात्रों से निकलता है।
उदाहरण के लिए, निवेश के लिए:
<html><head></head><body><p>isn’t</p></body></html>
String check = "<html><head></head><body><p>isn’t</p></body></html>";
Document doc = Jsoup.parse(check);
System.out.println(doc.outerHtml());
चलाने के बाद मैं:
<html><head></head><body><p>isn’t</p></body></html><p></p>
मैं छोड़कर किसी अन्य तरीके से एचटीएमएल बदल रहा से बचना चाहते हैं छवियों को हटाने के लिए।
आदेश का उपयोग द्वारा:
doc.outputSettings().prettyPrint(false).charset("ASCII").escapeMode(EscapeMode.extended);
मैं सही उत्पादन मिलता है लेकिन मुझे यकीन है कि वहाँ मामलों में जहां कि चारसेट अच्छा नहीं होगा हूँ। मैं सिर्फ HTTP शीर्षलेख में वर्णित वर्णसेट का उपयोग करना चाहता हूं और मुझे डर है कि यह मेरे दस्तावेज़ को उन तरीकों से बदल देगा जिनकी मैं भविष्यवाणी नहीं कर सकता। क्या अनजाने में कुछ और बदले बिना छवियों को हटाने के लिए कोई अन्य क्लीनर विधि है?
धन्यवाद!
धन्यवाद, मैं अब इसका उपयोग करूंगा हालांकि मेरी इच्छा है कि जेएसओपी के एपीआई में कोई समाधान हो। – dlv
@dlv कृपया मेरा अपडेट देखें। – Stephan
धन्यवाद! यह वास्तव में जानकारीपूर्ण है। – dlv