दोस्त का मुझे यूआरएल से विवरण का विश्लेषण करना है, जहां पार्स की गई सामग्री में कुछ HTML टैग हैं, तो मैं इसे सादा पाठ में कैसे परिवर्तित कर सकता हूं।HTML टेक्स्ट को सादा पाठ में कैसे परिवर्तित करें?
उत्तर
विस्तृत जवाब के लिए की तरह htmlCleaner
एक HTML पार्सर का उपयोग करें: How to remove HTML tag in Java
मैं जो आप उत्पादन जो आप के खिलाफ xPath अभिव्यक्ति लिख सकते हैं देना चाहिए jTidy के माध्यम से कच्चे HTML पार्स करने की सलाह देते हैं। HTML को स्क्रैप करने का यह सबसे मजबूत तरीका है।
बस HTML टैग से छुटकारा पाने के सरल है:
// replace all occurrences of one or more HTML tags with optional
// whitespace inbetween with a single space character
String strippedText = htmlText.replaceAll("(?s)<[^>]*>(\\s*<[^>]*>)*", " ");
लेकिन दुर्भाग्य आवश्यकताओं इतना आसान कभी नहीं कर रहे हैं:
आमतौर पर, <p>
और <div>
तत्वों एक अलग से निपटने की जरूरत है, वहाँ के साथ cdata ब्लॉक हो सकता है >
वर्ण (जैसे जावास्क्रिप्ट) कि गंदगी regex आदि
अच्छा है कि आपने उस जटिलता को स्पष्ट किया है! – ankitjaininfo
कुछ पृष्ठभूमि के लिए यह सामान्य मामले के लिए क्यों काम नहीं करेगा, और एफ (यू | ओओ) एल-सबूत नहीं होगा: [एक्सएचटीएमएल स्वयं निहित टैग को छोड़कर RegEx मैच खुले टैग] (http://stackoverflow.com/प्रश्न/1732348/रेगेक्स-मैच-ओपन-टैग-सिवाय-एक्सएचटीएमएल-सेल्फ-निहित-टैग) –
आप html टैग को हटा दें और सादा पाठ के रूप में यह प्रदर्शित करने के लिए इस एक पंक्ति का उपयोग कर सकते हैं।
htmlString=htmlString.replaceAll("\\<.*?\\>", "");
आप ब्राउज़र के प्रदर्शन की तरह पार्स करने के लिए चाहते हैं, का उपयोग करें:
import net.htmlparser.jericho.*;
import java.util.*;
import java.io.*;
import java.net.*;
public class RenderToText {
public static void main(String[] args) throws Exception {
String sourceUrlString="data/test.html";
if (args.length==0)
System.err.println("Using default argument of \""+sourceUrlString+'"');
else
sourceUrlString=args[0];
if (sourceUrlString.indexOf(':')==-1) sourceUrlString="file:"+sourceUrlString;
Source source=new Source(new URL(sourceUrlString));
String renderedText=source.getRenderer().toString();
System.out.println("\nSimple rendering of the HTML document:\n");
System.out.println(renderedText);
}
}
मुझे आशा है कि इस ब्राउज़र प्रारूप में भी तालिका को पार्स करने में मदद मिलेगी।
धन्यवाद, गणेश
क्या डाउनवॉटर कृपया बता सकते हैं कि वे क्यों डाउनवोट करते हैं? – koppor
- 1. HTML से सादा पाठ प्राप्त करें .NET
- 2. सादा पाठ कैसे सम्मिलित करें?
- 3. क्लासिक एएसपी (वीबीस्क्रिप्ट) एचटीएमएल कोड को सादा पाठ में परिवर्तित करें
- 4. पीएचपी मेल() HTML और सादा पाठ ईमेल
- 5. सादा पाठ
- 6. सादा पाठ
- 7. सादा पाठ
- 8. टेक्स्ट तिथि को टाइमस्टैम्प में कैसे परिवर्तित करें?
- 9. ईडब्ल्यूएस बॉडी सादा पाठ
- 10. रूबी में सादा पाठ के लिए मार्कडाउन?
- 11. XMLHttpRequest प्रतिक्रिया से सादा पाठ प्राप्त करें पाठ
- 12. जीमेल के बजाय सादा पाठ ईमेल प्रदर्शित करता है HTML
- 13. सादा पाठ (सब्लिमे टेक्स्ट) के लिए सिंटेक्स हाइलाइटिंग
- 14. SHA1 सादा पाठ? सी # .NET
- 15. HTML तालिका को टेक्स्ट
- 16. PHPExcel में HTML वर्णों को कैसे परिवर्तित करें?
- 17. एक्सएमएल को सादा पाठ में कनवर्ट करना - एक्सएसएलटी में व्हाइटस्पेस को कैसे अनदेखा/संभालना चाहिए?
- 18. 'डेटा: टेक्स्ट/सादा' यूआरएल
- 19. पाठ को एसवीजी पथ में कैसे परिवर्तित करें?
- 20. वर्डप्रेस दस्तावेज़ टेक्स्ट को HTML
- 21. मैं jQuery का उपयोग कर एक HTML तत्व के अलावा सादा पाठ कैसे प्राप्त करूं?
- 22. सादा पाठ इनपुट और एवरो आउटपुट
- 23. वर्तमान गतिविधि में HTML टेक्स्ट लिंक को कैसे प्रबंधित करें
- 24. HTML तालिका लंबा पाठ
- 25. एचटीएमएल बनाम सादा पाठ ईमेल में शरीर के रूप में
- 26. हैशटैग टेक्स्ट को हैशटैग हाइपरलिंक में कैसे परिवर्तित करें?
- 27. HTML को सादा पाठ में बदलने के लिए आप कौन सी सीपीएएन मॉड्यूल की सिफारिश करेंगे?
- 28. सीएसएस: लंबवत पाठ को टेक्स्ट में संरेखित करें,
- 29. सादा पाठ ईमेल दृश्यों (.text.erb) में लाइन ब्रेक को नियंत्रित करने के लिए कैसे करें
- 30. एक्सएसएल का उपयोग सादा पाठ
क्या आपका सटीक आवश्यकताएँ हैं? क्या आपको HTML टैग को स्ट्रिप करने की आवश्यकता है? एक विशिष्ट टैग की सामग्री निकालें? –
मैं सामग्री निकालने में सक्षम कर सकते हैं, लेकिन सामग्री
Zcc dsdfsf ddfdfsf
, तरह sfdfdfdfdf है ऊपर मैं अपने डेटा हो रही है, लेकिन मैं उन html टैग – MGSenthilसाथ इसी तरह के सवाल text.without एक सरल सादे होने की जरूरत है यहां अच्छा जवाब: http://stackoverflow.com/questions/1518675/open-source-java-library-for-html-to-text-conversion/1519726#1519726। मैंने जेरिको का इस्तेमाल किया और यह ठीक काम करता है। –