2010-06-25 16 views
6

मान लीजिए कि हमें जावा का उपयोग करना है, सबसे अच्छा एचटीएमएल पार्सर क्या है जो विभिन्न एचटीएमएल सामग्री को पार्स करने के लिए लचीला है, और इसके लिए जटिल प्रकार के पार्स करने के लिए बहुत सारे कोड की आवश्यकता नहीं है?जावा के लिए सबसे अच्छा एचटीएमएल पार्सर क्या है?

उत्तर

10

मैं इसके लिए Jsoup की सिफारिश करेंगे। jQuery like CSS selectors and non-verbose element iteration के समर्थन के साथ इसमें एक बहुत अच्छा एपीआई है। एक उदाहरण के रूप this answer की एक प्रति लेने के लिए, यह अपने स्वयं के प्रश्न और सभी answerers के नाम यहां प्रिंट:

URL url = new URL("https://stackoverflow.com/questions/3121136"); 
Document document = Jsoup.parse(url, 3000); 

String question = document.select("#question .post-text").text(); 
System.out.println("Question: " + question); 

Elements answerers = document.select("#answers .user-details a"); 
for (Element answerer : answerers) { 
    System.out.println("Answerer: " + answerer.text()); 
} 

एक वैकल्पिक XPath होगा, लेकिन JSoup जो पहले से ही पर अच्छी जानकारी होनी webdevelopers के लिए अधिक उपयोगी है सीएसएस चयनकर्ताओं।

+0

धन्यवाद! यह बहुत अच्छा लग रहा है। – egervari

+0

आपका स्वागत है। – BalusC

1

सबसे अच्छा वह होगा जो सही काम करता है।

एक opensource एक tagsoup कहा जाता है, और भी jTidy

संबंधित मुद्दे