वेब स्क्रैपर का उपयोग करके, आप वेब पेज से उपयोगी सामग्री निकाल सकते हैं और लागू होने वाले किसी प्रारूप में रूपांतरित कर सकते हैं।
WebScrap ws= new WebScrap();
//set your extracted website url
ws.setUrl("http://dasnicdev.github.io/webscrap4j/");
//start scrap session
ws.startWebScrap();
अब आप अपने वेब खत्म सत्र के शुरू और स्क्रैप या webscrap4j library का उपयोग कर जावा में डेटा निकालने के लिए तैयार है।
शीर्षक के लिए:
System.out.println("-------------------Title-----------------------------");
System.out.println(ws.getSingleHTMLTagData("title"));
टैगलाइन के लिए:
System.out.println("-------------------Tagline-----------------------------");
System.out.println(ws.getSingleHTMLScriptData("<h2 id='project_tagline'>", "</h2>"));
सभी एंकर टैग के लिए:
System.out.println("-------------------All anchor tag-----------------------------");
al=ws.getImageTagData("a", "href");
for(String adata: al)
{
System.out.println(adata);
}
छवि डेटा के लिए:
System.out.println("-------------------Image data-----------------------------");
System.out.println(ws.getImageTagData("img", "src"));
System.out.println(ws.getImageTagData("img", "alt"));
उल ली डाटा के लिए:
System.out.println("-------------------Ul-Li Data-----------------------------");
al=ws.getSingleHTMLScriptData("<ul>", "</ul>","<li>","</li>");
for(String str:al)
{
System.out.println(str);
}
इस tutorial पूर्ण स्रोत कोड की जांच के लिए। http://jaunt-api.com
धन्यवाद, यह एक अच्छी लाइब्रेरी है जिसमें कोई निर्भरता नहीं है, इसलिए यह काफी हल्का है। इसके अलावा, यह हेडलेस है इसलिए इसे ब्राउज़र की आवश्यकता नहीं है (मुझे ** सेलेनियम ** क्रोम खोलने में समस्याएं आई हैं और मैं ** एचटीएमएलयूनीट ** का उपयोग नहीं कर सका)। ** सेलेनियम ** अधिक यथार्थवादी होना चाहिए लेकिन यह लाइब्रेरी अधिकांश स्क्रैपिंग मामलों में उद्देश्य प्रदान कर सकती है और सेटअप करना वास्तव में आसान है: निर्भरता जोड़ें और आप जाने के लिए अच्छे हैं। –
वास्तव में उत्कृष्ट पुस्तकालय। आसान सेटअप और शक्तिशाली regex समर्थन। doc.select ("ली [आईडी^= cosid_]")। ठंडा। – EMM
मैंने हाल ही में अपने वेब स्क्रैपिंग फ्रेमवर्क को खोला है जो न केवल आपको Jsoup और HtmlUnit के साथ दस्तावेज़ों को पार्स करने की अनुमति देता है, बल्कि आपके लिए समांतरता को भी संभालता है और यदि आवश्यक हो तो प्रॉक्सी सर्वर का एक बड़ा पूल प्रबंधित कर सकता है: https://github.com/subes/invesdwin-webproxy – subes