बस एक simple HTML parser, jTidy की तरह है, और फिर get all elements by tag nameimg
का उपयोग करें और फिर एक List<String>
या शायद List<URI>
में प्रत्येक के src
विशेषता इकट्ठा।
आप URL#openStream()
का उपयोग कर एक URL
के InputStream
प्राप्त और उसके बाद किसी भी HTML पार्सर आप उपयोग करना चाहते करने के लिए इसे फ़ीड कर सकते हैं। यहां एक किकऑफ उदाहरण है:
InputStream input = new URL("http://www.stackoverflow.com").openStream();
Document document = new Tidy().parseDOM(input, null);
NodeList imgs = document.getElementsByTagName("img");
List<String> srcs = new ArrayList<String>();
for (int i = 0; i < imgs.getLength(); i++) {
srcs.add(imgs.item(i).getAttributes().getNamedItem("src").getNodeValue());
}
for (String src: srcs) {
System.out.println(src);
}
मुझे यह स्वीकार करना होगा कि Bozho द्वारा सुझाए गए अनुसार HtmlUnit वास्तव में बेहतर दिखता है।
आप एक प्रोग्राम या एक पुस्तकालय की आवश्यकता है? –
क्षमा करें तुम्हारा क्या मतलब है? मुझे बस एक .jar फ़ाइल या कुछ चाहिए जो मैं किसी मौजूदा जावा प्रोग्राम आईएम लेखन में जोड़ सकता हूं। आईडी कल्पना करें कि कार्यक्रम काफी सरल होगा, मुझे बस छवि निष्कर्षण – Phil
के संचालन की आवश्यकता है, मुझे नहीं लगता कि आपको ऐसी कोई लाइब्रेरी मिल जाएगी जो आपके परिदृश्य के अनुरूप है। आपको एक पार्सर का उपयोग करना होगा और कुछ डाउनलोड कोड स्वयं लिखना होगा। – craftsman