मैं उस वेबसाइट से एक साधारण वेबसाइट और स्क्रैप जानकारी पार्स करना चाहता हूं।जावा वेब साइट HTML के साथ जावा
मैं दस्तावेज़बिल्डर फ़ैक्टरी के साथ एक्सएमएल फाइलों का विश्लेषण करता था, मैंने HTML फ़ाइल के लिए एक ही चीज़ करने की कोशिश की लेकिन यह हमेशा एक अनंत लूप में आ गया।
URL url = new URL("http://www.deneme.com");
URLConnection uc = url.openConnection();
InputStreamReader input = new InputStreamReader(uc.getInputStream());
BufferedReader in = new BufferedReader(input);
String inputLine;
FileWriter outFile = new FileWriter("orhancan");
PrintWriter out = new PrintWriter(outFile);
while ((inputLine = in.readLine()) != null) {
out.println(inputLine);
}
in.close();
out.close();
File fXmlFile = new File("orhancan");
DocumentBuilderFactory dbFactory = DocumentBuilderFactory.newInstance();
DocumentBuilder dBuilder = dbFactory.newDocumentBuilder();
Document doc = dBuilder.parse(fXmlFile);
NodeList prelist = doc.getElementsByTagName("body");
System.out.println(prelist.getLength());
समस्या क्या है? या किसी दिए गए एचटीएमएल टैग के लिए किसी वेब साइट से डेटा को स्क्रैप करने का कोई आसान तरीका है?
सबसे पहले आप फ़ाइल के बजाय स्ट्रिंग का उपयोग कर सकते हैं। यह अनंत लूप में कहां प्रवेश करता है? शायद यूआरएल से इनपुट स्ट्रीम की वजह से जो आपको लगता है कि आपको यह समस्या नहीं है। –