jsoup

2016-04-09 11 views
6

के माध्यम से वेबपृष्ठ तक पहुंचते समय 404 प्राप्त करना मुझे jsoup हालांकि वेबपृष्ठ तक पहुंचने के दौरान 404 मिल रहा है। लेकिन ब्राउज़र के माध्यम से पहुंचने पर पृष्ठ ठीक हो जाता है।jsoup

मैं कुछ दिनों पहले jsoup के माध्यम से पृष्ठ तक पहुंचने में सक्षम था। लेकिन अब यह 404 फेंकता है। उपयोगकर्ता-एजेंट, टाइमआउट इत्यादि जोड़ने की कोशिश की लेकिन कोई भाग्य नहीं।

फ़ायरबग में भी, मुझे अनुरोध के लिए 404 मिल रहा है, लेकिन पृष्ठ ब्राउज़र में ठीक लोड हो रहा है।

सुनिश्चित नहीं है कि पृष्ठ ब्राउज़र में कैसे प्रदान किया जाता है लेकिन जावा प्रोग्राम के माध्यम से नहीं।

Document doc = Jsoup.connect("http://example.com/stock.php?"+quote).userAgent("Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36") 
      .timeout(1000*7).get(); 

जावा प्रोग्राम को क्रियान्वित करने, त्रुटि नीचे हो रही पर:

org.jsoup.HttpStatusException: HTTP error fetching URL. Status=404, URL= http://example.com/stock.php?AAA
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:537)

कृपया मुझे बताएं कि अधिक जानकारी की आवश्यकता होती है सकते हैं।

+0

क्या आप सुनिश्चित हैं कि ब्राउज़र लोड हो रहा है? कैश से हो सकता है? – Areca

+0

यदि आप असली यूआरएल जोड़ सकते हैं तो यह सहायक हो सकता है। – TDG

+0

@ एरिका, मैंने कैश को साफ़ करने की भी कोशिश की। अभी भी कोई भाग्य नहीं है। –

उत्तर

1

डिफ़ॉल्ट रूप से Jsoup एक HTTP त्रुटि प्राप्त करते समय अपवाद फेंकता है। पृष्ठ पृष्ठ को पढ़ने के लिए भी ignoreHttpErrorstrue सेट कर सकते हैं भले ही पृष्ठ ने कोई त्रुटि लौटा दी हो।

Document doc = Jsoup 
       .connect("http://example.com/stock.php?"+quote) 
       .userAgent("...") 
       .timeout(1000*7) 
       .ignoreHttpErrors(true) 
       .get();