2011-06-05 14 views
5

मैं एचटीएमएल एजिलिटी पैक का उपयोग कर रहा हूं और मुझे यह त्रुटि मिल रही है। "रिमोट सर्वर ने एक त्रुटि लौटा दी: (500) आंतरिक सर्वर त्रुटि।" कुछ पृष्ठों पर।सामान्य ब्राउज़र सर्फिंग गतिविधियों की तरह दिखने के लिए अपनी वेब स्क्रैपिंग गतिविधियों को मास्क करना?

अब मुझे यकीन नहीं है कि यह क्या है, क्योंकि मैं फ़ायरफ़ॉक्स का उपयोग इन पृष्ठों को बिना किसी समस्या के प्राप्त करने के लिए कर सकता हूं।

मुझे लगता है कि वेबसाइट स्वयं अवरुद्ध है और प्रतिक्रिया नहीं भेज रही है। क्या कोई तरीका है कि मैं अपने एचटीएमएल चपलता पैक कॉल को एक कॉल की तरह कॉल कर सकता हूं जिसे फ़ायरफ़ॉक्स से बुलाया जा रहा है?

मैंने पहले से ही एक टाइमर सेट कर दिया है, इसलिए यह केवल हर 20 सेकंड में वेबसाइट पर भेजता है।

क्या कोई और तरीका है जिसका मैं उपयोग कर सकता हूं?

+0

हालांकि मुझे संदेह है कि यह समस्या है, आप उस समय को बदल सकते हैं। मुझे संदेह है कि कोई ऐसा व्यक्ति है जो हर 20 सेकंड में वेबसाइट पर कुछ करता है। – icktoofay

+0

हाँ, जब मैं इसे वास्तविक करने के लिए तैयार हूं, तो मेरे पास टाइमआउट काफी लंबा होगा (1-2 मिनट की तरह), लेकिन मैं बस परीक्षण कर रहा हूं। यह केवल कुछ यूआरएल के लिए हो रहा है, लेकिन जब मैं अपने ब्राउज़र का उपयोग कर यूआरएल पर जाता हूं तो मैं साइट पर जा सकता हूं। – Diskdrive

उत्तर

6

एक नियमित ब्राउज़र के समान User-Agent सेट करें। एक उपयोगकर्ता एजेंट http क्लाइंट (ब्राउज़र) द्वारा सर्वर पर स्वयं को पहचानने के लिए एक http शीर्षलेख पारित किया जा रहा है।

+0

धन्यवाद दोस्त, यह चाल है। मुझे लगता है कि यह केवल कुछ "प्रकारों" पृष्ठों पर हो रहा था, जो सुझाव देते थे कि शायद पृष्ठ साइट को यह जानने की आवश्यकता हो कि यह किस प्रकार का ब्राउज़र प्रतिपादन करते समय इसे एक्सेस कर रहा था। – Diskdrive

6

सर्वर बहुत से तरीके से स्क्रैपिंग का पता लगा सकते हैं और वास्तव में स्क्रैपर और स्क्रैपी (?) के बीच यह केवल एक हथियार दौड़ है, इस पर निर्भर करता है कि एक या दूसरे डेटा को कैसे एक्सेस/सुरक्षित करना चाहते हैं। अनदेखा जाने में आपकी मदद करने के लिए कुछ चीजें हैं:

  1. सुनिश्चित करें कि भेजे गए सभी http शीर्षलेख सामान्य ब्राउज़र, विशेष रूप से उपयोगकर्ता एजेंट और यूआरएल रेफरर के समान हैं।
  2. एक ब्राउज़र के क्रम में, सामान्य ब्राउज़र की तरह सभी छवियों और सीएसएस स्क्रिप्ट डाउनलोड करें।
  3. सुनिश्चित करें कि कोई भी कुकी प्रत्येक अनुवर्ती अनुरोध के साथ पर भेज दिया जाता है
  4. सुनिश्चित करें अनुरोध साइटों robots.txt
  5. के अनुसार बनाने से रोक दिए जाते हैं सेट कर रहे हैं कि सुनिश्चित करें कि आप क्योंकि सर्वर किसी भी लिंक नहीं का पालन करें अनुसरण नहीं कर रहे सकता है एक शहद रखने का बर्तन, जहां वे अपने आईपी की सेवा का अनुरोध करता है
  6. आपके आईपी पते
  7. सुनिश्चित करें कि साइट पर भेजेगी कैप्चा के शुरू नहीं हुआ है क्योंकि उन्हें लगता है कि आप एक रोबोट हैं भिन्न करने की प्रॉक्सी सर्वर का एक समूह हो जाओ रोक की स्थापना हो।

फिर, सूची सर्वर सेटअप को परिष्कृत करने के आधार पर हो सकती है।

+1

आपको जोड़ने की आवश्यकता होगी: 1) * उपयोगकर्ता-एजेंट * और 2) सुनिश्चित करें कि आप हमेशा * रेफरर * HTTP शीर्षलेख जोड़ते हैं (हालांकि आपने इसे 1 पर कवर किया है)। अच्छा उत्तर। –

संबंधित मुद्दे