2011-02-01 14 views
8

मान लीजिए कि डेटा स्रोत एक कसकर आईपी-आधारित थ्रॉटल सेट करता है। क्या वेब स्क्रैपर का डेटा डाउनलोड करने का कोई तरीका होगा यदि थ्रॉटल अपने अनुरोधों को अस्वीकार करना शुरू कर देता है जैसे डेटा डाउनलोड होने के 1% के रूप में?क्या वेब-स्क्रैपर एक अच्छी थ्रॉटल सुरक्षा के आसपास हो सकता है?

एकमात्र तकनीक जो मैं यहां उपयोग कर एक हैकर के बारे में सोच सकता हूं वह कुछ प्रकार की प्रॉक्सी प्रणाली होगी। लेकिन, ऐसा लगता है कि प्रॉक्सी (यहां तक ​​कि अगर तेज़) अंततः सभी थ्रॉटल तक पहुंच जाएंगे।

अद्यतन: नीचे कुछ लोगों ने याहू पाइप्स और टोर जैसे बड़े प्रॉक्सी नेटवर्क का उल्लेख किया है, लेकिन क्या इन आईपी श्रेणियों या ज्ञात निकास नोड्स को ब्लैकलिस्ट भी नहीं किया जा सकता है?

उत्तर

7

हजारों या पॉक्सियों की एक सूची FREE के लिए संकलित की जा सकती है। IPv6 पते पेनी के लिए किराए पर लिया जा सकता है। नरक, एक हमलावर एक अमेज़ॅन ईसी 2 माइक्रो इंस्टेंस को एक घंटे में 2-7 सेंट के लिए बूट कर सकता था।

और आप लोगों को अपनी साइट को स्क्रैप करने से रोकना चाहते हैं? इंटरनेट इस तरह से काम नहीं करता है, और उम्मीद है कि यह कभी नहीं होगा।

(मैंने देखा है कि आईआरसी सर्वर क्लाइंट पर पोर्ट पोर्ट स्कैन करते हैं यह देखने के लिए कि क्या निम्न पोर्ट खुले हैं: 8080,3128,1080। हालांकि प्रॉक्सी सर्वर हैं जो विभिन्न बंदरगाहों का उपयोग करते हैं और प्रॉक्सी सर्वर चलाने के कानूनी कारण भी हैं या इन बंदरगाहों को खोलने के लिए, जैसे कि आप अपाचे टॉमकैट चला रहे हैं। आप यह देखने के लिए YAPH का उपयोग कर एक पायदान को टक्कर दे सकते हैं कि कोई क्लाइंट प्रॉक्सी सर्वर चला रहा है या नहीं। असल में आप उनके खिलाफ हमलावर का भी उपयोग करेंगे;)

0

मैंने ऐसी चीजों को करने के लिए Yahoo Pipes का उपयोग करने वाले लोगों के बारे में सुना है, अनिवार्य रूप से याहू को डेटा खींचने के लिए प्रॉक्सी के रूप में उपयोग करना।

+0

फिर भी, क्या याहू आईपी अंततः थ्रॉटल नहीं होगा? – babonk

+1

@babonk - संभवतः, लेकिन याहू में बहुत से आईपी हैं ... –

2

Tor का उपयोग करने वाले किसी भी व्यक्ति को हर कुछ मिनट में आईपी पते छिपाना होगा। मैं एक वेबसाइट चलाता था जहां यह एक समस्या थी, और अत्यधिक स्क्रैपिंग का पता चला जब ज्ञात टोर निकास नोड्स के आईपी पते को अवरुद्ध करने का सहारा लिया। यदि आप टोर निकास नोड्स की नियमित रूप से अपडेट की गई सूची पा सकते हैं, उदाहरण के लिए, https://www.dan.me.uk/tornodes

+1

कि tor_blacklist.txt लिंक को विज्ञापन के साथ बदल दिया गया है। यह साइट https://www.dan.me.uk/tornodes एक सीधा लिंक https://www.dan.me.uk/torlist/ सभी टीओआर निकास नोड्स हर 30 मिनट में अपडेट की जाती है। –

+0

धन्यवाद, अद्यतन किया गया –

0

शायद अमेज़ॅन ec2 उदाहरणों पर अपने स्क्रैपर को चलाने का प्रयास करें। हर बार जब आप थ्रॉटल हो जाते हैं, तो एक नया उदाहरण शुरू करें (नए आईपी पर), और पुराने को मार दें।

1

आप इस कार्य को पूरा करने के लिए एक पी 2 पी क्रॉलिंग नेटवर्क का उपयोग कर सकते हैं। बहुत सारे आईपी उपलब्ध होंगे और उनमें से कोई भी थ्रॉटल हो जाने पर कोई समस्या नहीं होगी। साथ ही, आप पिछले उत्तरों में सुझाए गए कुछ प्रॉक्सी कॉन्फ़िगरेशन का उपयोग करके कई क्लाइंट इंस्टेंस जोड़ सकते हैं।

मुझे लगता है कि आप YaCy, एक पी 2 पी ओपनसोर्स क्रॉलिंग नेटवर्क का उपयोग कर सकते हैं।

0

यह उस समय पर निर्भर करता है जब हमलावर डेटा प्राप्त करने के लिए होता है। यदि अधिकांश डेटा स्थैतिक है, तो हमलावर के लिए 50 दिनों के लिए, अपने स्क्रैपर को चलाने के लिए दिलचस्प हो सकता है। यदि वह एक डीएसएल लाइन पर है जहां वह दिन में दो बार "नया" आईपी पता का अनुरोध कर सकता है, तो 1% सीमा उससे ज्यादा नुकसान नहीं पहुंचाएगी।

बेशक, यदि आपको डेटा की तेज़ी से आवश्यकता है (क्योंकि यह जल्दी से पुराना है), तो बेहतर तरीके हैं (ईसी 2 उदाहरणों का उपयोग करें, एकत्रित डेटा में सार्वजनिक रुचि होने पर बीओआईएनसी परियोजना स्थापित करें)।

या एक पिरामिड योजना है "मेरे क्रॉलर को चलाने के लिए 10 लोगों को प्राप्त करें और आपको पोर्न मिल जाए, या 100 लोगों को इसे क्रॉल करने के लिए मिलें और आपको पोर्न लॉट मिल जाए", क्योंकि कुछ साल पहले विज्ञापन के साथ काफी आम था -फिल्टेड वेबसाइटें प्रतियोगिता में शामिल होने के कारण (जो सबसे अधिक रेफ़रल प्राप्त करता है) आप बहुत कम पैसे के लिए अपने क्रॉलर को बहुत जल्दी नोड्स प्राप्त कर सकते हैं।

1

एक स्क्रैपर जो जानकारी चाहता है वह जानकारी प्राप्त करेगा। टाइमआउट, एजेंट नाम, प्रॉक्सी, और निश्चित रूप से ईसी 2/रैक स्पेस या किसी भी अन्य क्लाउड सेवाओं को बदलना जिनमें पेनी के लिए नए आईपी पते के साथ सर्वर शुरू करने और बंद करने की क्षमता है।

संबंधित मुद्दे