2017-03-26 30 views
6

पर अनुरोध प्राप्त करें मैं Google से खोज परिणामों के साथ HTML प्राप्त करने का प्रयास कर रहा हूं।Google खोज

https://www.google.ru/?q=1111 

लेकिन अगर ब्राउज़र में सब ठीक है, जब मैं के साथ "स्रोत देखें" गूगल में स्रोत प्राप्त करने के लिए कर्ल के साथ इसका इस्तेमाल करने की कोशिश कर रहा हूँ या, वहाँ केवल कुछ जावास्क्रिप्ट है: उदाहरण के लिए GET अनुरोध भेजने के साथ कोड, कोई खोज परिणाम नहीं। क्या यह कुछ प्रकार की सुरक्षा है? मैं क्या कर सकता हूँ?

उत्तर

-1

आप इसे ब्राउज़र में लोड कर सकते हैं और फिर जावास्क्रिप्ट के माध्यम से परिणाम स्क्रैप कर सकते हैं।

या आप Google API का उपयोग कर सकते हैं, लेकिन ऐसा लगता है कि यदि आप प्रति दिन 100 बार अनुरोध करेंगे तो उसे भुगतान की आवश्यकता होगी।

+1

आपकी विधि बहुत तेज़ी से अवरुद्ध हो जाएगी। Google एक "रोबोट नहीं चाहता है ..." कैप्चा के साथ स्क्रीन को खोजना जारी रखने के लिए आपको हल करना होगा। –

+0

@ ब्रायनस्मिथ, हाँ, निश्चित रूप से यह होगा। लेकिन सभी पृष्ठों के लिए केवल एक बार। – UndeadDragon

+0

1) यह गैरकानूनी नहीं है, 2) इसे बहुत धीमा नहीं होना चाहिए, आपका "एकमात्र तरीका" सबसे खराब तरीका संभव है .. 3) कैप्चा पृष्ठ "एक बार" नहीं होता है, यह अधिक से अधिक बार होता है और आखिरकार अपने आईपी के एक छोटे या यहां तक ​​कि लम्बे समय के ब्लॉक को कैप्चा नहीं मांगते, अपने प्रदाता के दीर्घकालिक ब्लॉक में दूसरे सबसे खराब मामले में। – John

1

अब आपको अपने जीईटी अनुरोध करने के लिए Google Search API का उपयोग करना होगा।

अन्य सभी विधियां अवरुद्ध कर दी गई हैं।

0

उत्तर में थोड़ी अधिक सॉस जोड़ने के लिए क्योंकि वे सही नहीं हैं और आपकी समस्या का भी जवाब नहीं देते हैं।

सबसे पहले, Google को तब तक स्क्रैप करना पूरी तरह से कानूनी है जब तक आप इसके माध्यम से अपनी सेवा को नुकसान नहीं पहुंचाते (डीओएस-जैसी)।
इसके अलावा विधियों को अवरुद्ध नहीं किया गया है, यह इतना आसान नहीं है।

गति आपकी विधियों पर निर्भर करती है, इसे बहुत धीमी नहीं होती है ..
यदि आवश्यक हो तो आप दस हजार कीवर्ड पृष्ठों को एक मिनट में स्क्रैप कर सकते हैं।

आप विषय यहाँ के लिए एक बेहतर उत्तर मिलेंगे: Is it ok to scrape data from Google results?

कर्ल के साथ आपकी समस्या संरक्षण से वास्तव में आता है, गूगल स्वचालित उपयोग की अनुमति नहीं है और यह पता लगाने एल्गोरिदम के एक बहुत परिष्कृत सेट है।
वे साधारण उपयोगकर्ता एजेंट चेक से जाते हैं (जो आपको सीधे बंद कर देता है) कृत्रिम बुद्धि तक जो असामान्य प्रश्नों या संबंधित प्रश्नों का पता लगाने की कोशिश करता है।

संबंधित मुद्दे