2010-12-01 83 views
69

क्रॉलिंग और वेब-स्क्रैपिंग के बीच कोई अंतर है?वेब क्रॉलिंग और वेब-स्क्रैपिंग के बीच क्या अंतर है?

यदि कोई अंतर है, तो किसी अनुकूलित खोज इंजन में बाद में उपयोग के लिए डेटाबेस की आपूर्ति करने के लिए कुछ वेब डेटा एकत्र करने के लिए उपयोग करने का सबसे अच्छा तरीका क्या है?

+13

स्क्रैपिंग का अर्थ किसी पृष्ठ से सामग्री खींचना है। क्रॉलिंग का अर्थ है कई पृष्ठों तक पहुंचने के लिए लिंक का पालन करना। क्रॉलर्स को खरोंच करना पड़ता है, और यह दो कारणों से होता है: एक वह उपयोगी क्रॉलर न केवल कुछ भी पृष्ठों के लिए ट्रैवर्स करता है; वे जानकारी एकत्र करते हैं (उदाहरण के लिए एक खोज इंजन के लिए एक खोज सूचकांक बनाने के लिए अनुक्रमण शब्द)। दूसरा, उन्हें अन्य पृष्ठों के लिंक खोजना होगा। – Kaz

उत्तर

90

क्रॉलिंग अनिवार्य रूप से Google, याहू, एमएसएन, आदि किसी भी जानकारी की तलाश में होगी। स्क्रैपिंग आम तौर पर कुछ वेबसाइटों पर लक्षित डेटा के लिए लक्षित किया जाता है, उदा। मूल्य तुलना के लिए, इसलिए काफी अलग कोडित हैं।

आम तौर पर एक स्क्रैपर वेबसाइटों यह scraping जा करने के लिए माना जाता है के लिए bespoke किया जाएगा, और काम करने की जाएगी एक (अच्छा) क्रॉलर ऐसा नहीं होता है, अर्थात्:

  • robots.txt के लिए कोई संबंध है
  • एक ब्राउज़र के रूप में खुद को पहचानें
  • डेटा के साथ पत्र जमा
  • निष्पादित जावास्क्रिप्ट (यदि कोई उपयोगकर्ता की तरह कार्य करने के लिए आवश्यक)
+1

@ बेन क्या आप जानते हैं कि मैं वेब ब्राउजर को ब्राउज़र के रूप में कैसे पहचानता हूं, इस बारे में और जान सकता हूं? विकिपीडिया कहता है "कम-स्तरीय हाइपरटेक्स्ट ट्रांसफर प्रोटोकॉल (HTTP) को कार्यान्वित करना" लेकिन मैं वास्तव में यह जानना चाहता हूं कि यह कैसे काम करता है। HTTP अनुरोधों में – Abdul

+1

@Abdul, आप स्वयं को पहचानने के लिए "उपयोगकर्ता-एजेंट" संपत्ति निर्दिष्ट कर सकते हैं। उदाहरण के लिए यदि आप इसे "मोज़िला/5.0 ... क्रोम" या क्रोम का उपयोग करने वाले किसी चीज़ पर सेट करते हैं, तो आपका स्क्रैपर सर्वर पर ब्राउज़र जैसा दिखता है। –

6

AFAIK वेब क्रॉलिंग क्या गूगल करता है - यह लिंक देख रही है और उस साइट और साइटों यह

वेब स्क्रैपिंग के लिए लिंक के लेआउट के एक डेटाबेस का निर्माण एक वेबसाइट के इर्द गिर्द चक्कर एक वेब पेज के progamatic विश्लेषण किया जाएगा इसके कुछ डेटा लोड करने के लिए, ईजी बीबीसी मौसम को लोड कर रहा है और इसके मौसम को फटकार कर रहा है (इसे स्क्रैपिंग कर रहा है) और इसे कहीं और रखकर या किसी अन्य प्रोग्राम में इसका उपयोग कर रहा है।

48

हां, वे अलग हैं। अभ्यास में, आपको दोनों का उपयोग करने की आवश्यकता हो सकती है।

(मैं क्योंकि, अब तक, अन्य उत्तर यह का सार करने के लिए नहीं मिलता है में कूद करने के लिए है। वे उदाहरण का उपयोग लेकिन भेद स्पष्ट नहीं बनाते हैं। दी, वे 2010 से कर रहे हैं!)

वेब स्क्रैपिंग, न्यूनतम परिभाषा का उपयोग करने के लिए, वेब दस्तावेज़ को संसाधित करने और इसकी जानकारी निकालने की प्रक्रिया है। आप वेब क्रॉलिंग किए बिना वेब स्क्रैपिंग कर सकते हैं।

वेब क्रॉलिंग, न्यूनतम परिभाषा का उपयोग करने के लिए, बीज यूआरएल की सूची से शुरू होने वाले वेब लिंक को खोजने और लाने की प्रक्रिया है। सच पूछिये तो, वेब क्रॉलिंग ऐसा करने के लिए, आप scraping वेब के कुछ डिग्री करने के लिए (। यूआरएल को निकालने के लिए)

कुछ अवधारणाओं अन्य उत्तर में उल्लेख स्पष्ट करने के लिए है:

  • robots.txt करने का इरादा है किसी भी स्वचालित प्रक्रिया पर लागू होता है जो किसी वेब पेज तक पहुंचता है। तो यह क्रॉलर और स्क्रैपर्स दोनों पर लागू होता है।

  • 'उचित' क्रॉलर और स्क्रैपर्स, दोनों को स्वयं को सटीक रूप से पहचानना चाहिए।

कुछ संदर्भों:

0

वहाँ निश्चित रूप से इन दोनों के बीच एक अंतर है। एक साइट पर जाने के लिए संदर्भित करता है, दूसरा निकालने के लिए।

+0

आप और भी अधिक जानकारी प्रदान कर सकते हैं ... निश्चित रूप से मदद करेंगे ... – NREZ

1

इन दोनों के बीच एक मौलिक अंतर है। गहरे खुदाई करने वाले लोगों के लिए, मेरा सुझाव है कि आप इसे पढ़ लें - Web scraper, Web Crawler

यह पोस्ट विस्तार से है। chart showing difference between scraping and crawling

+1

ध्यान दें कि [केवल-लिंक उत्तर] (http://meta.stackoverflow.com/tags/link-only-answers/info) हैं निराश, SO उत्तर समाधान के लिए खोज का अंत बिंदु होना चाहिए (बनाम अभी तक संदर्भों का एक और स्टॉपओवर, जो समय के साथ पुराना हो जाता है)। लिंक को संदर्भ के रूप में रखते हुए, यहां स्टैंड-अलोन सारांश जोड़ना पर विचार करें। – kleopatra

+0

अरे @ मोहित लिंक टूटा हुआ है ... कोई अन्य स्रोत – konzo

0

हम साइट क्रॉल व्यापक परिप्रेक्ष्य के लिए कैसे साइट संरचित है, क्या पृष्ठों के बीच कनेक्शन हैं, अनुमान लगाने के लिए हम सभी पृष्ठों हम रुचि रखते हैं यात्रा करने के लिए की जरूरत है कितना समय: एक अच्छा सारांश लेख से इस चार्ट में है इन स्क्रैपिंग को लागू करना अक्सर कठिन होता है, लेकिन यह डेटा निष्कर्षण का सार है। आइए कुछ आयताकारों के साथ पेपर शीट के साथ कवरिंग वेबसाइट के रूप में स्क्रैपिंग के बारे में सोचें। अब हम केवल उन्हीं चीज़ों को देख सकते हैं जो पूरी तरह से वेबसाइट के उन हिस्सों को अनदेखा कर रहे हैं जो सभी पृष्ठों (जैसे नेविगेशन, पाद लेख, विज्ञापन), या टिप्पणियों या ब्रेडक्रंब के रूप में अपर्याप्त सूचनाओं के लिए आम हैं। क्रॉलिंग और स्क्रैपिंग के बीच मतभेदों के बारे में अधिक जानकारी यहां आपको मिलती है: https://tarantoola.io/web-scraping-vs-web-crawling/

संबंधित मुद्दे