वेब क्रॉलिंग और वेब-स्क्रैपिंग के बीच क्या अंतर है?

क्रॉलिंग और वेब-स्क्रैपिंग के बीच कोई अंतर है?वेब क्रॉलिंग और वेब-स्क्रैपिंग के बीच क्या अंतर है?

यदि कोई अंतर है, तो किसी अनुकूलित खोज इंजन में बाद में उपयोग के लिए डेटाबेस की आपूर्ति करने के लिए कुछ वेब डेटा एकत्र करने के लिए उपयोग करने का सबसे अच्छा तरीका क्या है?

स्रोत

2010-12-01 wassimans

+13

स्क्रैपिंग का अर्थ किसी पृष्ठ से सामग्री खींचना है। क्रॉलिंग का अर्थ है कई पृष्ठों तक पहुंचने के लिए लिंक का पालन करना। क्रॉलर्स को खरोंच करना पड़ता है, और यह दो कारणों से होता है: एक वह उपयोगी क्रॉलर न केवल कुछ भी पृष्ठों के लिए ट्रैवर्स करता है; वे जानकारी एकत्र करते हैं (उदाहरण के लिए एक खोज इंजन के लिए एक खोज सूचकांक बनाने के लिए अनुक्रमण शब्द)। दूसरा, उन्हें अन्य पृष्ठों के लिंक खोजना होगा। – Kaz

क्रॉलिंग अनिवार्य रूप से Google, याहू, एमएसएन, आदि किसी भी जानकारी की तलाश में होगी। स्क्रैपिंग आम तौर पर कुछ वेबसाइटों पर लक्षित डेटा के लिए लक्षित किया जाता है, उदा। मूल्य तुलना के लिए, इसलिए काफी अलग कोडित हैं।

आम तौर पर एक स्क्रैपर वेबसाइटों यह scraping जा करने के लिए माना जाता है के लिए bespoke किया जाएगा, और काम करने की जाएगी एक (अच्छा) क्रॉलर ऐसा नहीं होता है, अर्थात्:

robots.txt के लिए कोई संबंध है
एक ब्राउज़र के रूप में खुद को पहचानें
डेटा के साथ पत्र जमा
निष्पादित जावास्क्रिप्ट (यदि कोई उपयोगकर्ता की तरह कार्य करने के लिए आवश्यक)

स्रोत

2010-12-01 18:07:22 Ben

@ बेन क्या आप जानते हैं कि मैं वेब ब्राउजर को ब्राउज़र के रूप में कैसे पहचानता हूं, इस बारे में और जान सकता हूं? विकिपीडिया कहता है "कम-स्तरीय हाइपरटेक्स्ट ट्रांसफर प्रोटोकॉल (HTTP) को कार्यान्वित करना" लेकिन मैं वास्तव में यह जानना चाहता हूं कि यह कैसे काम करता है। HTTP अनुरोधों में – Abdul

@Abdul, आप स्वयं को पहचानने के लिए "उपयोगकर्ता-एजेंट" संपत्ति निर्दिष्ट कर सकते हैं। उदाहरण के लिए यदि आप इसे "मोज़िला/5.0 ... क्रोम" या क्रोम का उपयोग करने वाले किसी चीज़ पर सेट करते हैं, तो आपका स्क्रैपर सर्वर पर ब्राउज़र जैसा दिखता है। –

AFAIK वेब क्रॉलिंग क्या गूगल करता है - यह लिंक देख रही है और उस साइट और साइटों यह

वेब स्क्रैपिंग के लिए लिंक के लेआउट के एक डेटाबेस का निर्माण एक वेबसाइट के इर्द गिर्द चक्कर एक वेब पेज के progamatic विश्लेषण किया जाएगा इसके कुछ डेटा लोड करने के लिए, ईजी बीबीसी मौसम को लोड कर रहा है और इसके मौसम को फटकार कर रहा है (इसे स्क्रैपिंग कर रहा है) और इसे कहीं और रखकर या किसी अन्य प्रोग्राम में इसका उपयोग कर रहा है।

स्रोत

2010-12-01 17:58:18

हां, वे अलग हैं। अभ्यास में, आपको दोनों का उपयोग करने की आवश्यकता हो सकती है।

(मैं क्योंकि, अब तक, अन्य उत्तर यह का सार करने के लिए नहीं मिलता है में कूद करने के लिए है। वे उदाहरण का उपयोग लेकिन भेद स्पष्ट नहीं बनाते हैं। दी, वे 2010 से कर रहे हैं!)

वेब स्क्रैपिंग, न्यूनतम परिभाषा का उपयोग करने के लिए, वेब दस्तावेज़ को संसाधित करने और इसकी जानकारी निकालने की प्रक्रिया है। आप वेब क्रॉलिंग किए बिना वेब स्क्रैपिंग कर सकते हैं।

वेब क्रॉलिंग, न्यूनतम परिभाषा का उपयोग करने के लिए, बीज यूआरएल की सूची से शुरू होने वाले वेब लिंक को खोजने और लाने की प्रक्रिया है। सच पूछिये तो, वेब क्रॉलिंग ऐसा करने के लिए, आप scraping वेब के कुछ डिग्री करने के लिए (। यूआरएल को निकालने के लिए)

कुछ अवधारणाओं अन्य उत्तर में उल्लेख स्पष्ट करने के लिए है:

robots.txt करने का इरादा है किसी भी स्वचालित प्रक्रिया पर लागू होता है जो किसी वेब पेज तक पहुंचता है। तो यह क्रॉलर और स्क्रैपर्स दोनों पर लागू होता है।
'उचित' क्रॉलर और स्क्रैपर्स, दोनों को स्वयं को सटीक रूप से पहचानना चाहिए।

कुछ संदर्भों:

स्रोत

2012-06-21 17:08:37

वहाँ निश्चित रूप से इन दोनों के बीच एक अंतर है। एक साइट पर जाने के लिए संदर्भित करता है, दूसरा निकालने के लिए।

स्रोत

2013-09-06 10:08:40 Annie

आप और भी अधिक जानकारी प्रदान कर सकते हैं ... निश्चित रूप से मदद करेंगे ... – NREZ

इन दोनों के बीच एक मौलिक अंतर है। गहरे खुदाई करने वाले लोगों के लिए, मेरा सुझाव है कि आप इसे पढ़ लें - Web scraper, Web Crawler

यह पोस्ट विस्तार से है।

स्रोत

2013-09-06 10:16:31

ध्यान दें कि [केवल-लिंक उत्तर] (http://meta.stackoverflow.com/tags/link-only-answers/info) हैं निराश, SO उत्तर समाधान के लिए खोज का अंत बिंदु होना चाहिए (बनाम अभी तक संदर्भों का एक और स्टॉपओवर, जो समय के साथ पुराना हो जाता है)। लिंक को संदर्भ के रूप में रखते हुए, यहां स्टैंड-अलोन सारांश जोड़ना पर विचार करें। – kleopatra

अरे @ मोहित लिंक टूटा हुआ है ... कोई अन्य स्रोत – konzo

हम साइट क्रॉल व्यापक परिप्रेक्ष्य के लिए कैसे साइट संरचित है, क्या पृष्ठों के बीच कनेक्शन हैं, अनुमान लगाने के लिए हम सभी पृष्ठों हम रुचि रखते हैं यात्रा करने के लिए की जरूरत है कितना समय: एक अच्छा सारांश लेख से इस चार्ट में है इन स्क्रैपिंग को लागू करना अक्सर कठिन होता है, लेकिन यह डेटा निष्कर्षण का सार है। आइए कुछ आयताकारों के साथ पेपर शीट के साथ कवरिंग वेबसाइट के रूप में स्क्रैपिंग के बारे में सोचें। अब हम केवल उन्हीं चीज़ों को देख सकते हैं जो पूरी तरह से वेबसाइट के उन हिस्सों को अनदेखा कर रहे हैं जो सभी पृष्ठों (जैसे नेविगेशन, पाद लेख, विज्ञापन), या टिप्पणियों या ब्रेडक्रंब के रूप में अपर्याप्त सूचनाओं के लिए आम हैं। क्रॉलिंग और स्क्रैपिंग के बीच मतभेदों के बारे में अधिक जानकारी यहां आपको मिलती है: https://tarantoola.io/web-scraping-vs-web-crawling/

स्रोत

2016-11-26 21:14:20 shirk3y

वेब क्रॉलिंग और वेब-स्क्रैपिंग के बीच क्या अंतर है?

उत्तर

संबंधित मुद्दे