2010-07-08 14 views
42

बनाम किसी एक क्रॉलर और गुंजाइश और कार्यक्षमता के संदर्भ में स्क्रेपर के बीच भेद कर सकते हैं।क्रॉलर स्क्रेपर

+2

उन शब्दों सटीक परिभाषा के जरूरत नहीं है। क्या आपके पास उपयोग उदाहरण हैं? –

+0

मैं एक ऐसा एप्लीकेशन लिखना चाहता हूं जो कुछ एक्सपैथ आधारित नियमों (विशिष्ट हाइपरलिंक्स का पालन करें) के आधार पर किसी वेबसाइट पर चलता है और फिर कुछ पत्ते पृष्ठों से डेटा निकालता है। तो इसमें क्रॉलिंग और स्क्रैपिंग दोनों शामिल हैं। मुझे दोनों चरणों के लिए सर्वोत्तम संभव टूल खोजने की ज़रूरत है। – Nayn

+0

वेब पेज डाउनलोड करने और लिंक या स्क्रैप किए गए मान निकालने के लिए RegExp को लागू करने के लिए बहुत से प्लेटफ़ॉर्म पूरी तरह से अच्छे हैं। आप जो जानते हैं उसका प्रयोग करें। –

उत्तर

62

एक क्रॉलर वेब पृष्ठों हो जाता है प्रारंभिक बिंदु (ओं)।

एक स्क्रैपर उन पृष्ठों को लेता है जिन्हें डाउनलोड किया गया है [संपादित करें: या, अधिक सामान्य अर्थ में, डेटा जो प्रदर्शन के लिए स्वरूपित है], और (उन प्रयासों से डेटा निकालने का प्रयास करता है), ताकि यह (उदाहरण के लिए) हो एक डेटाबेस में संग्रहीत और वांछित के रूप में छेड़छाड़ की।

परिणाम का उपयोग करने के तरीके के आधार पर, स्क्रैपिंग जानकारी के मालिक के अधिकारों और/या वेब साइटों के उपयोग के बारे में उपयोगकर्ता समझौतों का उल्लंघन कर सकती है (क्रॉलिंग कुछ मामलों में उत्तरार्द्ध का भी उल्लंघन करती है)। संपादित करें: के रूप में स्टीवन Sudit ने उल्लेख किया, कई साइटों को निर्दिष्ट करने के लिए कैसे (और अगर) क्रॉलर्स कि साइट व्यवहार करना चाहिए उनके मूल में robots.txt नामित (यानी यूआरएल http://server/robots.txt वाले) एक फ़ाइल में शामिल हैं - विशेष रूप से, यह (आंशिक) यूआरएल सूचीबद्ध कर सकते हैं कि एक क्रॉलर को यात्रा करने का प्रयास नहीं करना चाहिए। वांछित होने पर इन्हें अलग क्रॉलर (उपयोगकर्ता-एजेंट) निर्दिष्ट किया जा सकता है। HTML से एक तर्क में और स्क्रेपर प्राप्त मूल्यों (निकालने) -

+7

हमें शायद robots.txt फ़ाइल का उल्लेख करना चाहिए जो क्रॉलर को क्रॉल नहीं करता है। Robots.txt जानकारी जोड़ने के लिए –

+0

+1। –

+0

@ स्टेवेन: ओह - आपका नाम गलत वर्तनी के लिए मेरी क्षमा। –

3

क्रौलर वेब सर्फ, लिंक का अनुसरण। एक उदाहरण Google रोबोट होगा जो पृष्ठों को इंडेक्स में प्राप्त करता है। स्क्रैपर्स फॉर्म से मूल्य निकालते हैं, लेकिन वेब के साथ जरूरी नहीं है। यानी, सिटी टूर एक ऐसी (या पते शुरू करने के लिए सेट) और कुछ शर्तों (जैसे, कितने लिंक गहरी जाने के लिए, फ़ाइलों के प्रकार की अनदेखी करने के) यह डाउनलोड करता है जो कुछ भी से से जुड़ा हुआ है -

+4

स्क्रैपर्स HTML से मान निकालें, आवश्यक रूप से नहीं। –

+3

स्क्रैपर्स स्क्रीन से मूल्य निकालें, जरूरी नहीं कि HTML। उदाहरण के लिए, मैंने पुराने मेनफ्रेम रूपों से मूल्य निकालने के लिए एक बार स्क्रैपर का उपयोग किया था। –

+4

मैं Google को इस पर एक मुफ्त पास नहीं दे सकता। Google एक क्रॉलर है, हां, लेकिन एक स्क्रैपर भी। खोज परिणामों में प्रदर्शित करने के लिए उनके पास मेटा विवरण कैसा है?शीर्षक? पदों की तिथियां? वे परम क्रॉलर और खुरचनी हैं। –

3

वेब क्रॉलर लिंक (पेज URL) हो जाता है।

इतने सारे वेब क्रॉलर उपकरणों रहे हैं। कुछ देखने के लिए Visit page। कोई एक्सएमएल - एचटीएमएल पार्सर क्रॉल किए गए पृष्ठों से डेटा निकालने के लिए उपयोग किया जा सकता है। (मैं Jsoup को पार्सिंग और डेटा निकालने के लिए अनुशंसा करता हूं)

0

आम तौर पर, क्रॉलर्स कई पृष्ठों तक पहुंचने के लिए लिंक का पालन करेंगे, जबकि कुछ अर्थों में, केवल ऑनलाइन प्रदर्शित सामग्री को खींचकर गहरे लिंक तक नहीं पहुंचेंगे।

सबसे आम क्रॉलर Google बॉट्स है, जो आपकी वेबसाइट पर सभी वेब पृष्ठों तक पहुंचने के लिए लिंक का पालन करेगा और सामग्री को अनुक्रमित करेगा यदि उन्हें यह उपयोगी लगे (इसलिए आपको robots.txt की आवश्यकता है यह बताने के लिए कि आप कौन सी सामग्री करते हैं अनुक्रमित नहीं करना चाहते हैं)। तो हम अपनी वेबसाइट पर इस तरह की सामग्री खोज सकते हैं। जबकि स्क्रैपर्स का उद्देश्य केवल व्यक्तिगत उपयोगों के लिए सामग्री खींचना है और दूसरों पर अधिक प्रभाव नहीं पड़ेगा।

हालांकि, क्रॉलर और स्क्रैपर्स के बारे में कोई अलग अंतर नहीं है क्योंकि कुछ स्वचालित वेब स्क्रैपिंग टूल आपको ऑक्टोपर्स और import.io जैसे लिंक का पालन करके वेबसाइट को क्रॉल करने की अनुमति भी देते हैं। वे Google बॉट्स जैसे क्रॉलर नहीं हैं, लेकिन वे कोडिंग के बिना कई डेटा प्राप्त करने के लिए स्वचालित रूप से वेबसाइटों को क्रॉल करने में सक्षम हैं।

संबंधित मुद्दे