2009-04-07 13 views
12

मैं विशिष्ट बातों के लिए क्रॉल करना चाहते क्रॉलिंग। विशेष रूप से घटनाएं जो संगीत कार्यक्रम, फिल्में, कला गैलरी खोलने आदि जैसी जगह ले रही हैं आदि। कुछ भी जो समय बिताने में व्यतीत कर सकता है।इंटरनेट

मैं एक क्रॉलर कैसे लागू करते हैं?

मैं ग्रब (grub.org -> विकिया) के बारे में सुना है और Heritix (http://crawler.archive.org/)

वहाँ दूसरों रहे हैं?

हर किसी को क्या राय है?

-जेसन

उत्तर

3

मुझे लगता है कि वेबक्रॉलर हिस्सा कार्य का सबसे आसान हिस्सा होगा। कठिन हिस्सा यह तय करेगा कि किन साइटों पर जाएं और उन साइटों पर ईवेंट कैसे खोजें जिन्हें आप देखना चाहते हैं। हो सकता है कि आप या तो Google या Yahoo API का उपयोग कर डेटा आप चाहते हैं पाने के लिए के बारे में देखना चाहते हैं। वे पहले से ही इंटरनेट पर बहुत से पृष्ठों को क्रॉल करने का काम कर चुके हैं - आप किसी भी तरह से, मेरे दिमाग में ध्यान केंद्रित कर सकते हैं, जो ईवेंट आप ढूंढ रहे हैं उन्हें प्राप्त करने के लिए डेटा को स्थानांतरित करने की बहुत कठिन समस्या है।

0

वहाँ एक भाषा विशिष्ट आवश्यकता है?,

मैं कुछ समय बिताया Chilkat स्पाइडर लिब के साथ प्रयोग करना थोड़ी देर के निजी प्रयोग के लिए वापस, .net

अंतिम मैं वहाँ मकड़ी Libs, लाइसेंस प्राप्त कर रहे जाँच के लिए फ्रीवेयर, (हालांकि नहीं खुला स्रोत के रूप में तक मुझे पता है :() के रूप में

लगता है वे अजगर लिब के लिए।

http://www.example-code.com/python/pythonspider.asp #Python http://www.example-code.com/csharp/spider.asp # .Net

5

जो कुछ भी आप करते हैं, कृपया एक अच्छा नागरिक बनें और robots.txt फ़ाइल का पालन करें। आप focused crawlers पर विकिपीडिया पृष्ठ पर संदर्भों को देखना चाह सकते हैं। बस एहसास हुआ कि मैं Topical Web Crawlers: Evaluating Adaptive Algorithms के लेखकों में से एक जानता हूं। छोटी सी दुनिया।

1

यदि आपको लगता है कि इंटरनेट को क्रॉल करना एक कार्य को शुरू करने के लिए हो जाता है तो आप RSS aggregator बनाने और क्रेगलिस्ट और आगामी.org जैसी लोकप्रिय घटना साइटों के लिए आरएसएस फ़ीड की सदस्यता लेने पर विचार करना चाहेंगे।

इन साइटों में से प्रत्येक स्थानीय, खोजे जाने की घटनाओं प्रदान करते हैं। आरएसएस बजाय सभी विकृत HTML कि निर्माण करता है वेब के लिए होने की एक (कुछ) मानकीकृत स्वरूपों के साथ आप प्रदान करता है ...

तरह ROME (जावा) opensource पुस्तकालयों कि आरएसएस फीड की खपत के साथ मदद मिल सकती है कर रहे हैं।

0

Kevin's आरएसएस फ़ीड के सुझाव के बाद, आप Yahoo pipes को देखना चाहेंगे। मैंने अभी तक उनकी कोशिश नहीं की है, लेकिन मुझे लगता है कि वे आपको कई आरएसएस फ़ीड संसाधित करने और वेब पेज या अधिक आरएसएस फ़ीड उत्पन्न करने की अनुमति देते हैं।

+1

किसी भी चीज़ के लिए कभी भी पाइप्स का उपयोग न करें। यह बहुत विश्वसनीय और बहुत धीमी नहीं है। – mixdev

10

उस विषय के लिए एक उत्कृष्ट परिचयात्मक पाठ Introduction to Information Retrieval (फुल टेक्स्ट ऑनलाइन उपलब्ध है) है। इसमें Web crawling पर एक अध्याय है, लेकिन शायद अधिक महत्वपूर्ण बात यह है कि यह उन चीजों के लिए आधार प्रदान करता है जिन्हें आप क्रॉल किए गए दस्तावेज़ों के साथ करना चाहते हैं।

Introduction to Information Retrieval http://nlp.stanford.edu/IR-book/iir.jpg

+2

शानदार किताब। –

4

बाहर चेक Scrapy। यह पाइथन में लिखा गया एक ओपन सोर्स वेब क्रॉलिंग फ्रेमवर्क है (मैंने सुना है कि यह पेजों की सेवा करने के बजाय इसे Django के समान है)। यह आसानी से एक्स्टेंसिबल, वितरित/समांतर है और बहुत ही आशाजनक दिखता है।

मैं स्केपर का उपयोग करता हूं, क्योंकि इस तरह से मैं अपनी शक्तियों को स्क्रैप किए गए सामग्री आदि से सही डेटा निकालने और डेटाबेस में डालने की तरह कुछ और मामूली चीज़ों के लिए बचा सकता हूं।

2

असल पैमाने निर्देशित क्रॉलर लेखन काफी चुनौतीपूर्ण कार्य है। मैंने काम पर एक को लागू किया और इसे थोड़ी देर तक बनाए रखा। ऐसी कई समस्याएं हैं जिन्हें आप तब तक नहीं जानते जब तक आप एक लिखते हैं और समस्याओं को हिट नहीं करते हैं। विशेष रूप से सीडीएन और साइटों के अनुकूल क्रॉलिंग से निपटना। अनुकूली एल्गोरिदम बहुत महत्वपूर्ण हैं या आप डॉस फ़िल्टरों की यात्रा करेंगे। असल में आप इसे बिना किसी जानकारी के जानते होंगे यदि आपका क्रॉल काफी बड़ा है।

बातें सोचने के लिए के बारे में:

  • सक्षम प्रवाह क्षमता को छोड़कर क्या है?
  • आप साइट आउटेज से कैसे निपटते हैं?
  • यदि आप अवरुद्ध हैं तो क्या होता है?
  • क्या आप चुपके क्रॉलिंग में शामिल होना चाहते हैं (contreversial और वास्तव में सही पाने के लिए काफी मुश्किल)?

मैंने वास्तव में कुछ सामान लिखा है कि यदि मैं कभी भी इसके आसपास आ जाता हूं तो मैं क्रॉलर निर्माण के बारे में ऑनलाइन डाल सकता हूं क्योंकि एक उचित निर्माण करने से लोग आपको बताएंगे। अधिकांश ओपन सोर्स क्रॉलर ज्यादातर लोगों के लिए काफी काम करते हैं, इसलिए यदि आप मेरी सिफारिश कर सकते हैं कि आप उनमें से किसी एक का उपयोग करें। कौन सा फीचर/प्लेटफ़ॉर्म विकल्प है।

संबंधित मुद्दे