2009-11-14 7 views
13

मैं वेब सर्वर पर कुछ फ़ाइलों के लिए सटीक डाउनलोड नंबर प्राप्त करने का प्रयास कर रहा हूं। मैं उपयोगकर्ता एजेंटों को देखता हूं और कुछ स्पष्ट रूप से बॉट या वेब क्रॉलर हैं, लेकिन कई लोगों के लिए मुझे यकीन नहीं है, वे वेब क्रॉलर हो सकते हैं या नहीं भी हो सकते हैं और वे कई डाउनलोड कर रहे हैं इसलिए मेरे लिए यह जानना महत्वपूर्ण है।क्या ज्ञात वेब क्रॉलर्स की एक सूची है?

क्या उपयोगकर्ता दस्तावेज़, आईपी, व्यवहार इत्यादि जैसे कुछ दस्तावेज के साथ कहीं वेब क्रॉलरों की एक सूची है?

मुझे Google, Yahoo या Microsoft की तरह आधिकारिक लोगों में कोई दिलचस्पी नहीं है। वे आम तौर पर अच्छी तरह से व्यवहार और आत्मनिर्भर होते हैं।

उत्तर

4

http://www.robotstxt.org/db.html शुरू करने के लिए एक अच्छी जगह है। यदि आपको इसकी ज़रूरत है तो उनके पास एक स्वचालित कच्ची फ़ीड है। http://www.botsvsbrowsers.com/ भी सहायक है।

4

दुर्भाग्य से हमने पाया है कि बॉट गतिविधि बहुत अधिक है और इसे सटीक रूप से फ़िल्टर करने में सक्षम होने के लिए विविध है। यदि आप सटीक डाउनलोड गिनती चाहते हैं, तो डाउनलोड करने के लिए जावास्क्रिप्ट की आवश्यकता के लिए आपकी सबसे अच्छी शर्त है। यह मूल रूप से एकमात्र चीज है जो विश्वसनीय रूप से बॉट को फ़िल्टर करने जा रही है। यही कारण है कि इन दिनों सभी साइट यातायात विश्लेषिकी इंजन जावास्क्रिप्ट आधारित हैं।

+0

हमारे मामले में समस्या यह है कि हमारे पास कई वैध डाउनलोडर हैं जो आईट्यून्स या किसी अन्य पॉडकेचर जैसी जावास्क्रिप्ट नहीं चलाएंगे। – Pablo

+0

दुर्भाग्यवश आप वास्तव में भाग्य से बाहर हैं, जहां तक ​​अत्यधिक सटीक डाउनलोड गणनाएं हैं। सबसे अच्छा विकल्प मैं सिफारिश कर सकता हूं कि तीन नंबर देख रहे हैं: कुल डाउनलोड (कोई फ़िल्टरिंग नहीं), बॉट्स (ब्लैक लिस्ट फ़िल्टरिंग) को छोड़कर फ़िल्टर करें, और ज्ञात अच्छी (सफेद सूची फ़िल्टरिंग) सहित फ़िल्टर करें। इससे कम से कम आपको प्रवृत्तियों और किसी न किसी बॉल-पार्क अनुमान के लिए कुछ मिल जाएगा। – jwanagel

4

मैं https://github.com/monperrus/crawler-user-agents/ पर क्रॉलर के उपयोगकर्ता-एजेंट पैटर्न की एक सूची बनाए रख रहा हूं।

यह सहयोगी है, आप इसे पुल अनुरोधों के साथ योगदान दे सकते हैं।

संबंधित मुद्दे