क्या मुझे अपनी साइट पर जाने वाले बॉट से छुटकारा पाना चाहिए?

मैं अपने ट्रैकर्स पर ध्यान दे रहा हूं कि बॉट्स मेरी साइट ALOT पर जा रहे हैं। क्या मुझे अपना robots.txt बदलना या संपादित करना चाहिए या कुछ बदलना चाहिए? यकीन नहीं है कि यह अच्छा है, क्योंकि वे अनुक्रमण कर रहे हैं या क्या?क्या मुझे अपनी साइट पर जाने वाले बॉट से छुटकारा पाना चाहिए?

स्रोत

2008-11-29 Coughlin

क्या मुझे अपना robots.txt बदलना या संपादित करना चाहिए या कुछ बदलना चाहिए?

बॉट पर निर्भर करता है। कुछ बॉट्स robots.txt को कर्तव्यपूर्वक अनदेखा करेंगे। हमें 18 महीने पहले Google एडी बॉट के साथ एक ही समस्या थी क्योंकि हमारा ग्राहक बहुत सारे विज्ञापनों को खरीद रहा था। Google एडी बॉट (दस्तावेज के रूप में) वाइल्डकार्ड (*) बहिष्करण को अनदेखा करेंगे, लेकिन स्पष्ट अनदेखा सुनेंगे।

याद रखें, robots.txt का सम्मान करने वाले बॉट्स आपकी साइट को क्रॉल नहीं करेंगे। यह अवांछनीय है अगर आप चाहते हैं कि वे अनुक्रमण के लिए आपके डेटा तक पहुंच प्राप्त करें।

एक बेहतर समाधान बॉट्स को स्थिर सामग्री को थ्रॉटल या आपूर्ति करना है।

सुनिश्चित नहीं है कि यह अच्छा है, क्योंकि वे अनुक्रमणित हैं या क्या?

वे इंडेक्सिंग/स्क्रैपिंग/चोरी कर सकते हैं। सब वही वास्तव में। मुझे लगता है कि आप चाहते हैं कि उपयोगकर्ता एजेन्ट्स के आधार पर उनके http अनुरोध प्रसंस्करण को थ्रॉटल करना है। यह कैसे करें आपके वेब सर्वर और ऐप कंटेनर पर निर्भर करता है।

जैसा कि बॉट दुर्भावनापूर्ण है, अन्य सुझावों में सुझाव दिया गया है, तो आपको या तो UserAgent पैटर्न ढूंढने और उन्हें 403 प्रतिबंधों को भेजने की आवश्यकता होगी। या, यदि दुर्भावनापूर्ण बॉट्स उपयोगकर्ता एजेंट स्ट्रिंग को गतिशील रूप से बदलते हैं तो आपके पास दो और विकल्प हैं:

व्हाइट-सूची उपयोगकर्ता एजेंट - उदा। एक उपयोगकर्ता एजेंट फ़िल्टर बनाएं जो केवल कुछ उपयोगकर्ता एजेंट स्वीकार करता है। यह बहुत अपूर्ण है।
आईपी प्रतिबंध - http शीर्षलेख में स्रोत आईपी होगा। या, यदि आप DOS'd (सेवा हमले से इनकार कर रहे हैं) प्राप्त कर रहे हैं, तो आपको बड़ी समस्याएं हैं

स्रोत

2008-11-29 05:07:54 CVertex

'आइटम 1 के साथ असहमत' Google robots.txt का बहुत अच्छा पालन करता है। – UnkwnTech

सच नहीं था जब हमें 18 महीने पहले यह समस्या थी (www.mytickets.com.au के साथ)। यह Google का एडी बॉट था जो लगातार नए संसाधनों की जांच कर रहा था। मैं इसके लिए अपना स्रोत फिर से देखूंगा – CVertex

आप सही हैं। जिस मामले में मैं सोच रहा था वह यह था: Google विज्ञापन बॉट वाइल्डकार्ड केस (*) – CVertex

मुझे सच में नहीं लगता कि robots.txt को बदलने में मदद मिलेगी, क्योंकि केवल अच्छे बॉट का पालन करना है यह। अन्य सभी इसे अनदेखा करते हैं और कृपया अपनी सामग्री को पार्स करते हैं। व्यक्तिगत रूप से मैं अवांछित रोबोट से छुटकारा पाने के लिए http://www.codeplex.com/urlrewriter का उपयोग करता हूं, यदि वे पाए जाते हैं तो एक प्रतिबंधित संदेश का जवाब देकर।

स्रोत

2008-11-29 05:42:48

स्पैम बॉट्स robots.txt के बारे में परवाह नहीं करते हैं। आप उन्हें mod_security (जो अपने आप में एक बहुत अच्छा अपाचे प्लगइन है) के साथ कुछ अवरुद्ध कर सकते हैं। या आप उन्हें अनदेखा कर सकते हैं।

स्रोत

2008-11-29 05:48:48 Eli

आपको अपने लॉग के साथ स्क्रू करने के लिए कुछ बॉट्स को अस्वीकार करने के लिए .htaccess का उपयोग करना पड़ सकता है। यहाँ देखें: http://spamhuntress.com/2006/02/13/another-hungry-java-bot/

मैं जावा बॉट के बहुत सारे मेरी साइट क्रॉल गयी है, उन्होंने

SetEnvIfNoCase उपयोगकर्ता-एजेंट^जावा/1। javabot = yes
SetEnvIfNoCase उपयोगकर्ता-एजेंट^जावा 1। javabot = yes
env = javabot

से इनकार कर दिया।अब उन्हें केवल 403 एक बार मिलता है और यह है :)

स्रोत

2008-11-29 06:11:56

मैंने एक बार ऐसे ग्राहक के लिए काम किया जिसकी साइट पर "कीमत तुलना" बॉट्स की संख्या थी। समस्या यह थी कि हमारे बैकएंड संसाधन दुर्लभ थे और प्रति लेनदेन लागत थी।

कुछ समय से इनमें से कुछ से लड़ने की कोशिश करने के बाद, लेकिन बॉट्स ने अपनी पहचान योग्य विशेषताओं को बदलना जारी रखा। हमने निम्नलिखित रणनीति के साथ समाप्त किया:

सर्वर पर प्रत्येक सत्र के लिए हमने निर्धारित किया कि उपयोगकर्ता किसी भी बिंदु पर बहुत तेजी से क्लिक कर रहा है। दोहराए गए नंबरों के बाद, हम "isRobot" ध्वज को सत्य पर सेट करेंगे और सोते हुए उस सत्र के भीतर प्रतिक्रिया गति को आसानी से थ्रॉटल करेंगे। हमने उपयोगकर्ता को किसी भी तरह से नहीं बताया, क्योंकि वह उस मामले में एक नया सत्र शुरू करेगा।

स्रोत

2008-11-30 08:01:02 krosenvold

क्या मुझे अपनी साइट पर जाने वाले बॉट से छुटकारा पाना चाहिए?

उत्तर

संबंधित मुद्दे