2008-11-29 12 views
5

मैं अपने ट्रैकर्स पर ध्यान दे रहा हूं कि बॉट्स मेरी साइट ALOT पर जा रहे हैं। क्या मुझे अपना robots.txt बदलना या संपादित करना चाहिए या कुछ बदलना चाहिए? यकीन नहीं है कि यह अच्छा है, क्योंकि वे अनुक्रमण कर रहे हैं या क्या?क्या मुझे अपनी साइट पर जाने वाले बॉट से छुटकारा पाना चाहिए?

उत्तर

4

क्या मुझे अपना robots.txt बदलना या संपादित करना चाहिए या कुछ बदलना चाहिए?

बॉट पर निर्भर करता है। कुछ बॉट्स robots.txt को कर्तव्यपूर्वक अनदेखा करेंगे। हमें 18 महीने पहले Google एडी बॉट के साथ एक ही समस्या थी क्योंकि हमारा ग्राहक बहुत सारे विज्ञापनों को खरीद रहा था। Google एडी बॉट (दस्तावेज के रूप में) वाइल्डकार्ड (*) बहिष्करण को अनदेखा करेंगे, लेकिन स्पष्ट अनदेखा सुनेंगे।

याद रखें, robots.txt का सम्मान करने वाले बॉट्स आपकी साइट को क्रॉल नहीं करेंगे। यह अवांछनीय है अगर आप चाहते हैं कि वे अनुक्रमण के लिए आपके डेटा तक पहुंच प्राप्त करें।

एक बेहतर समाधान बॉट्स को स्थिर सामग्री को थ्रॉटल या आपूर्ति करना है।

सुनिश्चित नहीं है कि यह अच्छा है, क्योंकि वे अनुक्रमणित हैं या क्या?

वे इंडेक्सिंग/स्क्रैपिंग/चोरी कर सकते हैं। सब वही वास्तव में। मुझे लगता है कि आप चाहते हैं कि उपयोगकर्ता एजेन्ट्स के आधार पर उनके http अनुरोध प्रसंस्करण को थ्रॉटल करना है। यह कैसे करें आपके वेब सर्वर और ऐप कंटेनर पर निर्भर करता है।

जैसा कि बॉट दुर्भावनापूर्ण है, अन्य सुझावों में सुझाव दिया गया है, तो आपको या तो UserAgent पैटर्न ढूंढने और उन्हें 403 प्रतिबंधों को भेजने की आवश्यकता होगी। या, यदि दुर्भावनापूर्ण बॉट्स उपयोगकर्ता एजेंट स्ट्रिंग को गतिशील रूप से बदलते हैं तो आपके पास दो और विकल्प हैं:

  • व्हाइट-सूची उपयोगकर्ता एजेंट - उदा। एक उपयोगकर्ता एजेंट फ़िल्टर बनाएं जो केवल कुछ उपयोगकर्ता एजेंट स्वीकार करता है। यह बहुत अपूर्ण है।
  • आईपी प्रतिबंध - http शीर्षलेख में स्रोत आईपी होगा। या, यदि आप DOS'd (सेवा हमले से इनकार कर रहे हैं) प्राप्त कर रहे हैं, तो आपको बड़ी समस्याएं हैं
+0

'आइटम 1 के साथ असहमत' Google robots.txt का बहुत अच्छा पालन करता है। – UnkwnTech

+1

सच नहीं था जब हमें 18 महीने पहले यह समस्या थी (www.mytickets.com.au के साथ)। यह Google का एडी बॉट था जो लगातार नए संसाधनों की जांच कर रहा था। मैं इसके लिए अपना स्रोत फिर से देखूंगा – CVertex

+0

आप सही हैं। जिस मामले में मैं सोच रहा था वह यह था: Google विज्ञापन बॉट वाइल्डकार्ड केस (*) – CVertex

4

मुझे सच में नहीं लगता कि robots.txt को बदलने में मदद मिलेगी, क्योंकि केवल अच्छे बॉट का पालन करना है यह। अन्य सभी इसे अनदेखा करते हैं और कृपया अपनी सामग्री को पार्स करते हैं। व्यक्तिगत रूप से मैं अवांछित रोबोट से छुटकारा पाने के लिए http://www.codeplex.com/urlrewriter का उपयोग करता हूं, यदि वे पाए जाते हैं तो एक प्रतिबंधित संदेश का जवाब देकर।

3

स्पैम बॉट्स robots.txt के बारे में परवाह नहीं करते हैं। आप उन्हें mod_security (जो अपने आप में एक बहुत अच्छा अपाचे प्लगइन है) के साथ कुछ अवरुद्ध कर सकते हैं। या आप उन्हें अनदेखा कर सकते हैं।

2

आपको अपने लॉग के साथ स्क्रू करने के लिए कुछ बॉट्स को अस्वीकार करने के लिए .htaccess का उपयोग करना पड़ सकता है। यहाँ देखें: http://spamhuntress.com/2006/02/13/another-hungry-java-bot/

मैं जावा बॉट के बहुत सारे मेरी साइट क्रॉल गयी है, उन्होंने

SetEnvIfNoCase उपयोगकर्ता-एजेंट^जावा/1। javabot = yes
SetEnvIfNoCase उपयोगकर्ता-एजेंट^जावा 1। javabot = yes
env = javabot

से इनकार कर दिया।अब उन्हें केवल 403 एक बार मिलता है और यह है :)

2

मैंने एक बार ऐसे ग्राहक के लिए काम किया जिसकी साइट पर "कीमत तुलना" बॉट्स की संख्या थी। समस्या यह थी कि हमारे बैकएंड संसाधन दुर्लभ थे और प्रति लेनदेन लागत थी।

कुछ समय से इनमें से कुछ से लड़ने की कोशिश करने के बाद, लेकिन बॉट्स ने अपनी पहचान योग्य विशेषताओं को बदलना जारी रखा। हमने निम्नलिखित रणनीति के साथ समाप्त किया:

सर्वर पर प्रत्येक सत्र के लिए हमने निर्धारित किया कि उपयोगकर्ता किसी भी बिंदु पर बहुत तेजी से क्लिक कर रहा है। दोहराए गए नंबरों के बाद, हम "isRobot" ध्वज को सत्य पर सेट करेंगे और सोते हुए उस सत्र के भीतर प्रतिक्रिया गति को आसानी से थ्रॉटल करेंगे। हमने उपयोगकर्ता को किसी भी तरह से नहीं बताया, क्योंकि वह उस मामले में एक नया सत्र शुरू करेगा।

संबंधित मुद्दे