मैं अपने ट्रैकर्स पर ध्यान दे रहा हूं कि बॉट्स मेरी साइट ALOT पर जा रहे हैं। क्या मुझे अपना robots.txt बदलना या संपादित करना चाहिए या कुछ बदलना चाहिए? यकीन नहीं है कि यह अच्छा है, क्योंकि वे अनुक्रमण कर रहे हैं या क्या?क्या मुझे अपनी साइट पर जाने वाले बॉट से छुटकारा पाना चाहिए?
उत्तर
क्या मुझे अपना robots.txt बदलना या संपादित करना चाहिए या कुछ बदलना चाहिए?
बॉट पर निर्भर करता है। कुछ बॉट्स robots.txt को कर्तव्यपूर्वक अनदेखा करेंगे। हमें 18 महीने पहले Google एडी बॉट के साथ एक ही समस्या थी क्योंकि हमारा ग्राहक बहुत सारे विज्ञापनों को खरीद रहा था। Google एडी बॉट (दस्तावेज के रूप में) वाइल्डकार्ड (*) बहिष्करण को अनदेखा करेंगे, लेकिन स्पष्ट अनदेखा सुनेंगे।
याद रखें, robots.txt का सम्मान करने वाले बॉट्स आपकी साइट को क्रॉल नहीं करेंगे। यह अवांछनीय है अगर आप चाहते हैं कि वे अनुक्रमण के लिए आपके डेटा तक पहुंच प्राप्त करें।
एक बेहतर समाधान बॉट्स को स्थिर सामग्री को थ्रॉटल या आपूर्ति करना है।
सुनिश्चित नहीं है कि यह अच्छा है, क्योंकि वे अनुक्रमणित हैं या क्या?
वे इंडेक्सिंग/स्क्रैपिंग/चोरी कर सकते हैं। सब वही वास्तव में। मुझे लगता है कि आप चाहते हैं कि उपयोगकर्ता एजेन्ट्स के आधार पर उनके http अनुरोध प्रसंस्करण को थ्रॉटल करना है। यह कैसे करें आपके वेब सर्वर और ऐप कंटेनर पर निर्भर करता है।
जैसा कि बॉट दुर्भावनापूर्ण है, अन्य सुझावों में सुझाव दिया गया है, तो आपको या तो UserAgent पैटर्न ढूंढने और उन्हें 403 प्रतिबंधों को भेजने की आवश्यकता होगी। या, यदि दुर्भावनापूर्ण बॉट्स उपयोगकर्ता एजेंट स्ट्रिंग को गतिशील रूप से बदलते हैं तो आपके पास दो और विकल्प हैं:
- व्हाइट-सूची उपयोगकर्ता एजेंट - उदा। एक उपयोगकर्ता एजेंट फ़िल्टर बनाएं जो केवल कुछ उपयोगकर्ता एजेंट स्वीकार करता है। यह बहुत अपूर्ण है।
- आईपी प्रतिबंध - http शीर्षलेख में स्रोत आईपी होगा। या, यदि आप DOS'd (सेवा हमले से इनकार कर रहे हैं) प्राप्त कर रहे हैं, तो आपको बड़ी समस्याएं हैं
मुझे सच में नहीं लगता कि robots.txt को बदलने में मदद मिलेगी, क्योंकि केवल अच्छे बॉट का पालन करना है यह। अन्य सभी इसे अनदेखा करते हैं और कृपया अपनी सामग्री को पार्स करते हैं। व्यक्तिगत रूप से मैं अवांछित रोबोट से छुटकारा पाने के लिए http://www.codeplex.com/urlrewriter का उपयोग करता हूं, यदि वे पाए जाते हैं तो एक प्रतिबंधित संदेश का जवाब देकर।
स्पैम बॉट्स robots.txt के बारे में परवाह नहीं करते हैं। आप उन्हें mod_security (जो अपने आप में एक बहुत अच्छा अपाचे प्लगइन है) के साथ कुछ अवरुद्ध कर सकते हैं। या आप उन्हें अनदेखा कर सकते हैं।
आपको अपने लॉग के साथ स्क्रू करने के लिए कुछ बॉट्स को अस्वीकार करने के लिए .htaccess का उपयोग करना पड़ सकता है। यहाँ देखें: http://spamhuntress.com/2006/02/13/another-hungry-java-bot/
मैं जावा बॉट के बहुत सारे मेरी साइट क्रॉल गयी है, उन्होंने
SetEnvIfNoCase उपयोगकर्ता-एजेंट^जावा/1। javabot = yes
SetEnvIfNoCase उपयोगकर्ता-एजेंट^जावा 1। javabot = yes
env = javabot
से इनकार कर दिया।अब उन्हें केवल 403 एक बार मिलता है और यह है :)
मैंने एक बार ऐसे ग्राहक के लिए काम किया जिसकी साइट पर "कीमत तुलना" बॉट्स की संख्या थी। समस्या यह थी कि हमारे बैकएंड संसाधन दुर्लभ थे और प्रति लेनदेन लागत थी।
कुछ समय से इनमें से कुछ से लड़ने की कोशिश करने के बाद, लेकिन बॉट्स ने अपनी पहचान योग्य विशेषताओं को बदलना जारी रखा। हमने निम्नलिखित रणनीति के साथ समाप्त किया:
सर्वर पर प्रत्येक सत्र के लिए हमने निर्धारित किया कि उपयोगकर्ता किसी भी बिंदु पर बहुत तेजी से क्लिक कर रहा है। दोहराए गए नंबरों के बाद, हम "isRobot" ध्वज को सत्य पर सेट करेंगे और सोते हुए उस सत्र के भीतर प्रतिक्रिया गति को आसानी से थ्रॉटल करेंगे। हमने उपयोगकर्ता को किसी भी तरह से नहीं बताया, क्योंकि वह उस मामले में एक नया सत्र शुरू करेगा।
- 1. मुझे टीएफएस शाखाओं से कैसे ठीक से छुटकारा पाना चाहिए?
- 2. अपनी साइट पर tcpdf
- 3. फेसबुक क्रॉलर बॉट क्रैशिंग साइट
- 4. हाथ सीएसएस अपनी साइट पर ठीक से
- 5. क्या मुझे अपनी वेबसाइट
- 6. मुझे अपनी साइट पर संभावित खतरों की निगरानी कैसे करनी चाहिए?
- 7. क्या मैं Django साइट पर उपयोग किए जाने वाले हास्केल में घटकों को लिख सकता हूं?
- 8. क्या मुझे अपनी एमवीसी 2 साइट के लिए crossdomain.xml फ़ाइल चाहिए?
- 9. क्या मुझे डब्ल्यूडब्ल्यूडब्ल्यू के साथ अपनी साइट का रिकॉर्ड हटा देना चाहिए?
- 10. क्या मुझे अपनी लाइब्रेरी का उपयोग करने वाले किसी के लिए पर्यावरण को डिफ़ॉल्ट करना चाहिए?
- 11. अपनी साइट को सुरक्षित
- 12. मैं अपनी साइट
- 13. क्या असेंबली पर हस्ताक्षर किए जाने चाहिए?
- 14. मुझे अपनी जेएआर फाइलों पर हस्ताक्षर क्यों करना चाहिए?
- 15. मुझे अपनी वेबसाइट में महत्वपूर्ण मेटा टैग क्या रखना चाहिए?
- 16. क्या मुझे अपनी इकाई परीक्षण विधियों को दस्तावेज करना चाहिए?
- 17. क्या मुझे अपनी परियोजना पर एमवीसी 1.0 पर काम करना चाहिए या रोकना चाहिए और एमवीसी 2.0 सीखना चाहिए?
- 18. क्या मुझे हमेशा अपनी विधियों को यथासंभव स्थिर बनाना चाहिए?
- 19. मुझे अपनी PHP कक्षा फ़ाइल का नाम क्या देना चाहिए?
- 20. क्या मुझे अपनी utilities.pl को utilities.pm मॉड्यूल में बदलना चाहिए?
- 21. क्या मुझे अपनी साइटमैप फ़ाइल में पीडीएफ सूचीबद्ध करना चाहिए?
- 22. क्या मुझे ग्रिड कॉलम
- 23. चित्रा 1 से छुटकारा:
- 24. विरासत पर्ल कोड को यूटीएफ -8 में ले जाने पर मुझे क्या समस्याएं चाहिए?
- 25. file_get_contents() कनेक्शन ने अपनी साइट
- 26. क्या मुझे सिम्बियन ओएस पर विकसित करना सीखना चाहिए?
- 27. क्या मुझे ओआरएम चाहिए?
- 28. क्या एक चहचहाना बॉट
- 29. क्या मुझे संदर्भक्यू पर सिंक्रनाइज़ करना चाहिए?
- 30. मुझे अपनी वेबसाइट
'आइटम 1 के साथ असहमत' Google robots.txt का बहुत अच्छा पालन करता है। – UnkwnTech
सच नहीं था जब हमें 18 महीने पहले यह समस्या थी (www.mytickets.com.au के साथ)। यह Google का एडी बॉट था जो लगातार नए संसाधनों की जांच कर रहा था। मैं इसके लिए अपना स्रोत फिर से देखूंगा – CVertex
आप सही हैं। जिस मामले में मैं सोच रहा था वह यह था: Google विज्ञापन बॉट वाइल्डकार्ड केस (*) – CVertex