robots.txt: कुछ चुनिंदा कुछ के अलावा सभी को अस्वीकार करें, क्यों नहीं?

मैं पूछता हूं, Google, माइक्रोसॉफ्ट और याहू को छोड़कर हर क्रॉलर को अस्वीकार करने के बारे में कुछ समय सोच रहा हूं! मेरी साइट सेrobots.txt: कुछ चुनिंदा कुछ के अलावा सभी को अस्वीकार करें, क्यों नहीं?

इसके पीछे तर्क यह है कि मैंने कभी भी किसी भी अन्य वेब क्रॉलर द्वारा उत्पन्न यातायात उत्पन्न नहीं किया है।

मेरे प्रश्न हैं:

तो ऐसा कोई कारण नहीं है के लिए?
क्या किसी ने ऐसा किया है?
क्या आपने कोई नकारात्मक प्रभाव देखा है?

अद्यतन:
अब तक मैं काली सूची दृष्टिकोण का इस्तेमाल किया: अगर मैं क्रॉलर पसंद नहीं है, मैं उन्हें अस्वीकार सूची में जोड़ें।
मैं ब्लैकलिस्टिंग का कोई प्रशंसक नहीं हूं क्योंकि यह एक कभी खत्म होने वाली कहानी नहीं है: वहां हमेशा और अधिक क्रॉलर होते हैं।

मैं असली बदसूरत दुर्व्यवहार करने वाले क्रॉलरों के बारे में बहुत चिंतित नहीं हूं, वे स्वचालित रूप से पाए जाते हैं और अवरुद्ध होते हैं। (और वे आम तौर पर किसी भी तरह robots.txt के लिए नहीं पूछते हैं :)

हालांकि, कई क्रॉलर वास्तव में किसी भी तरह से गलत व्यवहार नहीं कर रहे हैं, वे मेरे/मेरे ग्राहकों के लिए कोई मूल्य उत्पन्न नहीं कर रहे हैं।
उदाहरण के लिए कुछ क्रॉलर हैं जो पावर वेबसाइट का दावा करते हैं कि वे अगला Google होंगे; केवल बेहतर मैंने उनसे कोई ट्रैफिक नहीं देखा है और मैं ऊपर वर्णित चार खोज इंजनों में से किसी एक से बेहतर होने के बारे में काफी संदेहजनक हूं।

अद्यतन 2:
मैं अब कुछ समय के लिए कई साइटों के लिए यातायात का विश्लेषण किया गया है, और ऐसा लगता है कि उचित छोटे साइटों, 100 अद्वितीय मानव आगंतुकों को एक दिन (= आगंतुकों है कि मैं होने के रूप में पहचान नहीं कर सकते के लिए अमानवीय)। उत्पन्न यातायात का लगभग 52% स्वचालित प्रक्रियाओं से है।

सभी स्वचालित आगंतुकों का 60% robots.txt पढ़ नहीं रहा है, 40% (कुल ट्रैफ़िक का 21%) robots.txt का अनुरोध करता है। (इसमें Ask, Google, माइक्रोसॉफ्ट, और याहू शामिल हैं)

तो मेरी सोच यह है कि, यदि मैं सभी अच्छी तरह से व्यवहार किए गए क्रॉलर को अवरुद्ध करता हूं जो मेरे लिए कोई मूल्य उत्पन्न नहीं करते हैं, तो मैं बैंडविड्थ उपयोग और सर्वर लोड को कम कर सकता हूं लगभग 12% - 17%।

स्रोत

2009-01-28 Jacco

अच्छा अवतार बीटीडब्ल्यू :) – annakata

तीन से अधिक पूछे जाने वाले प्रश्न के लिए डाउनवोट और समापन के साथ क्या है! बहुत साल पहले? क्या समुदाय को खुश रखने के लिए यह नया प्रोत्साहन है? ओह, और कोई टिप्पणी नहीं। – Jacco

एक सुरक्षा परिप्रेक्ष्य से, श्वेतसूची स्पष्ट रूप से जाने का सबसे अच्छा तरीका है। हालांकि, यदि पॉलिसी एक जनादेश के बजाय एक सुझाव है (robots.txt है), जब उपयोगकर्ता-एजेंटों को अवरुद्ध करने की बात आती है तो केवल ध्यान देने वाले लोग ही विनम्र होते हैं, और वे नहीं हैं जो आप हैं वैसे भी रोकने की कोशिश कर रहा है। ऐसा कहा जा रहा है कि, श्वेतसूची वाले URL में ** कोई ** हानि नहीं है, और आपके द्वारा लागू किया जा सकता है। तो आप जानते हैं कि '/admin.php' तक पहुंचने का प्रयास करने वाला कोई भी दुर्भावनापूर्ण है, न केवल भ्रमित बॉट। इसके अलावा, आप जानते हैं कि आप वास्तव में कौन सी सामग्री अनुक्रमित करना चाहते हैं। –

इंटरनेट प्रकाशन तंत्र है। यदि आप अपनी साइट को श्वेतसूची में रखना चाहते हैं, तो आप अनाज के खिलाफ हैं, लेकिन यह ठीक है।

क्या आप अपनी साइट को श्वेतसूची में बनाना चाहते हैं?

ध्यान रखें कि बुरी तरह से व्यवहार किए गए बॉट जो robots.txt को अनदेखा करते हैं, वैसे भी प्रभावित नहीं होते हैं (जाहिर है), और अच्छी तरह से व्यवहार किए गए बॉट शायद एक अच्छे कारण के लिए हैं, यह सिर्फ आपके लिए अपारदर्शी है।

स्रोत

2009-02-13 12:20:06 annakata

जबकि आपकी साइटें क्रॉल करने वाली अन्य साइटें आपकी सामग्री को किसी भी तरह से नहीं भेज रही हैं, यह संभव है कि वे स्वयं को Google et al द्वारा अनुक्रमित किया जा रहा है, और इसलिए आपकी साइट रैंक में जोड़ने से, उन्हें आपकी साइट से अवरुद्ध कर सकते हैं।

स्रोत

2009-01-28 12:57:16

क्या कोई कारण नहीं है?

क्या आप ऐसी किसी चीज़ से बाहर रहना चाहते हैं जिसमें आपकी साइट शामिल हो, जिसे आप नहीं जानते हैं और अप्रत्यक्ष रूप से आपकी सामग्री को बहुत अधिक तरीके से ला रहे हैं।

यदि कुछ अजीब क्रॉलर आपकी साइट पर हमला कर रहे हैं और अपनी बैंडविड्थ खा रहे हैं, तो आप शायद यह संभव है कि ऐसे क्रॉलर आपके robots.txt का सम्मान नहीं करेंगे।

अपनी लॉग फाइलों की जांच करें और देखें कि आपके पास क्या क्रॉलर हैं और वे आपके बैंडविड्थ का क्या अनुपात खा रहे हैं। आपकी साइट पर बमबारी करने वाले यातायात को अवरुद्ध करने के अधिक प्रत्यक्ष तरीके हो सकते हैं।

स्रोत

2009-01-28 13:06:48

मेरी एकमात्र चिंता यह है कि आप अगली बड़ी बात याद कर सकते हैं।

एक लंबी अवधि थी जहां अल्टाविस्टा खोज इंजन था। संभवतः Google से भी अधिक है। (कोई बिंग नहीं था, या पूछो, और याहू एक खोज इंजन की बजाय एक निर्देशिका थी)। साइट्स जो अल्टाविस्टा के पीछे सभी को अवरुद्ध करती हैं, तब कभी भी Google से यातायात नहीं देखा होता, और इसलिए कभी नहीं पता था कि यह कितना लोकप्रिय हो रहा था, जब तक कि वे किसी अन्य स्रोत से इसके बारे में नहीं सुना, जो उन्हें थोड़ी देर के लिए काफी नुकसान पहुंचा सकता था।

पेजरैंक पुरानी साइटों की ओर पक्षपातपूर्ण होता है। आप अपने से नए दिखाना नहीं चाहते हैं क्योंकि आप किसी भी कारण से robots.txt के माध्यम से एक्सेस अवरुद्ध कर रहे थे। ये लोग: http://www.dotnetdotcom.org/ अब पूरी तरह से बेकार हो सकता है, लेकिन शायद 5 साल के समय में, तथ्य यह है कि आप अपने सूचकांक में नहीं थे अब अगले बड़े खोज इंजन में आपके खिलाफ गिना जाएगा।

स्रोत

2011-01-24 18:23:10 rjmunro

@ गुड पॉइंट, इस दृष्टिकोण को नहीं माना गया था। – Jacco

यह वर्तमान में थोड़ा अजीब है, क्योंकि कोई "अनुमति" फ़ील्ड नहीं है। आसान तरीका है कि सभी फ़ाइलों को एक अलग निर्देशिका में अस्वीकृत किया जाए, "सामान" कहें, और एक फ़ाइल को इस निर्देशिका के ऊपर के स्तर पर छोड़ दें।

स्रोत

2011-05-26 13:16:11

robots.txt: कुछ चुनिंदा कुछ के अलावा सभी को अस्वीकार करें, क्यों नहीं?

उत्तर

संबंधित मुद्दे