मैं पूछता हूं, Google, माइक्रोसॉफ्ट और याहू को छोड़कर हर क्रॉलर को अस्वीकार करने के बारे में कुछ समय सोच रहा हूं! मेरी साइट सेrobots.txt: कुछ चुनिंदा कुछ के अलावा सभी को अस्वीकार करें, क्यों नहीं?
इसके पीछे तर्क यह है कि मैंने कभी भी किसी भी अन्य वेब क्रॉलर द्वारा उत्पन्न यातायात उत्पन्न नहीं किया है।
मेरे प्रश्न हैं:
- तो ऐसा कोई कारण नहीं है के लिए?
- क्या किसी ने ऐसा किया है?
- क्या आपने कोई नकारात्मक प्रभाव देखा है?
अद्यतन:
अब तक मैं काली सूची दृष्टिकोण का इस्तेमाल किया: अगर मैं क्रॉलर पसंद नहीं है, मैं उन्हें अस्वीकार सूची में जोड़ें।
मैं ब्लैकलिस्टिंग का कोई प्रशंसक नहीं हूं क्योंकि यह एक कभी खत्म होने वाली कहानी नहीं है: वहां हमेशा और अधिक क्रॉलर होते हैं।
मैं असली बदसूरत दुर्व्यवहार करने वाले क्रॉलरों के बारे में बहुत चिंतित नहीं हूं, वे स्वचालित रूप से पाए जाते हैं और अवरुद्ध होते हैं। (और वे आम तौर पर किसी भी तरह robots.txt के लिए नहीं पूछते हैं :)
हालांकि, कई क्रॉलर वास्तव में किसी भी तरह से गलत व्यवहार नहीं कर रहे हैं, वे मेरे/मेरे ग्राहकों के लिए कोई मूल्य उत्पन्न नहीं कर रहे हैं।
उदाहरण के लिए कुछ क्रॉलर हैं जो पावर वेबसाइट का दावा करते हैं कि वे अगला Google होंगे; केवल बेहतर मैंने उनसे कोई ट्रैफिक नहीं देखा है और मैं ऊपर वर्णित चार खोज इंजनों में से किसी एक से बेहतर होने के बारे में काफी संदेहजनक हूं।
अद्यतन 2:
मैं अब कुछ समय के लिए कई साइटों के लिए यातायात का विश्लेषण किया गया है, और ऐसा लगता है कि उचित छोटे साइटों, 100 अद्वितीय मानव आगंतुकों को एक दिन (= आगंतुकों है कि मैं होने के रूप में पहचान नहीं कर सकते के लिए अमानवीय)। उत्पन्न यातायात का लगभग 52% स्वचालित प्रक्रियाओं से है।
सभी स्वचालित आगंतुकों का 60% robots.txt पढ़ नहीं रहा है, 40% (कुल ट्रैफ़िक का 21%) robots.txt का अनुरोध करता है। (इसमें Ask, Google, माइक्रोसॉफ्ट, और याहू शामिल हैं)
तो मेरी सोच यह है कि, यदि मैं सभी अच्छी तरह से व्यवहार किए गए क्रॉलर को अवरुद्ध करता हूं जो मेरे लिए कोई मूल्य उत्पन्न नहीं करते हैं, तो मैं बैंडविड्थ उपयोग और सर्वर लोड को कम कर सकता हूं लगभग 12% - 17%।
अच्छा अवतार बीटीडब्ल्यू :) – annakata
तीन से अधिक पूछे जाने वाले प्रश्न के लिए डाउनवोट और समापन के साथ क्या है! बहुत साल पहले? क्या समुदाय को खुश रखने के लिए यह नया प्रोत्साहन है? ओह, और कोई टिप्पणी नहीं। – Jacco
एक सुरक्षा परिप्रेक्ष्य से, श्वेतसूची स्पष्ट रूप से जाने का सबसे अच्छा तरीका है। हालांकि, यदि पॉलिसी एक जनादेश के बजाय एक सुझाव है (robots.txt है), जब उपयोगकर्ता-एजेंटों को अवरुद्ध करने की बात आती है तो केवल ध्यान देने वाले लोग ही विनम्र होते हैं, और वे नहीं हैं जो आप हैं वैसे भी रोकने की कोशिश कर रहा है। ऐसा कहा जा रहा है कि, श्वेतसूची वाले URL में ** कोई ** हानि नहीं है, और आपके द्वारा लागू किया जा सकता है। तो आप जानते हैं कि '/admin.php' तक पहुंचने का प्रयास करने वाला कोई भी दुर्भावनापूर्ण है, न केवल भ्रमित बॉट। इसके अलावा, आप जानते हैं कि आप वास्तव में कौन सी सामग्री अनुक्रमित करना चाहते हैं। –