2011-10-16 21 views
5

हम रोबोट.txt में हमारी वेबसाइट को क्रॉल करने या क्रॉल करने के लिए बॉट्स को बता सकते हैं। दूसरी तरफ, हम Google वेबमास्टर्स में क्रॉलिंग गति को नियंत्रित कर सकते हैं (Google बॉट वेबसाइट को कितना क्रॉल करता है)। मुझे आश्चर्य है कि क्रॉलर गतिविधियों को robots.txtक्या robots.txt द्वारा क्रॉल गति को नियंत्रित करना संभव है?

मेरा मतलब है कि पृष्ठों को क्रॉल करने के लिए बॉट स्वीकार करना, लेकिन समय या पृष्ठों या आकार के अनुसार उनकी उपस्थिति को सीमित करना संभव है!

उत्तर

2

मुझे नहीं मिला है। Robots.txt निर्देशिका या फ़ाइलों को रखने के लिए एक जगह है जिसे आप बॉट्स को शामिल या बहिष्कृत करना चाहते हैं। यदि कोई रास्ता था तो यह अभी तक मानक नहीं है। याद रखें कि जो कोई भी बॉट बनाता है वह robots.txt का सम्मान करता है या नहीं, सभी बॉट ("खराब बॉट") इस फ़ाइल का सम्मान नहीं करते हैं।

वर्तमान में यदि क्रॉल गति, साइट पर समय आदि को कम करने के लिए सेटिंग्स थी, तो यह बॉट आधार पर एक बॉट पर होगा और robots.txt मानों में मानकीकृत नहीं होगा।

और जानकारी: http://www.robotstxt.org/robotstxt.html

1

नहीं है, robots.txt फ़ाइल केवल निर्दिष्ट कर सकते हैं जो आप जिन पन्नों को सूचीबद्ध किए जा नहीं करना चाहते हैं और क्या उपयोगकर्ता एजेंटों उन नियमों भी लागू होते हैं। आप फ़ाइल के साथ कुछ और नहीं कर सकते हैं।

कुछ वेबसाइटें Allow और Sitemap निर्देशों का उपयोग करती हैं, लेकिन वे आधिकारिक वेबसाइट के अनुसार मान्य निर्देश नहीं दिखते हैं, भले ही कुछ क्रॉलर उनका सम्मान कर सकें।

5

एक निर्देश है जिसे आप robots.txt में उपयोग कर सकते हैं, यह "क्रॉल-देरी" है।

उदाहरण: Crawl-delay: 5

अर्थ रोबोट 5 सेकंड प्रति कोई एक से अधिक पृष्ठ को क्रॉल करना चाहिए। लेकिन यह निर्देश आधिकारिक तौर पर robots.txt द्वारा समर्थित नहीं है, जितना मुझे पता है।

इसके अलावा कुछ रोबोट भी हैं जो वास्तव में गिनती robots.txt फ़ाइल में नहीं लेते हैं। इसलिए यदि आपने कुछ पृष्ठों तक पहुंच की अनुमति नहीं दी है, तो भी वे कुछ रोबोटों द्वारा क्रॉल किए जा सकते हैं, बेशक Google की तरह सबसे बड़े नहीं।

उदाहरण के लिए Baidu robots.txt को अनदेखा कर सकता है, लेकिन यह निश्चित रूप से नहीं है।

मुझे इस जानकारी के लिए कोई आधिकारिक स्रोत नहीं मिला है, इसलिए आप इसे Google ही कर सकते हैं।

+1

अंतिम मैंने सुना है, Googlebot क्रॉल-देरी पर ध्यान नहीं देता है, तो यह वास्तव में गूगल के लिए मदद नहीं करेगा। हालांकि, कुछ अन्य बॉट्स के लिए होगा। जानकारी के बिना कि किस बॉट के लिए यह काम करता है, यह उत्तर बल्कि अधूरा है। – derobert

+2

'क्रॉल-विलंब' के बारे में अधिक जानकारी इस SO प्रश्न को देखें: http://stackoverflow.com/questions/17377835/robots-txt-what-is-the-proper-format-for-a-crawl-delay-for-multiple -सर-एजेंट –

+1

क्रॉल-देरी मानक का हिस्सा नहीं है, लेकिन कुछ बॉट इसका सम्मान करते हैं: https://en.wikipedia.org/wiki/Robots_exclusion_standard#Crawl-delay_directive – nmit026

0

मैं जानता हूँ कि यह एक बहुत पुराना सवाल है, लेकिन मैं जोड़ने के लिए है कि गूगल दस्तावेज़ यहां के अनुसार आधिकारिक जवाब है चाहता था:

आप आम तौर पर अपने Google वेबमास्टर टूल में क्रॉल दर सेटिंग समायोजित कर सकते हैं लेखा।

प्रति

: खोज Console मुखपृष्ठ पर

  1. , साइट है कि आप चाहते हैं पर क्लिक करें: https://developers.google.com/webmasters/control-crawl-index/docs/faq#h04

वेबमास्टर टूल के ज़रिये से आप इन चरणों का पालन कर सकते हैं।

  • गियर आइकन पर क्लिक करें, फिर साइट सेटिंग्स पर क्लिक करें।

  • क्रॉल दर अनुभाग में, इच्छित विकल्प का चयन करें और फिर वांछित क्रॉल दर को सीमित करें।

  • नई क्रॉल दर 90 दिनों के लिए मान्य होगी।

    रेफरी: google support question

    +0

    मैं सिर्फ क्रॉल दर निर्धारित करता हूं और यह कहता है कि यह एक महीने के लिए मान्य है, 90 दिन – Sharky

    +0

    @ शार्क का मतलब है कि Google उनका नहीं रखता है दस्तावेज़ अपडेट किया गया? :-) – john

    संबंधित मुद्दे