बिंगबॉट और BaiduSpider robots.txt

का सम्मान नहीं करते हैं मेरे सीपीयू उपयोग अचानक मेरी साइट पर घूमने वाले बॉट्स के कारण 400% से अधिक हो जाने के बाद, मैंने एक robots.txt बनाया और फ़ाइल को मेरी जड़ में रखा, उदाहरण के लिए "www.example .com/":बिंगबॉट और BaiduSpider robots.txt

User-agent: * 
Disallow:/

अब Google इस फ़ाइल का सम्मान करता है और वहाँ गूगल के अपने लॉग फ़ाइल में कोई और अधिक घटना है। हालांकि बिंगबॉट & BaiduSpider अभी भी मेरे लॉग (और भरपूर) में दिखाई देता है।

जैसा कि मैंने CPU उपयोग में इस भारी वृद्धि था & भी बैंडविड्थ और मेरे होस्टिंग प्रदाता के बारे में मेरा खाता निलंबित किया गया था, मैं सबसे पहले अपने सभी पृष्ठों को हटा दिया (मामले में एक बुरा स्क्रिप्ट नहीं थी), स्वच्छ पृष्ठों अपलोड किया है, सभी बोट्स अवरुद्ध .htaccess & में आईपी पते के माध्यम से उस robots.txt फ़ाइल बनाई गई।

मैंने हर जगह यह पुष्टि करने के लिए खोज की कि मैंने सही कदम उठाए हैं (अभी तक .htaccess में "ReWrite" विकल्प का प्रयास नहीं किया है)।

क्या कोई यह पुष्टि कर सकता है कि मैंने जो किया है वह नौकरी करना चाहिए? (चूंकि मैंने इस उद्यम को शुरू किया है, इसलिए मेरा सीपीयू उपयोग 6 दिनों के भीतर 120% तक चला गया है, लेकिन कम से कम आईपी पतों को अवरुद्ध करना सीपीयू उपयोग को मेरे सामान्य 5-10% तक लाया जाना चाहिए था)।

स्रोत

2012-07-10 Richard

उदासी, robots.txt, एक "सज्जनों समझौते" है आप एक फ़ायरवॉल की पहुंच है तो आप उन्हें एकमुश्त ब्लॉक सकता है, अन्य लोगों को एक ही समस्या आप http://www.webmasterworld.com/search_engine_spiders/4348357.htm (इस लिंक में प्रतिबंध लगाने के लिए आईपी पते) –

हाय हैराल्ड, लिंक के लिए धन्यवाद। आईपी पते के माध्यम से उन्हें सीधे अवरुद्ध कर दिया। मान लीजिए कि वे मेरे robots.txt और मेटा टैग क्यों नहीं पढ़ रहे हैं (मैंने बदल दिया)। सीपीयू का उपयोग 51% तक हो गया है, इसलिए अब मैं कुछ आईपी पते को छोड़ देता हूं ताकि वे robots.txt नियम और मेटा टैग नियम पढ़ सकें और देखेंगे कि यह कैसा चल रहा है। धन्यवाद, रिचर्ड – Richard

यदि ये Bingbot और Baiduspider से वैध मकड़ी हैं तो उन्हें दोनों को आपके robots.txt फ़ाइल को दिए गए अनुसार सम्मानित करना चाहिए। हालांकि, इसे लेने से पहले समय लग सकता है और यदि इन फ़ाइलों को पहले अनुक्रमित किया गया है तो यह उस पर अभिनय करना शुरू कर सकता है - जो शायद यहां मामला है।

यह इस उदाहरण में लागू नहीं होता है, लेकिन यह ध्यान दिया जाना चाहिए कि Robots.txt मानक की Baiduspider की व्याख्या कुछ अन्य मामलों में अन्य मुख्यधारा के बॉट (यानी Googlebot) के लिए थोड़ा अलग है। उदाहरण के लिए, जब मानक Disallow: पर URL पथ को उपसर्ग पर रिकॉर्ड करता है, तो Baiduspider केवल संपूर्ण निर्देशिका/पथ नामों से मेल खाता है। जब 0bनिर्देश दिए जाने पर Googlebot URL http://example.com/private/ से मेल खाता है, तो Baiduspider नहीं होगा।

संदर्भ:
http://www.baidu.com/search/robots_english.html

स्रोत

2014-04-01 11:16:16 MrWhite

जानकारी के लिए धन्यवाद – Richard

हाय, धन्यवाद जानकारी ... लेकिन लिंक अब टूट गया है। क्या किसी को पता है कि उसे कहाँ स्थानांतरित किया गया है? – rosuav

@rosuav मैंने लिंक अपडेट किया है (चाहे यह _exactly_ एक ही पृष्ठ है, मुझे यकीन नहीं है?)। हालांकि, उदाहरण बिल्कुल स्पष्ट नहीं हैं - विरोधाभासी होने के बिंदु पर। 'अस्वीकृति 'निर्देश के तहत, यह" अस्वीकार करें:/सहायता' अस्वीकार करता है ... '/ helpabc.html'", हालांकि, इसका पालन करने वाले उदाहरणों की तालिका में तात्पर्य है कि' अस्वीकार करें:/tmp' _not_ अस्वीकार नहीं करेगा '/tmphoho'! वे दो बार एक ही उदाहरण देते हैं ('अस्वीकार करें:/tmp' और URL '/ tmp') और एक में यह मेल खाता है और दूसरा यह नहीं करता है !? (वह वास्तव में समझ में नहीं आता है, तो शायद अनुवाद में कुछ खो गया है !?) – MrWhite

बिंगबॉट और BaiduSpider robots.txt

उत्तर

संबंधित मुद्दे