Googlebot Robots.txt

का सम्मान नहीं कर रहा है किसी कारण से जब मैं Google वेबमास्टर टूल की "robots.txt का विश्लेषण करता हूं" यह देखने के लिए कि हमारी robots.txt फ़ाइल द्वारा कौन से यूआरएल अवरुद्ध हैं, यह मेरी अपेक्षा नहीं है। यहाँ हमारे फ़ाइल की शुरुआत से एक टुकड़ा है:Googlebot Robots.txt

लिपियों फ़ोल्डर में

Sitemap: http://[omitted]/sitemap_index.xml 

User-agent: Mediapartners-Google 
Disallow: /scripts 

User-agent: * 
Disallow: /scripts 
# list of articles given by the Content group 
Disallow: http://[omitted]/Living/books/book-review-not-stupid.aspx 
Disallow: http://[omitted]/Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx 
Disallow: http://[omitted]/Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx

कुछ भी सही ढंग से दोनों Googlebot और मीडिया भागीदार- Google के लिए ब्लॉक किए गए हैं। मैं देख सकता हूं कि दो रोबोट सही निर्देश देख रहे हैं क्योंकि Googlebot का कहना है कि स्क्रिप्ट को लाइन 7 से अवरुद्ध कर दिया गया है जबकि Mediapartners-Google को लाइन 4 से अवरुद्ध कर दिया गया है और फिर भी कोई अन्य यूआरएल मैं दूसरे उपयोगकर्ता के तहत अस्वीकृत यूआरएल से डालता हूं -जेंट निर्देश अवरुद्ध नहीं हैं!

अगर मेरी टिप्पणी या निरपेक्ष यूआरएल का उपयोग कर बातें पंगा लेना कर रहे हैं मैं सोच रहा हूँ ...

किसी भी अंतर्दृष्टि की सराहना की है। धन्यवाद।

स्रोत

2009-01-20 Anonymous

उन्हें अनदेखा करने का कारण यह है कि प्रविष्टियों में प्रविष्टियों के लिए आपके पास पूरी तरह योग्य यूआरएल है जबकि specification इसकी अनुमति नहीं देता है। (आपको केवल सापेक्ष पथ, या पूर्ण पथ का उपयोग करके निर्दिष्ट करना चाहिए /)। निम्नलिखित का प्रयास करें:

Sitemap: /sitemap_index.xml 

User-agent: Mediapartners-Google 
Disallow: /scripts 

User-agent: * 
Disallow: /scripts 
# list of articles given by the Content group 
Disallow: /Living/books/book-review-not-stupid.aspx 
Disallow: /Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx 
Disallow: /Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx

कैशिंग के लिए के रूप में, गूगल robots.txt फ़ाइल औसत में हर 24 घंटे की एक प्रति प्राप्त करने के लिए प्रयास करता है।

स्रोत

2009-01-21 00:01:18

क्या यह पहली पंक्ति सही है? http://www.sitemaps.org/protocol.php#submit_robots इंगित करता है कि साइटमैप स्थान पूरा यूआरएल होना चाहिए। –

पूर्ण यूआरएल के साथ साइट मानचित्र ठीक है, लेकिन आपकी अस्वीकृति सूची अभी भी पूर्ण होनी चाहिए। –

नीचे डेविड जेड के बाद, क्या यह फॉर्मूलेशन थोड़ा स्पष्ट नहीं होगा ?: पूर्ण यूआरएल के साथ साइट मानचित्र ठीक है, लेकिन दस्तावेजों की जड़ के आधार पर सूचियों को संबंधित यूआरएल होना चाहिए। – tuk0z

-1

क्या आपने हाल ही में अपनी robots.txt फ़ाइल में यह परिवर्तन किया था? मेरे अनुभव में यह लगता है कि Google कैश जो वास्तव में लंबे समय तक सामान लेते हैं।

स्रोत

2009-01-20 23:42:47 Webjedi

यह कम से कम एक सप्ताह तक रहा है, और Google का कहना है कि इसे अंतिम रूप से 3 घंटे पहले डाउनलोड किया गया था, इसलिए मुझे यकीन है कि यह हाल ही में है।

स्रोत

2009-01-20 23:44:37

आप शायद अपने प्रश्न का उत्तर देने के बजाय मूल प्रश्न (आमतौर पर अतिरिक्त जानकारी के बाद बोल्ड में ईआईडीटी डालकर) को संपादित करने से बेहतर हैं (मुझे एहसास है कि आप अभी तक टिप्पणी नहीं कर सकते हैं)। – cletus

यह पूर्ण यूआरएल है। robots.txt केवल सापेक्ष यूआरआई शामिल करना चाहिए; डोमेन को उस डोमेन के आधार पर अनुमानित किया जाता है जो robots.txt से एक्सेस किया गया था।

स्रोत

2009-01-21 00:01:04

Googlebot Robots.txt

उत्तर

संबंधित मुद्दे