2009-01-20 18 views
6

का सम्मान नहीं कर रहा है किसी कारण से जब मैं Google वेबमास्टर टूल की "robots.txt का विश्लेषण करता हूं" यह देखने के लिए कि हमारी robots.txt फ़ाइल द्वारा कौन से यूआरएल अवरुद्ध हैं, यह मेरी अपेक्षा नहीं है। यहाँ हमारे फ़ाइल की शुरुआत से एक टुकड़ा है:Googlebot Robots.txt

लिपियों फ़ोल्डर में
Sitemap: http://[omitted]/sitemap_index.xml 

User-agent: Mediapartners-Google 
Disallow: /scripts 

User-agent: * 
Disallow: /scripts 
# list of articles given by the Content group 
Disallow: http://[omitted]/Living/books/book-review-not-stupid.aspx 
Disallow: http://[omitted]/Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx 
Disallow: http://[omitted]/Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx 

कुछ भी सही ढंग से दोनों Googlebot और मीडिया भागीदार- Google के लिए ब्लॉक किए गए हैं। मैं देख सकता हूं कि दो रोबोट सही निर्देश देख रहे हैं क्योंकि Googlebot का कहना है कि स्क्रिप्ट को लाइन 7 से अवरुद्ध कर दिया गया है जबकि Mediapartners-Google को लाइन 4 से अवरुद्ध कर दिया गया है और फिर भी कोई अन्य यूआरएल मैं दूसरे उपयोगकर्ता के तहत अस्वीकृत यूआरएल से डालता हूं -जेंट निर्देश अवरुद्ध नहीं हैं!

अगर मेरी टिप्पणी या निरपेक्ष यूआरएल का उपयोग कर बातें पंगा लेना कर रहे हैं मैं सोच रहा हूँ ...

किसी भी अंतर्दृष्टि की सराहना की है। धन्यवाद।

उत्तर

11

उन्हें अनदेखा करने का कारण यह है कि प्रविष्टियों में प्रविष्टियों के लिए आपके पास पूरी तरह योग्य यूआरएल है जबकि specification इसकी अनुमति नहीं देता है। (आपको केवल सापेक्ष पथ, या पूर्ण पथ का उपयोग करके निर्दिष्ट करना चाहिए /)। निम्नलिखित का प्रयास करें:

Sitemap: /sitemap_index.xml 

User-agent: Mediapartners-Google 
Disallow: /scripts 

User-agent: * 
Disallow: /scripts 
# list of articles given by the Content group 
Disallow: /Living/books/book-review-not-stupid.aspx 
Disallow: /Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx 
Disallow: /Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx 

कैशिंग के लिए के रूप में, गूगल robots.txt फ़ाइल औसत में हर 24 घंटे की एक प्रति प्राप्त करने के लिए प्रयास करता है।

+0

क्या यह पहली पंक्ति सही है? http://www.sitemaps.org/protocol.php#submit_robots इंगित करता है कि साइटमैप स्थान पूरा यूआरएल होना चाहिए। –

+0

पूर्ण यूआरएल के साथ साइट मानचित्र ठीक है, लेकिन आपकी अस्वीकृति सूची अभी भी पूर्ण होनी चाहिए। –

+0

नीचे डेविड जेड के बाद, क्या यह फॉर्मूलेशन थोड़ा स्पष्ट नहीं होगा ?: पूर्ण यूआरएल के साथ साइट मानचित्र ठीक है, लेकिन दस्तावेजों की जड़ के आधार पर सूचियों को संबंधित यूआरएल होना चाहिए। – tuk0z

-1

क्या आपने हाल ही में अपनी robots.txt फ़ाइल में यह परिवर्तन किया था? मेरे अनुभव में यह लगता है कि Google कैश जो वास्तव में लंबे समय तक सामान लेते हैं।

0

यह कम से कम एक सप्ताह तक रहा है, और Google का कहना है कि इसे अंतिम रूप से 3 घंटे पहले डाउनलोड किया गया था, इसलिए मुझे यकीन है कि यह हाल ही में है।

+1

आप शायद अपने प्रश्न का उत्तर देने के बजाय मूल प्रश्न (आमतौर पर अतिरिक्त जानकारी के बाद बोल्ड में ईआईडीटी डालकर) को संपादित करने से बेहतर हैं (मुझे एहसास है कि आप अभी तक टिप्पणी नहीं कर सकते हैं)। – cletus

2

यह पूर्ण यूआरएल है। robots.txt केवल सापेक्ष यूआरआई शामिल करना चाहिए; डोमेन को उस डोमेन के आधार पर अनुमानित किया जाता है जो robots.txt से एक्सेस किया गया था।

संबंधित मुद्दे