2011-03-05 10 views
13

मैं क्रॉलरों को अपने डोमेन की रूट निर्देशिका (यानी index.html फ़ाइल) तक पहुंचने की अनुमति देना चाहता हूं, लेकिन कुछ भी गहरा नहीं है (यानी कोई उपनिर्देशिका नहीं)। मैं robots.txt फ़ाइल के भीतर व्यक्तिगत रूप से प्रत्येक उपनिर्देशिका को सूचीबद्ध और अस्वीकार नहीं करना चाहता हूं। वर्तमान में मेरे पास निम्नलिखित है, लेकिन मुझे लगता है कि यह सब कुछ अवरुद्ध कर रहा है, जिसमें डोमेन की जड़ में सामान शामिल है।Robots.txt, केवल डोमेन रूट तक पहुंच की अनुमति कैसे दें, और कोई गहरा नहीं?

User-agent: * 
Allow: /$ 
Disallow:/

मैं अपने robots.txt को कैसे पूरा कर सकता हूं, इसे पूरा करने के लिए मैं कैसे लिख सकता हूं?

अग्रिम धन्यवाद!

+1

यह "रोबोट-सार्वभौमिक" तरीके से नहीं किया जा सकता है। क्या आपके पास .htaccess या इसी तरह की पहुंच है? – alexn

+0

मेरे पास .htaccess तक पहुंच है। असल में, मेरा लक्ष्य, robots.txt, मेटा टैग, और मेटा http शीर्षलेख का उपयोग करके, मैं अपने मुख्य पृष्ठ (यानी index.html) को किसी भी खोज इंजन परिणामों में समाप्त होने से रोकने के लिए व्यक्तिगत रूप से कर सकता हूं। – WASa2

उत्तर

10

कुछ भी नहीं है जो सभी क्रॉलरों के लिए काम करेगा। ऐसे दो विकल्प हैं जो आपके लिए उपयोगी हो सकते हैं।

रोबोट कि वाइल्डकार्ड की तरह कुछ का समर्थन करना चाहिए अनुमति देते हैं:

Disallow: /*/ 

प्रमुख खोज इंजन क्रॉलर्स वाइल्डकार्ड को समझते हैं, लेकिन दुर्भाग्य से छोटे से ज्यादातर नहीं है।

यदि आपके पास रूट में अपेक्षाकृत कम फ़ाइलें हैं और आप अक्सर नई फाइलें नहीं जोड़ते हैं, तो आप उन फ़ाइलों तक पहुंच की अनुमति देने के लिए Allow का उपयोग कर सकते हैं, और फिर अन्य सभी को प्रतिबंधित करने के लिए Disallow: / का उपयोग कर सकते हैं। यह है:

User-agent: * 
Allow: /index.html 
Allow: /coolstuff.jpg 
Allow: /morecoolstuff.html 
Disallow:/

यहां आदेश महत्वपूर्ण है। क्रॉलर को पहला मैच लेना चाहिए। तो यदि आपका पहला नियम Disallow: / था, तो सही ढंग से व्यवहार करने वाला क्रॉलर निम्नलिखित Allow लाइनों तक नहीं पहुंच पाएगा।

यदि कोई क्रॉलर Allow का समर्थन नहीं करता है, तो यह Disallow: / और आपकी साइट पर कुछ भी क्रॉल नहीं करेगा। बेशक, यह robots.txt में चीजों को अनदेखा करता है जो इसे समझ में नहीं आता है।

सभी प्रमुख खोज इंजन क्रॉलर Allow का समर्थन करते हैं, और बहुत से छोटे लोग भी करते हैं। इसे कार्यान्वित करना आसान है।

1

संक्षेप में robots.txt मानक का उपयोग करके यह अच्छी तरह से करने का कोई तरीका नहीं है। याद रखें डिस्लो पथ उपसर्ग निर्दिष्ट करता है। वाइल्डकार्ड और अनुमति गैर-मानक हैं।

तो निम्न दृष्टिकोण (एक क्लज!) काम करेगा।

User-agent: * 
Disallow: /a 
Disallow: /b 
Disallow: /c 
... 
Disallow: /z 
Disallow: /A 
Disallow: /B 
Disallow: /C 
... 
Disallow: /Z 
Disallow: /0 
Disallow: /1 
Disallow: /2 
... 
Disallow: /9 
संबंधित मुद्दे