Robots.txt, केवल डोमेन रूट तक पहुंच की अनुमति कैसे दें, और कोई गहरा नहीं?

मैं क्रॉलरों को अपने डोमेन की रूट निर्देशिका (यानी index.html फ़ाइल) तक पहुंचने की अनुमति देना चाहता हूं, लेकिन कुछ भी गहरा नहीं है (यानी कोई उपनिर्देशिका नहीं)। मैं robots.txt फ़ाइल के भीतर व्यक्तिगत रूप से प्रत्येक उपनिर्देशिका को सूचीबद्ध और अस्वीकार नहीं करना चाहता हूं। वर्तमान में मेरे पास निम्नलिखित है, लेकिन मुझे लगता है कि यह सब कुछ अवरुद्ध कर रहा है, जिसमें डोमेन की जड़ में सामान शामिल है।Robots.txt, केवल डोमेन रूट तक पहुंच की अनुमति कैसे दें, और कोई गहरा नहीं?

User-agent: * 
Allow: /$ 
Disallow:/

मैं अपने robots.txt को कैसे पूरा कर सकता हूं, इसे पूरा करने के लिए मैं कैसे लिख सकता हूं?

अग्रिम धन्यवाद!

स्रोत

2011-03-05 WASa2

यह "रोबोट-सार्वभौमिक" तरीके से नहीं किया जा सकता है। क्या आपके पास .htaccess या इसी तरह की पहुंच है? – alexn

मेरे पास .htaccess तक पहुंच है। असल में, मेरा लक्ष्य, robots.txt, मेटा टैग, और मेटा http शीर्षलेख का उपयोग करके, मैं अपने मुख्य पृष्ठ (यानी index.html) को किसी भी खोज इंजन परिणामों में समाप्त होने से रोकने के लिए व्यक्तिगत रूप से कर सकता हूं। – WASa2

कुछ भी नहीं है जो सभी क्रॉलरों के लिए काम करेगा। ऐसे दो विकल्प हैं जो आपके लिए उपयोगी हो सकते हैं।

रोबोट कि वाइल्डकार्ड की तरह कुछ का समर्थन करना चाहिए अनुमति देते हैं:

Disallow: /*/

प्रमुख खोज इंजन क्रॉलर्स वाइल्डकार्ड को समझते हैं, लेकिन दुर्भाग्य से छोटे से ज्यादातर नहीं है।

यदि आपके पास रूट में अपेक्षाकृत कम फ़ाइलें हैं और आप अक्सर नई फाइलें नहीं जोड़ते हैं, तो आप उन फ़ाइलों तक पहुंच की अनुमति देने के लिए Allow का उपयोग कर सकते हैं, और फिर अन्य सभी को प्रतिबंधित करने के लिए Disallow: / का उपयोग कर सकते हैं। यह है:

User-agent: * 
Allow: /index.html 
Allow: /coolstuff.jpg 
Allow: /morecoolstuff.html 
Disallow:/

यहां आदेश महत्वपूर्ण है। क्रॉलर को पहला मैच लेना चाहिए। तो यदि आपका पहला नियम Disallow: / था, तो सही ढंग से व्यवहार करने वाला क्रॉलर निम्नलिखित Allow लाइनों तक नहीं पहुंच पाएगा।

यदि कोई क्रॉलर Allow का समर्थन नहीं करता है, तो यह Disallow: / और आपकी साइट पर कुछ भी क्रॉल नहीं करेगा। बेशक, यह robots.txt में चीजों को अनदेखा करता है जो इसे समझ में नहीं आता है।

सभी प्रमुख खोज इंजन क्रॉलर Allow का समर्थन करते हैं, और बहुत से छोटे लोग भी करते हैं। इसे कार्यान्वित करना आसान है।

स्रोत

2011-03-05 22:28:31

संक्षेप में robots.txt मानक का उपयोग करके यह अच्छी तरह से करने का कोई तरीका नहीं है। याद रखें डिस्लो पथ उपसर्ग निर्दिष्ट करता है। वाइल्डकार्ड और अनुमति गैर-मानक हैं।

तो निम्न दृष्टिकोण (एक क्लज!) काम करेगा।

User-agent: * 
Disallow: /a 
Disallow: /b 
Disallow: /c 
... 
Disallow: /z 
Disallow: /A 
Disallow: /B 
Disallow: /C 
... 
Disallow: /Z 
Disallow: /0 
Disallow: /1 
Disallow: /2 
... 
Disallow: /9

स्रोत

2011-09-30 12:46:12

Robots.txt, केवल डोमेन रूट तक पहुंच की अनुमति कैसे दें, और कोई गहरा नहीं?

उत्तर

संबंधित मुद्दे