2010-10-29 15 views
23

मैं नहीं चाहता कि खोज इंजन मेरे छापे पृष्ठ को अनुक्रमित करें। ऐसा कैसे किया जा सकता था?खोज इंजन को मेरी वेबसाइट के एक पृष्ठ को अनुक्रमणित करने से कैसे रोकें?

+0

https के लिए लिंक नीचे जाएँ: // सीएसएस-चाल।com/snippets/html/meta-tag-to-prevent-search-engine-bots/ – zloctb

उत्तर

28

आपको एक साधारण robots.txt फ़ाइल की आवश्यकता है। असल में, यह एक टेक्स्ट फ़ाइल है जो खोज इंजन को बताती है कि विशेष पृष्ठों को अनुक्रमणित न करें।
आपको इसे अपने पृष्ठ के शीर्षलेख में शामिल करने की आवश्यकता नहीं है; जब तक यह आपकी वेबसाइट की मूल निर्देशिका में है, तब तक इसे क्रॉलर द्वारा उठाया जाएगा।
अपनी वेबसाइट के रूट फ़ोल्डर में यह बनाएँ और में निम्नलिखित पाठ डाल:

User-Agent: * 
Disallow: /imprint-page.htm 

ध्यान दें कि आप पेज का वास्तविक नाम (या निर्देशिका) के साथ उदाहरण में imprint-page.html की जगह चाहते हैं कि आप चाहते हैं अनुक्रमित होने से बचने के लिए।

यही है! यदि आप अधिक उन्नत प्राप्त करना चाहते हैं, तो आप बहुत अधिक जानकारी के लिए here, here, या here देख सकते हैं। साथ ही, आप ऑनलाइन मुफ्त टूल ढूंढ सकते हैं जो आपके लिए robots.txt फ़ाइल उत्पन्न करेंगे (उदाहरण के लिए, here)।

+0

यहां एक अच्छा ट्यूटोरियल है: http://www.javascriptkit.com/howto/robots.shtml –

+0

धन्यवाद सैम! अन्य ट्यूटोरियल के बगल में अपना लिंक जोड़ा गया। – Donut

+0

बहुत बहुत धन्यवाद! क्या मुझे हेडर में कहीं robots.txt शामिल करना चाहिए? या यह सिर्फ वेबसाइट की जड़ में छोड़ने के लिए पर्याप्त है? –

5

आप कुछ निर्देशिकाओं को अनदेखा करने के लिए खोज इंजन को आजमाने और बताने के लिए robots.txt फ़ाइल सेट अप कर सकते हैं।

See here for more info.

मूल रूप से

:

User-agent: * 
Disallow: /[directory or file here] 
25

इसके अलावा, आप उस पृष्ठ

<meta name="robots" content="noindex,nofollow" /> 
+0

अच्छा विचार। यह अतिरिक्त रूप से किया था। –

+6

robots.txt का उपयोग करने से यह एक बेहतर समाधान है। कारण यह है कि, यदि आप पृष्ठ को robots.txt करते हैं, तो खोज इंजन पृष्ठ पर भी नहीं जाएंगे। यदि पृष्ठ पर इंगित लिंक हैं, तो वे इसे इंडेक्स से नहीं हटाएंगे क्योंकि आपने उन्हें नहीं बताया है। Google विवरण के बिना पृष्ठ दिखाएगा, क्योंकि वे पृष्ठ के बारे में जानते हैं लेकिन पृष्ठ पर क्या नहीं जानते हैं। इंडेक्स से स्पष्ट रूप से इसे हटाने का एकमात्र तरीका उन इंजनों को बताना है जिन्हें आप नहीं चाहते हैं कि यह 'नोंडेक्स' कमांड के साथ प्रदर्शित हो। – eywu

+1

यह समस्या का एक सा है (कोडिंग के लिए बहुत अधिक समय) यदि सिर को गतिशील रूप से सर्वर-साइड भाषा जैसे PHP के रूप में शामिल किया गया है, जो सभी पृष्ठों के लिए समान होगा। –

0

एक robots.txt फ़ाइल बनाएँ और वहाँ नियंत्रण स्थापित की प्रमुख में मेटा टैग निम्नलिखित जोड़ सकते हैं।

यहाँ गूगल डॉक्स के लिए कर रहे हैं: अपने <html> में

<meta name="robots" content="noindex, follow"> 
3

आजकल, सबसे अच्छा तरीका noindex,follow करने के लिए एक robots meta tag उपयोग करें और यह स्थापित करने के लिए है <head> टैग। मैं आपको यह क्यों कह रहा हूं क्योंकि यदि आप अपने यूआरएल को छिपाने के लिए robots.txt फ़ाइल का उपयोग करते हैं जो लॉगिन पेज या अन्य संरक्षित यूआरएल हो सकता है जो आप किसी और या सर्च इंजन को नहीं दिखाएंगे।

मैं क्या कर सकता हूं सिर्फ अपनी वेबसाइट से robots.txt फ़ाइल तक पहुंच रहा है और देख सकता है कि आपके पास कौन से यूआरएल गुप्त हैं। तो इस robots.txt फ़ाइल के पीछे तर्क क्या है?

अच्छा तरीका ऊपर से मेटा टैग शामिल करना और किसी से भी सुरक्षित रखना है।

0

एक रोबोट एक वेब साइट यूआरएल देखना चाहता है, http://www.example.com/welcome.html कहें। इससे पहले कि यह ऐसा नहीं करता है, यह http://www.example.com/robots.txt के लिए चेक बातें पहली बार, और पाता है: आप स्पष्ट रूप से अस्वीकार कर सकते हैं:

User-agent: * 
Disallow: /~joe/junk.html 

कृपया विवरण robots.txt

संबंधित मुद्दे

 संबंधित मुद्दे