को robots.txt को कॉन्फ़िगर करने का कोई तरीका है ताकि साइट केवल Google, याहू से विज़िट स्वीकार करे! और एमएसएन मकड़ियों?Robots.txt: केवल प्रमुख एसई
उत्तर
User-agent: * Disallow:/ User-agent: Googlebot Allow:/ User-agent: Slurp Allow:/ User-Agent: msnbot Disallow:
Slurp हर किसी को जानते हैं, robots.txt एक मानक क्रॉलर द्वारा आज्ञा का पालन किया जा रहा है और इसलिए केवल अच्छी तरह से व्यवहार एजेंटों ऐसा करने के लिए याहू के रोबोट
Google, MSN, और याहू में अन्य मकड़ियों हैं जिन्हें आप 'अनुमति' भी दे सकते हैं (उदाहरण के लिए msnbot-media, bingbot)। साथ ही, बिंगबॉट माइक्रोसॉफ्ट स्पाइडर है जो मैं संचालित साइटों के लिए लॉग में सबसे ज्यादा देखता हूं। –
फेसबुक बॉट के बारे में क्या? – sphinx
क्यों?
कोई भी बुरा कर रहा है (उदाहरण के लिए, स्पैम पर ईमेल पते एकत्र करना) robots.txt को अनदेखा कर देगा। तो आप केवल वैध खोज इंजन को अवरुद्ध करने जा रहे हैं, क्योंकि robots.txt अनुपालन स्वैच्छिक है।
लेकिन - अगर आप इसे करने पर जोर देते हैं - तो यही है कि robots.txt में User-Agent:
लाइन है।
User-agent: googlebot
Disallow:
User-agent: *
Disallow:/
सभी अन्य खोज इंजन आप निश्चित रूप से, से यातायात चाहते हैं उसके लिए लाइनों के साथ
। Robotstxt.org में आंशिक सूची है।
"मैं केवल अपनी साइट को स्क्रैप करने वाले बड़े खिलाड़ियों के साथ ठीक हूं" छोटे, आने वाले खिलाड़ियों के लिए अच्छा नहीं है। काश मैं तुम्हारा "क्यों?" ऊपर उठा सकता है एक हजार गुना अधिक मेरा मतलब है, अगर आप वर्तमान स्थिति के साथ ठीक हैं, यानी हर कोई Google की गोद में है, तो हर तरह से, आगे बढ़ें और अन्य सभी क्रॉलर को बाहर कर दें। – Marcus
मुझे असहमत होना है, बात यह है कि, कई आने वाले खिलाड़ी हैं और यह बैंडविड्थ पर बहुत अधिक दबाव डालता है, खासकर यदि आपके पास रोज़ाना हजारों नए लिंक के साथ बड़ी वेबसाइट है ... तो आप उनसे छुटकारा पा सकते हैं जो 1% इंटरनेट खोजों को मुश्किल से बनाते हैं और – jjj
@jjj के बजाय बड़े 3 के साथ जाते हैं, यदि कुछ विशेष बॉट आक्रामक रूप से आपकी साइट को स्क्रैप कर रहा है, तो आप उन्हें रोकने के लिए robots.txt का उपयोग कर सकते हैं। और निश्चित रूप से यदि यह सिर्फ एक साइट है, लेकिन Google को हर किसी को अवरुद्ध कर रहा है, तो कोई भी परवाह नहीं करेगा। लेकिन यदि साइटों के एक उल्लेखनीय हिस्से ने आपकी सलाह का पालन किया है, तो robots.txt Google के एकाधिकार में लॉक करने के लिए मानक बन जाएगा, और हर दूसरे बॉट या तो इसे अनदेखा कर देगा या वैकल्पिक रूप से Googlebot होने का नाटक करेगा। – derobert
है। तो, इसे डालना या इससे कोई फर्क नहीं पड़ता।
यदि आपके पास कुछ डेटा है, तो आप साइट पर भी नहीं दिखते हैं, तो आप केवल अनुमति को बदल सकते हैं और सुरक्षा में सुधार कर सकते हैं।
- 1. robots.txt
- 2. CouchDB - पहली प्रमुख तत्व केवल
- 3. Robots.txt
- 4. robots.txt
- 5. robots.txt
- 6. जावा एसई
- 7. Robots.txt वाक्यविन्यास
- 8. Googlebot Robots.txt
- 9. मैं robots.txt
- 10. केवल Google सीएसई को अनुमति दें और ROBOTS.txt
- 11. जावा (जे 2 एसई)
- 12. जावा जेडीके, एसडीके, एसई?
- 13. जीडब्ल्यूटी एसई दोस्ताना आवेदन
- 14. जे 2 एसई
- 15. किसी robots.txt पार्स और
- 16. मेटा टैग बनाम robots.txt
- 17. बिंगबॉट और BaiduSpider robots.txt
- 18. robots.txt पार्सर जावा
- 19. ग्लोब और केवल मैच लौट (कोई प्रमुख पथ)
- 20. ऑब्जेक्ट में केवल एक प्रमुख जोड़ी का सार्वजनिक आधा है
- 21. जावा एसई और जावा ईई
- 22. robots.txt और .htaccess वाक्यविन्यास हाइलाइट
- 23. एएसपी.नेट एमवीसी 3 में robots.txt
- 24. सब कैसे गतिशील यूआरएल robots.txt
- 25. पंक्ति-प्रमुख को कॉलम-प्रमुख आयामों पर स्विच करना
- 26. एसवीएन मार्क प्रमुख संस्करण
- 27. प्रमुख 0 के अजगर
- 28. प्रमुख और एक स्ट्रिंग
- 29. unique_ptr - प्रमुख सुधार?
- 30. पंक्ति-प्रमुख आदेश सूचकांक
robots.txt के पास "साइट स्वीकार" के साथ कुछ लेना देना नहीं है। यह नियमों की एक पोस्ट सूची है जो अच्छी तरह से व्यवहार करने वाले एजेंटों का पालन करने की उम्मीद है। नियमों को तोड़ने के लिए आप केवल सहारा ही आईपी या उपयोगकर्ता-एजेंट द्वारा प्रतिबंधित करने के लिए एक अलग तंत्र का उपयोग करना है। – Eclipse
मैं आपसे सहमत हूं: मैं अपनी काफी खराब अंग्रेजी के लिए बेहतर अवधारणा व्यक्त नहीं कर सका। –
चूंकि मकड़ी आपके सर्वर में अधिक गतिविधि को उत्तेजित करती है, इसलिए मुझे केवल प्रमुख एसई (मुख्य रूप से Google) से पहुंचने की अनुमति देने में दिलचस्पी है जो मेरी वेबसाइट पर विज़िट लाती है। कारण यह है कि मैं एक अमेज़ॅन ईसी 2 वीपीएस शुरू करने जा रहा हूं और यातायात और सीपीयू उपयोग के लिए भुगतान नहीं करना चाहता हूं कि उन सभी मकड़ियों का कारण बन सकता है। शायद यह महत्वपूर्ण नहीं है, लेकिन विचार मेरे लिए काफी उचित लगता है। –