2009-03-22 11 views
18

को robots.txt को कॉन्फ़िगर करने का कोई तरीका है ताकि साइट केवल Google, याहू से विज़िट स्वीकार करे! और एमएसएन मकड़ियों?Robots.txt: केवल प्रमुख एसई

+1

robots.txt के पास "साइट स्वीकार" के साथ कुछ लेना देना नहीं है। यह नियमों की एक पोस्ट सूची है जो अच्छी तरह से व्यवहार करने वाले एजेंटों का पालन करने की उम्मीद है। नियमों को तोड़ने के लिए आप केवल सहारा ही आईपी या उपयोगकर्ता-एजेंट द्वारा प्रतिबंधित करने के लिए एक अलग तंत्र का उपयोग करना है। – Eclipse

+0

मैं आपसे सहमत हूं: मैं अपनी काफी खराब अंग्रेजी के लिए बेहतर अवधारणा व्यक्त नहीं कर सका। –

+2

चूंकि मकड़ी आपके सर्वर में अधिक गतिविधि को उत्तेजित करती है, इसलिए मुझे केवल प्रमुख एसई (मुख्य रूप से Google) से पहुंचने की अनुमति देने में दिलचस्पी है जो मेरी वेबसाइट पर विज़िट लाती है। कारण यह है कि मैं एक अमेज़ॅन ईसी 2 वीपीएस शुरू करने जा रहा हूं और यातायात और सीपीयू उपयोग के लिए भुगतान नहीं करना चाहता हूं कि उन सभी मकड़ियों का कारण बन सकता है। शायद यह महत्वपूर्ण नहीं है, लेकिन विचार मेरे लिए काफी उचित लगता है। –

उत्तर

28

 
User-agent: * 
Disallow:/
User-agent: Googlebot 
Allow:/
User-agent: Slurp 
Allow:/
User-Agent: msnbot 
Disallow: 

Slurp हर किसी को जानते हैं, robots.txt एक मानक क्रॉलर द्वारा आज्ञा का पालन किया जा रहा है और इसलिए केवल अच्छी तरह से व्यवहार एजेंटों ऐसा करने के लिए याहू के रोबोट

+1

Google, MSN, और याहू में अन्य मकड़ियों हैं जिन्हें आप 'अनुमति' भी दे सकते हैं (उदाहरण के लिए msnbot-media, bingbot)। साथ ही, बिंगबॉट माइक्रोसॉफ्ट स्पाइडर है जो मैं संचालित साइटों के लिए लॉग में सबसे ज्यादा देखता हूं। –

+0

फेसबुक बॉट के बारे में क्या? – sphinx

16

क्यों?

कोई भी बुरा कर रहा है (उदाहरण के लिए, स्पैम पर ईमेल पते एकत्र करना) robots.txt को अनदेखा कर देगा। तो आप केवल वैध खोज इंजन को अवरुद्ध करने जा रहे हैं, क्योंकि robots.txt अनुपालन स्वैच्छिक है।

लेकिन - अगर आप इसे करने पर जोर देते हैं - तो यही है कि robots.txt में User-Agent: लाइन है।

User-agent: googlebot 
Disallow: 

User-agent: * 
Disallow:/
सभी अन्य खोज इंजन आप निश्चित रूप से, से यातायात चाहते हैं उसके लिए लाइनों के साथ

Robotstxt.org में आंशिक सूची है।

+1

"मैं केवल अपनी साइट को स्क्रैप करने वाले बड़े खिलाड़ियों के साथ ठीक हूं" छोटे, आने वाले खिलाड़ियों के लिए अच्छा नहीं है। काश मैं तुम्हारा "क्यों?" ऊपर उठा सकता है एक हजार गुना अधिक मेरा मतलब है, अगर आप वर्तमान स्थिति के साथ ठीक हैं, यानी हर कोई Google की गोद में है, तो हर तरह से, आगे बढ़ें और अन्य सभी क्रॉलर को बाहर कर दें। – Marcus

+1

मुझे असहमत होना है, बात यह है कि, कई आने वाले खिलाड़ी हैं और यह बैंडविड्थ पर बहुत अधिक दबाव डालता है, खासकर यदि आपके पास रोज़ाना हजारों नए लिंक के साथ बड़ी वेबसाइट है ... तो आप उनसे छुटकारा पा सकते हैं जो 1% इंटरनेट खोजों को मुश्किल से बनाते हैं और – jjj

+0

@jjj के बजाय बड़े 3 के साथ जाते हैं, यदि कुछ विशेष बॉट आक्रामक रूप से आपकी साइट को स्क्रैप कर रहा है, तो आप उन्हें रोकने के लिए robots.txt का उपयोग कर सकते हैं। और निश्चित रूप से यदि यह सिर्फ एक साइट है, लेकिन Google को हर किसी को अवरुद्ध कर रहा है, तो कोई भी परवाह नहीं करेगा। लेकिन यदि साइटों के एक उल्लेखनीय हिस्से ने आपकी सलाह का पालन किया है, तो robots.txt Google के एकाधिकार में लॉक करने के लिए मानक बन जाएगा, और हर दूसरे बॉट या तो इसे अनदेखा कर देगा या वैकल्पिक रूप से Googlebot होने का नाटक करेगा। – derobert

0

है। तो, इसे डालना या इससे कोई फर्क नहीं पड़ता।

यदि आपके पास कुछ डेटा है, तो आप साइट पर भी नहीं दिखते हैं, तो आप केवल अनुमति को बदल सकते हैं और सुरक्षा में सुधार कर सकते हैं।

संबंधित मुद्दे