Robots.txt: केवल प्रमुख एसई

को robots.txt को कॉन्फ़िगर करने का कोई तरीका है ताकि साइट केवल Google, याहू से विज़िट स्वीकार करे! और एमएसएन मकड़ियों?Robots.txt: केवल प्रमुख एसई

स्रोत

2009-03-22 Anonymous

robots.txt के पास "साइट स्वीकार" के साथ कुछ लेना देना नहीं है। यह नियमों की एक पोस्ट सूची है जो अच्छी तरह से व्यवहार करने वाले एजेंटों का पालन करने की उम्मीद है। नियमों को तोड़ने के लिए आप केवल सहारा ही आईपी या उपयोगकर्ता-एजेंट द्वारा प्रतिबंधित करने के लिए एक अलग तंत्र का उपयोग करना है। – Eclipse

मैं आपसे सहमत हूं: मैं अपनी काफी खराब अंग्रेजी के लिए बेहतर अवधारणा व्यक्त नहीं कर सका। –

चूंकि मकड़ी आपके सर्वर में अधिक गतिविधि को उत्तेजित करती है, इसलिए मुझे केवल प्रमुख एसई (मुख्य रूप से Google) से पहुंचने की अनुमति देने में दिलचस्पी है जो मेरी वेबसाइट पर विज़िट लाती है। कारण यह है कि मैं एक अमेज़ॅन ईसी 2 वीपीएस शुरू करने जा रहा हूं और यातायात और सीपीयू उपयोग के लिए भुगतान नहीं करना चाहता हूं कि उन सभी मकड़ियों का कारण बन सकता है। शायद यह महत्वपूर्ण नहीं है, लेकिन विचार मेरे लिए काफी उचित लगता है। –

 
User-agent: * 
Disallow:/
User-agent: Googlebot 
Allow:/
User-agent: Slurp 
Allow:/
User-Agent: msnbot 
Disallow:

Slurp हर किसी को जानते हैं, robots.txt एक मानक क्रॉलर द्वारा आज्ञा का पालन किया जा रहा है और इसलिए केवल अच्छी तरह से व्यवहार एजेंटों ऐसा करने के लिए याहू के रोबोट

स्रोत

2009-03-22 19:38:08 NoahD

Google, MSN, और याहू में अन्य मकड़ियों हैं जिन्हें आप 'अनुमति' भी दे सकते हैं (उदाहरण के लिए msnbot-media, bingbot)। साथ ही, बिंगबॉट माइक्रोसॉफ्ट स्पाइडर है जो मैं संचालित साइटों के लिए लॉग में सबसे ज्यादा देखता हूं। –

फेसबुक बॉट के बारे में क्या? – sphinx

क्यों?

कोई भी बुरा कर रहा है (उदाहरण के लिए, स्पैम पर ईमेल पते एकत्र करना) robots.txt को अनदेखा कर देगा। तो आप केवल वैध खोज इंजन को अवरुद्ध करने जा रहे हैं, क्योंकि robots.txt अनुपालन स्वैच्छिक है।

लेकिन - अगर आप इसे करने पर जोर देते हैं - तो यही है कि robots.txt में User-Agent: लाइन है।

User-agent: googlebot 
Disallow: 

User-agent: * 
Disallow:/

सभी अन्य खोज इंजन आप निश्चित रूप से, से यातायात चाहते हैं उसके लिए लाइनों के साथ

। Robotstxt.org में आंशिक सूची है।

स्रोत

2009-03-22 19:35:01 derobert

"मैं केवल अपनी साइट को स्क्रैप करने वाले बड़े खिलाड़ियों के साथ ठीक हूं" छोटे, आने वाले खिलाड़ियों के लिए अच्छा नहीं है। काश मैं तुम्हारा "क्यों?" ऊपर उठा सकता है एक हजार गुना अधिक मेरा मतलब है, अगर आप वर्तमान स्थिति के साथ ठीक हैं, यानी हर कोई Google की गोद में है, तो हर तरह से, आगे बढ़ें और अन्य सभी क्रॉलर को बाहर कर दें। – Marcus

मुझे असहमत होना है, बात यह है कि, कई आने वाले खिलाड़ी हैं और यह बैंडविड्थ पर बहुत अधिक दबाव डालता है, खासकर यदि आपके पास रोज़ाना हजारों नए लिंक के साथ बड़ी वेबसाइट है ... तो आप उनसे छुटकारा पा सकते हैं जो 1% इंटरनेट खोजों को मुश्किल से बनाते हैं और – jjj

@jjj के बजाय बड़े 3 के साथ जाते हैं, यदि कुछ विशेष बॉट आक्रामक रूप से आपकी साइट को स्क्रैप कर रहा है, तो आप उन्हें रोकने के लिए robots.txt का उपयोग कर सकते हैं। और निश्चित रूप से यदि यह सिर्फ एक साइट है, लेकिन Google को हर किसी को अवरुद्ध कर रहा है, तो कोई भी परवाह नहीं करेगा। लेकिन यदि साइटों के एक उल्लेखनीय हिस्से ने आपकी सलाह का पालन किया है, तो robots.txt Google के एकाधिकार में लॉक करने के लिए मानक बन जाएगा, और हर दूसरे बॉट या तो इसे अनदेखा कर देगा या वैकल्पिक रूप से Googlebot होने का नाटक करेगा। – derobert

है। तो, इसे डालना या इससे कोई फर्क नहीं पड़ता।

यदि आपके पास कुछ डेटा है, तो आप साइट पर भी नहीं दिखते हैं, तो आप केवल अनुमति को बदल सकते हैं और सुरक्षा में सुधार कर सकते हैं।

स्रोत

2012-10-23 19:07:18 mtk

Robots.txt: केवल प्रमुख एसई

उत्तर

संबंधित मुद्दे