2009-06-16 14 views
29

की नैतिकता मेरे पास एक गंभीर सवाल है। क्या वेबसाइट पर robots.txt फ़ाइल की उपस्थिति को अनदेखा करना कभी नैतिक है? ये कुछ विचार हैं जो मुझे दिमाग में मिला है:robots.txt

  1. यदि कोई वेबसाइट बनाता है तो वे कुछ यात्राओं की उम्मीद कर रहे हैं। अनुमोदित, वेब क्रॉलर साइट पर समर्थन देने वाले विज्ञापनों पर क्लिक किए बिना बैंडविड्थ का उपयोग कर रहे हैं लेकिन साइट स्वामी वेब पर अपनी साइट डाल रहा है, ठीक है, तो उनके लिए यह उम्मीद करना कितना उचित है कि उन्हें कभी भी बॉट द्वारा नहीं देखा जाएगा?

  2. कुछ साइटें स्पष्ट रूप से Google या किसी अन्य उपयोगिता द्वारा क्रॉल होने से रोकने के लिए robots.txt का उपयोग करती हैं जो कीमतें पकड़ सकती है और इसलिए लोगों को मूल्य तुलना आसानी से करने की अनुमति देती है। उनके पास साइट पर निजी खोज इंजन हैं ताकि वे स्पष्ट रूप से लोगों को साइट खोज सकें; स्पष्ट रूप से वे नहीं चाहते हैं कि लोग आसानी से अन्य विक्रेताओं के साथ अपनी जानकारी की तुलना कर सकें।

जैसा कि मैंने कहा, मैं तर्कवादी होने की कोशिश नहीं कर रहा हूं; मैं सिर्फ यह जानना चाहूंगा कि क्या कोई कभी ऐसे मामले के साथ आया है जहां robots.txt फ़ाइल की उपस्थिति को अनदेखा करने के लिए नैतिक रूप से अनुमत है? मैं ऐसे मामले के बारे में नहीं सोच सकता जहां robots.txt को अनदेखा करना अनुमत है क्योंकि मुख्य रूप से लोग (या व्यवसाय) अपनी वेबसाइटें रखने के लिए पैसे दे रहे हैं ताकि वे दुनिया के गुगल/याहू/अन्य एसई को बताने में सक्षम हो सकें कि वे अपने सूचकांक पर नहीं होना चाहते हैं।

इस चर्चा को संदर्भ में रखने के लिए, मैं एक मूल्य तुलना वेबसाइट बनाना चाहता हूं और प्रमुख विक्रेताओं में से एक robots.txt है जो मूल रूप से किसी को अपनी कीमतों को पकड़ने से रोकता है। मैं उनकी जानकारी प्राप्त करने में सक्षम होना चाहता हूं, लेकिन जैसा कि मैंने कहा था, मैं बस साइट के मालिक की इच्छाओं को अनदेखा करने का औचित्य सिद्ध नहीं कर सकता।

मैं यहाँ कुछ बहुत तेज चर्चा देखा है और यही कारण है मैं डेवलपर्स कि स्टैक ओवरफ़्लो पालन की राय सुनना पसंद करेंगे है।

वैसे, वहाँ एक Hacker News question पर इस विषय के कुछ चर्चा है, लेकिन वे मुख्य रूप से इस के कानूनी पहलुओं पर ध्यान केंद्रित करने लगते हैं।

+0

@ एंड्रेई: यह था क्योंकि मैंने इसे वोट दिया था। यह _not_ मेरे लिए एक वैध प्रश्न प्रतीत नहीं होता है, जब तक कि आप "बुरा व्यवहार करने वाले प्रश्न या बदतर" को मान्य मानते हैं। –

+4

@ जॉन सॉंडर्स - मैं वास्तव में ऐसे मामले की कल्पना नहीं कर सकता जहां robots.txt को अनदेखा करना ठीक रहेगा। हालांकि, मुझे एहसास है कि ऐसी स्थितियां हो सकती हैं जिन्हें मैंने नहीं माना है। मैं वास्तव में खुले दिमाग रखने की कोशिश कर रहा हूं। –

+0

@ ओनोरीओ: अगर ऐसा है, तो चलिए अच्छे कारण सुनें। अनुपस्थित एक अच्छा कारण है, मुझे लगता है कि कोई नहीं है। –

उत्तर

41

तर्क:

  1. robots.txt फ़ाइल एक गर्भित लाइसेंस है, खासकर जब से तुम इसके बारे में पता कर रहे हैं। इस प्रकार, उनकी साइट को स्क्रैप करना जारी रखना अनधिकृत पहुंच (यानी हैकिंग) के रूप में देखा जा सकता है। बेकार है, लेकिन इस तरह तर्क हाल ही में अन्य कानूनी मामलों में किए गए हैं (नहीं सीधे robots.txt से संबंधित है, लेकिन अन्य "निष्क्रिय नियंत्रण" के संबंध में।) के बाद से कॉपीराइट करता
  2. बना रहे कीमतें, डीएमसीए सहित कोई भी कॉपीराइट कानून का उल्लंघन करती है तथ्यात्मक जानकारी, केवल रचनात्मक शामिल नहीं है।
  3. नैतिक रूप से, आपको कीमतें नहीं लेनी चाहिए क्योंकि विक्रेता को आपकी साइट से आने वाले लोगों द्वारा चारा/स्विच के आरोप में चिंता किए बिना कीमतों को बदलने की क्षमता होनी चाहिए।
  4. क्या आपने साइट को समझाते हुए उच्च सड़क ली है और कहा है कि आप उन्हें विक्रेताओं की सूची में शामिल करना पसंद करेंगे? हो सकता है कि वे इस विचार को पसंद करेंगे और वास्तव में डेटा को उस तरीके से बेनकाब करेंगे जो आपके लिए उपभोग करने के लिए आसान है और उनके लिए कम संसाधन-गहन है।
  5. robots.txt के बारे में सीधे कोई कानून नहीं लिखा गया है क्योंकि नेटिकेट आमतौर पर पालन किया जाता है। "बुरे लोगों" में से एक मत बनो।
  6. कुछ लोग रोबोट फ़िल्टर करते हैं क्योंकि वे कारों में चीजों को जोड़ने जैसे "क्रियाएं" करने के लिए यूआरएल लिंक का उपयोग करते हैं, और रोबोट उन्हें अपने डेटाबेस में बड़ी संख्या में छोड़े गए शॉपिंग कार्ट के साथ छोड़ देते हैं।
  7. कुछ लोग रोबोट फ़िल्टर करते हैं क्योंकि उनके पास विशेष कीमतें होती हैं कि वे अपने विक्रेताओं के साथ अनुबंधों के आधार पर खुलेआम विज्ञापन नहीं दे सकते हैं। आप अपनी साइट पर उन कीमतों को उजागर करके उन्हें खराब स्थिति में डाल सकते हैं।
  8. इस अर्थव्यवस्था में, यदि कोई कंपनी खुद को विज्ञापित करने के लिए हर संभव प्रयास नहीं करना चाहती है, तो यह उनकी अपनी गलती है कि आप उन्हें शामिल नहीं करते हैं।
+1

मैं विशेष रूप से बिंदु 4 और 8 पर विचार करूंगा। किस तरह की कंपनी जो भी पेशकश करती है उसे फैलाना नहीं चाहती? – Marcel

+0

# 2: कई स्थानों पर डेटाबेस अधिकार कहा जाता है। मैं अपने यूरोपीय देश में वेब स्क्रैपिंग के लिए कम से कम एक सजा को याद कर सकता हूं। – Marin

2

"नहीं" का अर्थ है "नहीं"।

+0

और सेवा की शर्तों के अंदर लिखी गई सब कुछ पूरी तरह से सच है? –

+0

शायद हाँ, शायद नहीं, लेकिन मान लें कि यह सच है, और पूछें। अन्यथा, आप मान रहे हैं कि आपको झूठ बोला जा रहा है। मैं, व्यक्तिगत रूप से, नाराज होगा कि आपको लगता है कि मैं झूठ बोल रहा था। दूसरों को, नाराज होने की बजाय, उनके वकीलों को बुलाया जाएगा। मेरा सुझाव: अच्छा रहो। –

25

robots.txt के अन्य उपयोग के लिए खुद से वेब मकड़ियों की सुरक्षा के लिए है। एक वेब मकड़ी के लिंक के असीमित गहरे जंगल में फेंकना अपेक्षाकृत आसान है, और एक अच्छी तरह से निर्मित robots.txt फ़ाइल मकड़ी को बताएगी कि "आपको यहां जाने की आवश्यकता नहीं है"।

+4

यह एक अच्छा मुद्दा है। उदाहरण के लिए, ब्लॉगर क्रॉलर को लेबल खोजों को अनदेखा करने के लिए कहता है क्योंकि उन सभी को पहले ही मिलना चाहिए था। – cletus

+7

तो स्टैक ओवरफ्लो करता है: http://stackoverflow.com/robots.txt –

+0

धन्यवाद ग्रेग। मुझे robots.txt को अनदेखा करने की कोई योजना नहीं है - मैं सिर्फ यह जानना चाहता था कि क्या ऐसी अन्य चीजें हो सकती हैं जिन्हें मैंने नहीं माना था। –

-4

लोगों को यह सार्वजनिक उपयोग के लिए उपलब्ध कराते हैं तो वे उस पर सीमा डाल करने के लिए कोशिश नहीं करनी चाहिए। अपनी साइट पर robots.txt फ़ाइल जोड़ना आपके लॉन पर एक संकेत डालने के बराबर है जो कहता है "कृपया मुझे न देखें।"

+3

आपका समानता अपूर्ण है। एक लॉन अंतरिक्ष में एक विशिष्ट सीमा है। यह जानना संभव है कि आपने कब लॉन देखा है। ऐसा नहीं है कि एक वेबसाइट के साथ। तथ्य यह है कि आपका सादृश्य बहुत दूर है, बस "भौतिक सीमा" के संदर्भ में मुझे पता चलता है कि आप इस प्रश्न के लिए अपने पूरे दृष्टिकोण पर फिर से विचार करना चाहेंगे। –

+0

कुछ छिपाने का प्रयास करने के लिए robots.txt का उपयोग करके मेरी राय में आपके घर के बाहर एक संकेत डालने जैसा है, "मास्टर बेडरूम के कोठरी में सुरक्षित खोलने के लिए संयोजन 22-18-76 का उपयोग न करें" – UnkwnTech

+1

यह एक फर्जी है तुलना। किसी के लॉन को देखकर उनके संसाधनों का उपयोग नहीं होता है। अपनी वेबसाइट ब्राउज़ करना या क्रॉल करना, इसलिए सीमाओं को लागू करना पूरी तरह से उचित है। –

1

संकीर्ण प्रश्न का उत्तर देने के लिए, मूल्य तुलना वेबसाइट के लिए आप शायद वास्तविक समय में कीमत को सर्वोत्तम रूप से पकड़ रहे हैं, बल्कि डेटाबेस को पहले से ही स्क्रैप कर रहे हैं। कल्पना करना मुश्किल है कि एक समस्या है।

1

एक कारण हम बिना किसी शिकायत के वेब पर रोबोट को खोदने की अनुमति देते हैं, यह है कि अगर हम चाहते हैं तो हमारे पास उन्हें रोकने का एक तरीका है। दोनों तरफ की रक्षा करता है।

जब कुइल के रोबोटों को शीर्ष पर जाने का आरोप लगाया गया था, तो जाहिर है कि कुछ मामलों में डीओएस हमले की तरह अभिनय किया जा रहा है और कुछ छोटी साइटों के बैंडविड्थ भत्ते का उपयोग कर अपमानित है?

यदि बहुत से लोग robots.txt का उल्लंघन करते हैं तो हमें कुछ और खराब हो सकता है।

+3

वास्तव में, यह है कि robots.txt को अनदेखा करने से हमें नेतृत्व होगा: http://www.theonion.com/content/video/in_the_know_are_we_giving_the –

-2

मैं यहां कुछ अज्ञान दिखा रहा हूं, लेकिन मैंने हमेशा सोचा कि एक बॉट केवल एक खोज इंजन द्वारा भेजा गया था। Google या याहू की तरह।

इस प्रकार, यदि आपने इंटरनेट पर सामग्री की खोज करने वाले एक एप्लिकेशन को लिखा है, तो मुझे नहीं लगता कि एक खोज इंजन बॉट, जो मेरे ज्ञान के लिए है robots.txt ब्लॉक करने की कोशिश कर रहा है।

लेकिन यह सिर्फ चयनात्मक अज्ञान हो सकता है, क्योंकि मैं यह है कि साइट के वेबमास्टर जब तक कर सकते हैं मुझे से संपर्क किया और मुझसे पूछा रोकने के लिए :)

+4

इसे robots.txt कहा जाता है, खोज-इंजन.txt नहीं। यह सभी स्वचालित वेब क्रॉलरों के पालन के लिए है - कुछ भी मानव द्वारा संचालित नहीं किया जाता है। इसके अलावा, यह एक मजाकिया अवस्था है जो इंटरनेट पर सामग्री खोजने वाला कुछ सोचता है, वह एक खोज इंजन नहीं है। –

+0

जैसा मैंने कहा, "चुनिंदा अज्ञानता"। लेकिन हाँ, मैं आप जो कह रहा हूं उससे सहमत हूं। – MattK311

+2

एक बॉट किसी भी स्वचालित स्क्रैपर होगा जो किसी वेबसाइट के खिलाफ जाता है और जानकारी प्राप्त करता है। आईएमएचओ, इससे कोई फर्क नहीं पड़ता कि सॉफ्टवेयर किसी व्यक्ति या कंपनी द्वारा लिखा गया है या नहीं। –

0

लघु जवाब: नहीं

संकीर्ण मुद्दे पर: अगर कोई विक्रेता कहता है कि उनकी कीमतें गुप्त हैं, तो मुझे लगता है कि आपको इसका सम्मान करना होगा। मैं उनसे संपर्क करूँगा और पूछूंगा कि क्या वे वास्तव में आपके जैसे मूल्य तुलना इंजन नहीं चाहते हैं, या यदि तकनीकी कारणों से "कोई उल्लंघन नहीं" संकेत है। यदि उत्तरार्द्ध, शायद वे आपको एक विकल्प प्रदान करेंगे। यदि पूर्व, तो मैं बहुत बुरा कहूंगा, वे शामिल नहीं होते हैं, वे कुछ व्यवसाय खो देते हैं, और यह उनकी समस्या है।

टेंगेंशियल रेंट: व्यक्तिगत रूप से, मुझे उन कंपनियों के साथ बहुत नाराज हो जाता है जो मुझे अपने उत्पादों की कीमत जानने के लिए हुप्स के माध्यम से कूदते हैं, जो मुझे फोन करते हैं और विक्रेता से बात करते हैं ताकि वह मुझे एक हार्ड-पिच पिच दे सके , या बदतर, मुझे उन्हें अपना फोन नंबर दें ताकि उनके विक्रेता मुझे फोन कर सकें और परेशान कर सकें। मुझे लगता है कि अगर वे मुझे कीमत बताने से डरते हैं, तो शायद इसका मतलब है कि यह बहुत अधिक है।

सामान्य रूप से: एक robots.txt फ़ाइल "नो ट्रास्सेसिंग" चिह्न की तरह है।यह मालिक का अधिकार है कि उनकी संपत्ति पर किसके लिए अनुमति है। अगर आपको लगता है कि उनके कारण गूंगा हैं, तो आप विनम्रतापूर्वक सुझाव दे सकते हैं कि वे साइन डाउन लें। लेकिन आपको उनकी इच्छाओं को नजरअंदाज करने का अधिकार नहीं है। अगर कोई अपने यार्ड पर कोई उल्लंघन नहीं करता है, और मैं कहता हूं, "अरे, मैं बस एक त्वरित शॉर्ट कट लेना चाहता हूं, बड़ा सौदा क्या है?" - शायद मैं अपने मूल्यवान बल्गेरियाई बैंगनी बल्बों पर कदम उठा रहा हूं और एक मूल्यवान निवेश को नष्ट कर रहा हूं। हो सकता है कि मैं अपने लोगों के पवित्र दफन के मैदान को पार कर रहा हूं और अपनी धार्मिक संवेदनशीलताओं को अपमानित कर रहा हूं। या शायद वह सिर्फ एक अलमारी झटका है। लेकिन यह अभी भी उसकी संपत्ति और उसका अधिकार है। ओह, और यदि मैं नो ट्रास्सेसिंग साइन को अनदेखा करने के बाद खतरनाक सिंकहोल में पड़ता हूं, तो कौन दोषी होगा? (अमेरिका में, मैं अभी भी उसे इस तथ्य के बावजूद उसके लिए मुकदमा कर सकता हूं कि उसने मुझे चेतावनी दी है, लेकिन क्या यह सही है?)

3

कई लोगों ने "मूल्य तुलना" इंजन बनाने से व्यवसाय बनाने की कोशिश की है जो प्रमुख साइटों को स्क्रैप करते हैं ।

एक बार जब आप किसी भी तरह के यातायात/राजस्व के बारे में बात करना शुरू कर देते हैं, तो आप cease and desist प्राप्त करेंगे। सैकड़ों परियोजनाओं पर नहीं, यह दर्जनों के साथ हुआ है। मैंने एक छोटी परियोजना पर भी काम किया जिसने क्रेगलिस्ट से सी & डी प्राप्त किया।

आप जानते हैं कि वे कैसे कहते हैं "अनुमति प्राप्त करना क्षमा करना आसान है"? यह पृष्ठ स्क्रैपिंग के साथ सच नहीं है। अनुमति प्राप्त करें, या आप उनके वकीलों से सुनवाई करेंगे।

यदि आप भाग्यशाली हैं, तो यह जल्द ही होगा, जब आपके पास खोने के लिए कुछ भी नहीं है। यदि देर हो चुकी है, तो आप एक ही पत्र के साथ रात भर अपना व्यवसाय और अपना पूरा काम खो सकते हैं।

अनुमति प्राप्त करना कठिन नहीं होना चाहिए। जब तक आप कुछ चुस्त नहीं कर रहे हैं, तो आप उन्हें अतिरिक्त ट्रैफ़िक ड्राइव करने जा रहे हैं। नरक, एक बार आपका उत्पाद बंद हो जाने पर, साइटें आपको भीख मांग सकती हैं, या यहां तक ​​कि आपको अपना डेटा जोड़ने के लिए भी भुगतान कर सकती हैं।

+0

+1। वहां गया, ऐसा किया (यात्रा मेटा खोज), कानूनी नोटिस मिला। कई विक्रेता उपभोक्ताओं को कीमतों की तुलना करने के लिए पसंद नहीं करते हैं ... –

संबंधित मुद्दे