2011-06-18 2 views
17

मैं सोच रहा था कि किसी दिए गए साइट ए से सामग्री के कुछ बाइट्स (386 सटीक) का उपभोग करने का सबसे नैतिक तरीका क्या होगा, कुछ साइट बी में एक एप्लिकेशन (जैसे Google ऐप इंजन) के साथ, लेकिन इसे सही कर रहा है , कोई स्क्रैपिंग इरादा नहीं है, मुझे वास्तव में केवल एक सार्वजनिक सेवा की स्थिति की जांच करने की आवश्यकता है और वे वर्तमान में कोई एपीआई प्रदान नहीं कर रहे हैं। तो में मार्कअप साइट ए में मुझे आवश्यक जानकारी के साथ एक जावास्क्रिप्ट सरणी है और यह सुनिश्चित करने में सक्षम है कि हर पांच मिनट में एक बार पर्याप्त हो जाए।एपीआई प्रदान नहीं कर रहे किसी साइट से सामग्री का उपभोग करने का सबसे नैतिक तरीका क्या होगा?

कोई सलाह बहुत सराहना की जाएगी।

अद्यतन:

पहले सभी धन्यवाद ज्यादा प्रतिक्रिया के लिए। साइट ए मूल रूप से उस कंपनी की वेबसाइट है जो वर्तमान में हमारे सार्वजनिक मेटवे नेटवर्क चलाती है, इसलिए मैं किसी भी व्यक्ति के लिए केवल एक संपूर्ण मानचित्र और उसके स्टेशनों के साथ एक नक्शा न रखने के लिए एक छोटा मुक्त एंड्रॉइड ऐप विकसित करने की योजना बना रहा हूं लेकिन अपडेट की गई जानकारी भी सेवा की उपलब्धता के बारे में (और वे बाइट्स हैं जिन्हें मैं अंततः उपभोग कर रहा हूं), आदि।

+0

सार्वजनिक सबवे? सिंगापुर में मेट्रो प्राधिकारियों ने इस तरह के ऐप बनाने वाले बहुत डेवलपर के बाद सभी सूचनाओं को खारिज करने से प्रतिबंधित कर दिया। – Rudy

+2

कितने उत्सुक, स्पष्ट रूप से अलग-अलग देशों के अलग-अलग कानून हैं। –

+0

@ रुडी, स्रोत कृपया। – Pacerier

उत्तर

9

देखने के कुछ बहुत ही विभिन्न अंक नहीं होगा, लेकिन उम्मीद है कि यहाँ विचार के लिए कुछ खाना है:

  1. साइट स्वामी से पूछें पहले, यदि वे समय से आगे जानते हैं कि वे कम नाराज होने की संभावना है।
  2. साइट पर साइट ए पर सामग्री साइट के सार्वजनिक हिस्से पर पहुंच योग्य है, उदा। लॉग इन करने की ज़रूरत के बिना?
  3. यदि # 2 का उत्तर यह है कि यह सार्वजनिक सामग्री है, तो मुझे कोई समस्या नहीं दिखाई देगी, क्योंकि उस जानकारी के लिए साइट को स्क्रैप करना वास्तव में अलग नहीं है, फिर साइट पर अपने ब्राउज़र को इंगित करना और इसे अपने लिए पढ़ना।
  4. बेशक, # 3 का उत्तर साइट पर मुद्रीकृत होने पर निर्भर है। यदि साइट ए साइट के लिए राजस्व उत्पन्न करने के लिए विज्ञापन प्रदान करता है, तो हो सकता है कि सामग्री को स्क्रैप करना शुरू न करें, क्योंकि आप साइट को पैसे कैसे बनाते हैं, इस पर बाईपास करना होगा।

मुझे लगता है कि ऐसा करने के लिए सबसे महत्वपूर्ण बात यह है, पहले साइट के मालिक से बात है, और उन लोगों से सीधे यह निर्धारित करते हैं:

  1. यह ठीक मुझे अपनी साइट से सामग्री को स्क्रैप किए जाने के लिए है।
  2. क्या उनके पास पाइपलाइन में एक एपीआई है (बस इच्छा को हाइलाइट करने से उन्हें विचार करने के लिए संकेत मिल सकता है)।

बस मेरी दृष्टि ...

+4

सभी अच्छे अंक। मैं जोड़ूंगा: एक लिंक के साथ स्रोत को विशेषता देने का प्रस्ताव। (और यदि आप अनुमति मांगे बिना ऐसा करते हैं, तो निश्चित रूप से ऐसा करें। और उम्मीद करें, अगर आप अनुमति के बिना ऐसा करते हैं, तो आप अंततः अवरुद्ध हो सकते हैं। हर पांच मनीट्स डीओएस नहीं है, लेकिन यह अभी भी संदिग्ध गतिविधि है अच्छी तरह से व्यवस्थापक द्वारा अवरुद्ध हो जाओ।) –

+1

@TJ - इसे एक एवर के रूप में जोड़ें ताकि हम आपको –

+0

ऊपर उठा सकें। आपकी सूची में जोड़ने के लिए एक अतिरिक्त बिंदु - व्यावहारिक रूप से कम से कम मतदान। –

2

अद्यतन (4 साल बाद): सवाल विशेष रूप से समस्या का नैतिक पक्ष गले लगाती है। यही कारण है कि इस पुराने उत्तर इस तरह से लिखा है।

आमतौर पर ऐसी स्थिति में आप उनसे संपर्क करते हैं।

यदि उन्हें यह पसंद नहीं है, तो नैतिक रूप से आप यह नहीं कर सकते हैं (कानूनी रूप से साइट पर लाइसेंस प्रदान करने के आधार पर कानूनी रूप से एक और कहानी है। क्या लॉगिन/अज्ञातता या उनके पास पहुंच के लिए अन्य प्रतिबंध हैं, क्या आप परीक्षण/नकली डेटा, आदि का उपयोग करना है ...)।

यदि वे इसे अनुमति देते हैं, तो वे एक एपीआई प्रदान कर सकते हैं (लागत में शामिल हो सकता है - यह निर्धारित करने के लिए आप पर निर्भर होगा कि आपके ऐप के लिए कितना उचित मूल्य है), या आपके लिए कुछ प्रकार के अपेक्षित व्यवहार का वादा करता है, जो स्वयं ही हो सकता है स्क्रैपिंग, या जो भी विकल्प वे तय करते हैं।

यदि वे इसे अनुमति देते हैं लेकिन इसे आसान बनाने में मदद के लिए तैयार नहीं हैं, तो स्क्रैपिंग (इसके अन्य डाउनसाइड्स अभी भी लागू हैं) कम से कम "नैतिक रूप से" सही होंगे।

1

मैं इसे साइट व्यवस्थापक को ईमेल करने के लिए सहेज नहीं सकता, फिर उनकी लिखित अनुमति प्राप्त कर रहा हूं। कहा जा रहा है - यदि आप सामग्री का उपभोग कर रहे हैं, तो मूल्य से अधिक मूल्य निकालने के लिए नहीं, एक उपयोगकर्ता को आपके द्वारा आवश्यक डेटा को देखते समय प्राप्त होता है, यह तर्कसंगत है कि TOU वे आपको उल्लंघन में नहीं ढूंढ पाएंगे। यदि आपको से अधिक उल्लेखनीय मूल्य मिलता है, तो आपको एक ही उपयोगकर्ता को आपकी साइट से आवश्यक डेटा से क्या मिलेगा - यानी, मान लीजिए कि आप डेटा का उपयोग करते हैं, तो आपके परिणाम आपके साइट के उपयोगकर्ताओं के 100x तक मूल्य प्रदान करते हैं - मैं कहूंगा कि आपको रात में अच्छी तरह सोने के लिए इसे करने की स्पष्ट अनुमति की आवश्यकता है।

यह सब बंद है, हालांकि जानकारी पहले से ही सार्वजनिक डोमेन में है (और आप इसे साबित कर सकते हैं), या आपके द्वारा आवश्यक डेटा कुछ प्रकार के 'ओपन लाइसेंस' जैसे जीएनयू से है।

फिर फिर, वेब दूसरों की सामग्री के लिंक के बिना कुछ भी नहीं है। हम सभी को विभिन्न मंचों पर सामान फिर से पोस्ट करें, कहें - हम सीएनएन पर एक लेख पढ़ते हैं, फिर ऑनलाइन मंच में पर टिप्पणी करें, शायद लेख उद्धृत करें, और इसे एक लिंक प्रदान करें। बस मुझे लगता है कि कितना लचीला है और साइट के व्यवस्थापक और मालिक खुले दिमाग में हैं। लेकिन वास्तव में, मुकदमा से बचने के लिए (अगर धक्का ढेर करने के लिए आता है) मुझे अनुमति मिल जाएगी।

+0

यह एक दिलचस्प बात है। बहुत धन्यवाद। –

0

"कोई स्क्रैपिंग इरादा नहीं है" - आप स्क्रैप करने का इरादा रखते हैं। =)

केवल उचित नैतिकता आधारित कारणों से एक यह उनकी वेबसाइट से नहीं लेना चाहिए है:

  1. वे उपयोगकर्ताओं के लिए विज्ञापन या महत्वपूर्ण सुरक्षा नोटिस प्रदर्शित करना चाह सकते हैं
  2. यह उनके आंकड़े गलत कर सकते हैं

उनकी साइट को हथौड़ा देने के मामले में, शायद यह कोई मुद्दा नहीं है। लेकिन अगर यह है:

  • शायद आप आवश्यक न्यूनतम राशि (उदा। HTTP अनुरोधों की न्यूनतम संख्या) को स्क्रैप करना चाहते हैं, और सर्वर को अक्सर हथौड़ा नहीं देते हैं।
  • शायद आप अपने सभी ऐप्स वेबसाइट पर पूछना नहीं चाहते हैं; आप अपनी वेबसाइट को cronjob के माध्यम से पूछ सकते हैं। यह आपके स्वरूपण को बदलने के मामले में बेहतर नियंत्रण की अनुमति देगा, या आपको अपनी वेबसाइट को बदलकर, केवल अपने उपयोगकर्ताओं को "सेवा अनुपलब्ध" त्रुटियों को फेंकने देगा; यह विफलता का एक और बिंदु पेश करता है, लेकिन यह शायद इसके लायक है। इस तरह अगर कोई बग है, तो लोगों को अपने ऐप्स को अपडेट करने की आवश्यकता नहीं है।

लेकिन सबसे अच्छी बात यह है कि आप वेबसाइट से बात कर सकते हैं कि वे सबसे अच्छा क्या पूछें। उनके पास एक छिपी हुई एपीआई हो सकती है जो वे आपको उपयोग करने की अनुमति देगी, और शायद दूसरों को भी इसका उपयोग करने की इजाजत दी गई है।

1
  1. user-agent शीर्षलेख का उपयोग करें जो आपकी सेवा की पहचान करता है।
  2. अपने robots.txt देखें (और नियमित अंतराल पर इसे फिर से जांचें, उदाहरण के लिए दैनिक)।
  3. किसी रिकॉर्ड में किसी भी Disallow का सम्मान करें जो आपके उपयोगकर्ता एजेंट से मेल खाता है (be liberal नाम की व्याख्या करने में)। यदि आपके उपयोगकर्ता-एजेंट के लिए कोई रिकॉर्ड नहीं है, तो User-agent: * के लिए रिकॉर्ड का उपयोग करें।
  4. (गैर-मानक) Crawl-delay का सम्मान करें, जो आपको बताता है कि उस मेजबान से संसाधन का अनुरोध करने से पहले आपको कितने सेकंड का इंतजार करना चाहिए।
संबंधित मुद्दे

 संबंधित मुद्दे