2012-10-14 19 views
6

क्या फेसबुक ने कुछ वेब क्रॉलर को अभी लागू किया था? मेरी वेबसाइट पिछले कुछ दिनों में दो बार दुर्घटनाग्रस्त हो रही है, जो आईपी द्वारा गंभीर रूप से अधिभारित है जिसे मैंने फेसबुक पर वापस खोज लिया है।फेसबुक क्रॉलर बॉट क्रैशिंग साइट

मैंने चारों ओर घूमने की कोशिश की है लेकिन robots.txt के माध्यम से फेसबुक के क्रॉलर बॉट को नियंत्रित करने के संबंध में कोई निश्चित संसाधन नहीं मिल रहा है।

उपयोगकर्ता-एजेंट:: वहाँ निम्नलिखित जोड़ने पर एक संदर्भ है facebookexternalhit/1.1 Crawl-delay: 5

उपयोगकर्ता-एजेंट: facebookexternalhit/1.0 Crawl-delay: 5

उपयोगकर्ता-एजेंट : facebookexternalhit/* क्रॉल-विलंब: 5

लेकिन मुझे कोई विशेष संदर्भ नहीं मिल रहा है कि फेसबुक बॉट robots.txt का सम्मान करता है या नहीं। पुराने स्रोतों के अनुसार, फेसबुक "आपकी साइट को क्रॉल नहीं करता है"। लेकिन यह निश्चित रूप से झूठा है, क्योंकि मेरे सर्वर लॉग ने उन्हें मेरी साइट को एक दर्जन + आईपी से 69.171.237.0/24 और 69.171.229.115/24 की सीमा से प्रत्येक पृष्ठ पर कई पृष्ठों की दर से क्रॉल किया।

और मुझे इस पर कोई साहित्य नहीं मिल रहा है। मुझे संदेह है कि यह कुछ नया है कि एफबी ने पिछले कुछ दिनों में अभी लागू किया है, क्योंकि मेरे सर्वर ने पहले कभी दुर्घटनाग्रस्त नहीं किया था।

क्या कोई सलाह दे सकता है?

+0

हां, कुछ हाल ही में बदल गया है क्योंकि यह 8 वर्षों में पहली बार हमें दुर्घटनाग्रस्त करना शुरू कर रहा है। माना जाता है कि वे "अपने opengraph अद्यतन कर रहे हैं"। हालांकि, हमारे पृष्ठों को देखकर यह अनुरोध कर रहा है (बहुत पुराना अस्पष्ट पृष्ठ), मुझे आश्चर्य है कि एक कानूनी बॉट जावास्क्रिप्ट को निष्पादित कर रहा है, और जैसे बटनों को खींच रहा है, एक एफबी ओपनग्राफ अपडेट ट्रिगर कर रहा है। यह सिर्फ एक झटका है ... – Stickley

+0

संबंधित प्रश्न: http://stackoverflow.com/questions/11521798/excessive-traffic-from-facebookexternalhit-bot?lq=1 और http://stackoverflow.com/questions/7716531/ facebook- and-crawl-delay-in-robots-txt? lq = 1 – Stickley

+0

आपके सुझावों और संदर्भों के लिए धन्यवाद, हैंक। घटना के मोड़ में, 8 नवंबर या 9वीं को कुछ घंटों के लिए, मेरी साइट प्रति सेकंड दर्जनों एक्सेसों से अभिभूत थी। लेकिन इस बार - यह फेसबुक नहीं था, लेकिन अमेज़ॅन। इसने अचानक साइट के भीतर लिंक के विशाल समूह को बड़े पैमाने पर शुरू कर दिया, लेकिन ऐसा कोई स्पष्ट पैटर्न प्रतीत नहीं होता है - कुछ पृष्ठों तक पहुंचने वाले अस्पष्ट/पुराने पृष्ठ हैं, जबकि कुछ नवीनतम हैं। आश्चर्य है कि क्या वे अपने स्वयं के खोज इंजन डेटाबेस को रीफ्रेश कर रहे हैं। – Andy

उत्तर

0

जो भी फेसबुक ने आविष्कार किया है, आपको निश्चित रूप से अपने सर्वर को ठीक करने की आवश्यकता है क्योंकि बाहरी अनुरोधों के साथ इसे क्रैश करना संभव है।

इसके अलावा, facebookexternalhit के लिए गूगल पर सिर्फ एक पहली हिट: - कि प्रणाली में पंक्तिबद्ध अनुरोध और सुस्ती की वजह से फेसबुक से अनुरोधों की बाढ़ http://www.facebook.com/externalhit_uatext.php

+0

धन्यवाद। मैंने एफबी यूटेक्स्ट पेज की जांच की, हालांकि यह कुछ विशिष्ट पेशकश नहीं करता था। मेरे सर्वर को क्रैश करने वाले पेज वर्डप्रेस ब्लॉग सेक्शन में हैं जिनमें कुछ हज़ार पोस्ट हैं। दुर्भाग्यवश, इंजन सभी tweaks और quickcache स्थापित करने के साथ भी पर्याप्त कुशल नहीं है, और एकमात्र तरीका मैं त्वरित समाधान के रूप में सोच सकता हूं robots.txt क्रॉल विलंब को लागू करना है, लेकिन मुझे नहीं पता कि एफबी इसका सम्मान करता है या नहीं। मुझे Google क्रॉल के साथ समस्याएं नहीं आई हैं, हालांकि यह पूरे दिन फैलती है। एफबी सभी पृष्ठों पर एक साथ चलते हैं और सर्वर को मार देते हैं। – Andy

+0

मुझे एक और कारण मिला है कि मुझे एफबी पसंद नहीं है :) – Serge

1

हम समान व्यवहार एक ही समय (मध्य अक्टूबर) के बारे में में देखा था। इसके साथ शुरू करने के लिए हर 90 मिनट था; कुछ दिनों में यह आवृत्ति में वृद्धि हुई और यादृच्छिक रूप से वितरित हो गया।

अनुरोध robots.txt का सम्मान नहीं करने के लिए प्रकट हुए, इसलिए हमें एक अलग समाधान के बारे में सोचने के लिए मजबूर होना पड़ा। अंत में हमने बैकएंड सर्वर की एक समर्पित जोड़ी के लिए एक फेसबुक उपयोगकर्ता के साथ सभी अनुरोधों को अग्रेषित करने के लिए nginx सेट अप किया। अगर हम nginx उपयोग कर रहे थे> v0.9.6 हम इस के लिए एक अच्छी regex किया जा सकता था, लेकिन हम नहीं थे, इसलिए हम

map $http_user_agent $fb_backend_http { 
      "facebookexternalhit/1.0 (+http://www.facebook.com/externalhit_uatext.php)" 
        127.0.0.1:80; 
    } 

की तर्ज यह हमारे लिए अच्छी तरह से काम किया है के साथ एक मानचित्रण इस्तेमाल किया; कुछ हफ्तों के दौरान हम अनुरोधों के इस विभाजन को दबाने वाले थे, भारी प्रणाली को शेष प्रणाली से दूर रखा गया।

ऐसा लगता है कि अब हमारे लिए काफी हद तक मृत्यु हो गई है - हम केवल अस्थायी स्पाइक्स देख रहे हैं।

ऐसा होने के लिए के रूप में, मैं अब भी यकीन नहीं है - वहाँ लगता है अप्रैल में एक ऐसी ही घटना है कि एक बग http://developers.facebook.com/bugs/409818929057013/ के लिए जिम्मेदार ठहराया गया था किया गया है, लेकिन मैं अभी हाल ही में इसी तरह कुछ भी के बारे में पता नहीं कर रहा हूँ।

+0

साझा करने के लिए धन्यवाद। मैं अपाचे का उपयोग कर रहा हूं - उम्मीद है कि उपयोगकर्ता-एजेंट द्वारा पुनः मैपिंग अनुरोधों के लिए उनके पास समान दृष्टिकोण है। लेकिन ऐसा लगता है कि मेरे पास इन गतिशील पहुंचों को ऑफ़लोड करने के लिए एक और अच्छा सर्वर है क्योंकि वे स्थिर पृष्ठ नहीं हैं, अन्यथा मुझे पूरी तरह से अनुरोधों को त्यागना होगा और उम्मीद है कि एफबी मेरी साइट को अमान्य मानता नहीं है। आपने जो देखा उसके समान, घटना इसके तुरंत बाद रुक गई। यह कुछ हड़ताली एफबी प्रक्रिया हो सकती है - लेकिन निश्चित रूप से robots.txt का सम्मान न करने के लिए यह निश्चित रूप से एक बुरा अभ्यास है। – Andy

2

जैसा कि in this similar question on facebook and Crawl-delay में चर्चा की गई है, फेसबुक स्वयं को एक बॉट नहीं मानता है, और यह आपके robots.txt का भी अनुरोध नहीं करता है, इसकी सामग्री पर बहुत कम ध्यान देना।

आप इसी तरह के प्रश्न लिंक में दिखाए गए अनुसार अपनी खुद की दर सीमित कोड लागू कर सकते हैं।विचार है कि सर्वर पर क्षमता खत्म होने पर, या किसी विशेष उपयोगकर्ता-एजेंट द्वारा गंदे होने पर http कोड 503 को वापस लौटना है।

ऐसा लगता है कि बड़ी तकनीक कंपनियों के लिए काम करने वाले लोग "कैशिंग में सुधार" नहीं समझते हैं, कुछ छोटी कंपनियों को संभालने के लिए बजट नहीं हैं। हम अपने ग्राहकों की सेवा करने पर ध्यान केंद्रित कर रहे हैं जो वास्तव में पैसे का भुगतान करते हैं, और "दोस्ताना" कंपनियों से वेब बॉट को छेड़छाड़ करने का समय नहीं है।

संबंधित मुद्दे