यह आपके सेटअप के विवरण पर बहुत निर्भर करता है। सबसे पहले, पता है कि 4 जीबी में 20 जीबी 80 एमबीपीएस है।
बाधा आपकी स्थानीय मशीन के हार्डवेयर या उसके ईथरनेट कनेक्शन की संभावना है। मुझे संदेह है कि ब्लॉक आकार के साथ खेलने से आपके थ्रूपुट में काफी सुधार होगा।
अपने स्थानीय मशीन एक ठेठ 7200rpm हार्ड ड्राइव नहीं है तो उसके डिस्क बफ़र होना अंतरण दर के बारे में 128MBps है, जिसका अर्थ है कि इसके बारे में 2:35 में स्मृति में है कि 20BG फ़ाइल को लोड कर सकता है, यह सोचते हैं आप अतिरिक्त 20GB की है। हालांकि, आप इसे स्मृति में कॉपी नहीं कर रहे हैं, आप इसे स्मृति से नेटवर्क पैकेट तक स्ट्रीम कर रहे हैं, इसलिए यह समझ में आता है कि इन कार्यों को संसाधित करने के लिए आपको अतिरिक्त ओवरहेड लगाना है।
wire speed पर विकिपीडिया प्रविष्टि भी देखें, जो 100 एमबी/एस (~ 12 एमबी/एस) पर एक तेज ईथरनेट सेटअप रखता है। ध्यान दें कि इस मामले में फास्ट ईथरनेट ईथरनेट मानकों के एक विशेष समूह के लिए एक शब्द है। आप स्पष्ट रूप से इस से तेज दर प्राप्त कर रहे हैं। तार की गति एक अच्छा उपाय है, क्योंकि यह आपकी स्थानीय मशीन पर सभी कारकों के लिए जिम्मेदार है।
तो चलो अपने स्थानीय मशीन पर स्ट्रीमिंग प्रक्रिया में विभिन्न चरणों को तोड़ने करते हैं:
- फ़ाइल से एक हिस्सा पढ़ें और स्मृति में लोड। घटक: हार्ड ड्राइव, मेमोरी
- उस खंड को पैकेट में विभाजित करें और अनुवाद करें। आखिर में मैंने सुना है कि हैडोप बॉक्स के बाहर DMA फीचर्स का उपयोग नहीं करता है, इसलिए ये ऑपरेशन एनआईसी की बजाय आपके सीपीयू द्वारा किए जाएंगे। घटक: मेमोरी, सीपीयू
- हैडॉप फ़ाइल सर्वर पर पैकेट प्रेषित करें।घटक: एनआईसी, नेटवर्क
अपने स्थानीय मशीन के बारे में अधिक जानने के बिना, यह निर्दिष्ट करने के लिए जो इन घटकों में से टोंटी है कठिन है। हालांकि, बिटरेट की जांच शुरू करने के लिए ये जगहें हैं।
स्रोत
2013-10-24 19:27:55
तो यह है वर्तमान में 80 एमबी/एस। डिस्क और नेटवर्क I/O की जांच करें। क्या आपकी डिस्क/नेटवर्क बेहतर हो सकता है? आपका सटीक सेटअप क्या है? एक मशीन या क्लस्टर? – harpun