2013-10-15 6 views
5

हम जानते हैं कि हैडोप नेटवर्क बैंडविड्थ को बचाने के लिए नौकरियों को कम करने के लिए डेटा इलाके सिद्धांत का उपयोग करता है।हडोप में एचडीएफएस के अलावा फाइल सिस्टम के लिए डेटा इलाके का उपयोग कैसे किया जाता है?

से लिया: http://hadoop-gyan.blogspot.in/

Hadoop जहां डाटा स्थानीय स्तर पर वर्तमान नेटवर्क और अंतर-नोड पर अनुकूलन करने के लिए है नोड्स पर नक्शा कार्य चलाने का पूरा प्रयास की कोशिश करता है यह इस तरह का वर्णन है संचार विलंबता। चूंकि इनपुट डेटा को टुकड़ों में विभाजित किया जाता है और को विभिन्न मानचित्र कार्यों में खिलाया जाता है, यह सभी डेटा को पर खिलाया जा सकता है, जो कि एक नोड पर उपलब्ध नक्शा कार्य है। चूंकि एचडीएफएस केवल डेटा को इसके ब्लॉक आकार के बराबर आकार देता है (64 एम) एक नोड पर उपस्थित होने के लिए, एचडीएफएस ब्लॉक आकार के बराबर विभाजित आकार की सलाह दी जाती है ताकि नक्शा कार्य इस डेटा का लाभ उठा सके स्थानीयकरण।

हैडोप मानचित्र को कम करने में सक्षम है, भले ही अंतर्निहित फ़ाइल सिस्टम एचडीएफएस नहीं है (यानी, यह अन्य फाइल सिस्टम जैसे अमेज़ॅन के एस 3 पर चल सकता है)। अब, इस मामले में डेटा इलाके के लिए जिम्मेदार कैसे है? एचडीएफएस के मामले में नामनोड में सभी ब्लॉक स्थान की जानकारी थी और इसका उपयोग करके मैपर्स डेटा के करीब जितना संभव हो सके थे। हालांकि, अन्य फाइल सिस्टम में नामनोड की कोई अवधारणा नहीं है। फिर, हाडोप मैपरेडस फ्रेमवर्क (जॉबट्रैकर और टास्कट्रैकर) नौकरी चलाने के दौरान डेटा इलाके सिद्धांत को लागू करने के लिए डेटा का स्थान कैसे सीखता है?

उत्तर

3

जैसा कि आपने बताया है, एस 3 जैसे फाइल सिस्टम को नामनेन्डे को चलाने की आवश्यकता नहीं है। इस मामले में डेटा इलाके अनुकूलन उपलब्ध नहीं है।

संदर्भ: http://wiki.apache.org/hadoop/AmazonS3

+0

जवाब के लिए thanx –

संबंधित मुद्दे