2 बुनियादी सवालों कि मुसीबत मुझे:हाइव/हडूप कैसे आश्वासन देता है कि प्रत्येक मैपर डेटा पर काम करता है जो इसके लिए स्थानीय है?
- कैसे मुझे यकीन है कि 32 फ़ाइलें छत्ता में से प्रत्येक अपनी तालिका स्टोर करने के लिए बैठता है का उपयोग करता है अपनी अनूठी मशीन पर हो सकता है?
- यदि ऐसा होता है, तो मैं कैसे सुनिश्चित कर सकता हूं कि यदि हाइव 32 मैपर बनाता है, तो उनमें से प्रत्येक स्थानीय डेटा पर काम करेगा? क्या हैडऑप/एचडीएफएस इस जादू की गारंटी देता है, या एक स्मार्ट एप्लिकेशन के रूप में हाइव करता है यह सुनिश्चित करता है कि यह होगा?
पृष्ठभूमि: मैं 32 मशीनों के एक छत्ते क्लस्टर है, और:
- मेरे सभी तालिकाओं
"CLUSTERED BY(MY_KEY) INTO 32 BUCKETS"
- के साथ बनाया जाता रहा
hive.enforce.bucketing = true;
- का उपयोग मैं सत्यापित और वास्तव में हर तालिका संग्रहीत किया जाता है उपयोगकर्ता/हाइव/गोदाम में 32 फाइलों के रूप में
- मैं 2
धन्यवाद!
डिफ़ॉल्ट रूप से एचडीएफएस ब्लॉक को तीन बार (समान नोड, और दो अन्य नोड्स, अधिमानतः किसी अन्य रैक में) प्रतिलिपि बनाता है। – cftarnas
ठीक है, धन्यवाद, आपके उत्तर के प्रकाश में मैंने दोबारा जवाब दिया और एक नया प्रश्न पूछा जो मेरी समस्या का बेहतर वर्णन करता है: http://stackoverflow.com/questions/6953383/is-a-collocated-join-a-la-netezza- सैद्धांतिक रूप से -संभावित-इन-हाइव – ihadanny
@ स्पीकग्रोनिम क्या आप इस हडोप प्रश्न में अंतर्दृष्टि प्रदान करने में सक्षम होंगे? [क्या मैपरेडस नौकरी को दूरस्थ डेटा तक पहुंचने से प्रतिबंधित करना संभव है?] (Http://stackoverflow.com/q/31789176/320399) – blong