कल्पना कीजिए कि मैं एचडीएफएस में होस्ट की गई फाइल पर कुछ स्पार्क ऑपरेशंस करता हूं। इस तरह कुछ:अपाचे स्पार्क एचडीएफएस डेटा नोड्स के बारे में कैसे पता लगाता है?
var file = sc.textFile("hdfs://...")
val items = file.map(_.split('\t'))
...
क्योंकि हैडोप दुनिया में कोड को डेटा जाना चाहिए, है ना?
तो मेरे सवाल है: कैसे स्पार्क कार्यकर्ताओंHDFS डेटा नोड्स की जानते हो? स्पार्क कैसे पता लगाता है कि कोड को निष्पादित करने के लिए कौन से डेटा नोड्स हैं?
दस्तावेज़ीकरण को देखें: https://spark.apache.org/docs/latest/cluster-overview.html यह क्लस्टर प्रबंधक पर निर्भर करता है। – Nfear
मुझे नहीं लगता कि स्पार्क इस बात की परवाह करता है कि डेटा कहां है, और मुझे नहीं लगता कि आपको या तो चाहिए। थ्रूपुट डिस्क द्वारा सीमित है, नेटवर्क नहीं। मैं इस बात से सहमत नहीं हूं "कोड जाना चाहिए जहां डेटा है"। –
जब आप प्रोटोकॉल के रूप में 'hdfs' का उपयोग करते हैं, तो फाइल सिस्टम एपीआई भौतिक स्थानों को दूर करता है। क्या स्पार्क इसका उपयोग करता है या नहीं, इससे कोई फर्क नहीं पड़ता कि डैनियल पहले से ही कहता है। –