डेटा-स्थानीय कार्य में, कुछ भी कॉपी करने की आवश्यकता नहीं है। ऐसा इसलिए है क्योंकि ब्लॉक भौतिक रूप से गणना के समान सर्वर पर है।
अगला स्तर रैक-स्थानीय कार्य है, यहां डेटा की प्रतिलिपि बनाई जानी चाहिए, क्योंकि वांछित ब्लॉक की कोई स्थानीय प्रति उपलब्ध नहीं है। ध्यान दें कि रैक-लोकल केवल नेटवर्क के रैक-स्थानीय स्विचिंग के भीतर कॉपी करता है।
सबसे खराब मामला भी है, जहां डेटा स्थानीय उपलब्ध नहीं है, न ही उसी रैक पर। तो यह मेजबानों को दो स्विचों पर कॉपी किया जाना चाहिए जहां गणना चलती है। मुझे नहीं पता कि इसके लिए कोई काउंटर है, लेकिन मूल रूप से यह #all tasks - #data-local tasks - #rack-local tasks
होना चाहिए।
स्रोत
2012-10-07 15:55:07
थॉमा का जवाब सही है, लेकिन मैं रैक-स्थानीय कार्यों बनाम डेटा-लोकल की संख्या के बारे में चिंतित हूं। आप उससे अधिक डेटा-स्थानीय कार्यों को चाहते हैं। बड़े क्लस्टर पर मैं आमतौर पर ~ 95% डेटा स्थानीय स्थानीय देखता हूं। तुम्हारे साथ यह विपरीत है। –
@DonaldMiner हाँ, यह अच्छा नहीं है। हालांकि, यह इस बात पर निर्भर करता है कि उस क्लस्टर पर कितनी नौकरियां चल रही हैं। कभी-कभी आपको नौकरी के प्रदर्शन को त्यागने की ज़रूरत होती है, ताकि दूसरा तेज़ हो सके। –
@ थॉमसजंगब्लूट वह संख्या अभी भी सही नहीं है। 3x प्रतिकृति के साथ बड़े क्लस्टर पर, पूर्ण स्लॉट क्षमता के साथ भी, मैंने यह संख्या बहुत अधिक देखी है। –