2013-11-08 4 views
6

के लिए हार्डवेयर आवश्यकताएं मुझे संदेह है कि उत्तर "यह निर्भर करता है", लेकिन क्या इस बारे में कोई सामान्य मार्गदर्शन है कि Facebook Presto के लिए किस प्रकार के हार्डवेयर का उपयोग करने की योजना है?फेसबुक प्रेस्टो

चूंकि प्रेस्टो एक समन्वयक और श्रमिकों का एक समूह का उपयोग करता है, और श्रमिक डेटा के साथ चलते हैं, मुझे लगता है कि मुख्य मुद्दों में संयोजक के लिए पर्याप्त रैम होगा, पर्याप्त नेटवर्क बैंडविड्थ श्रमिकों से समन्वयक को भेजे गए आंशिक परिणामों के लिए पर्याप्त नेटवर्क बैंडविड्थ होगा।

यदि आप इस उचित तरीके से आकार के बारे में कुछ सामान्य विचारों की आपूर्ति कर सकते हैं, तो मुझे उन्हें सुनना अच्छा लगेगा।

+0

आप में देखा है का उपयोग कर की क्या ज़रूरत है http://prestodb.io/docs/current/installation/deployment.html? – sufinawaz

उत्तर

24

अधिकांश लोग पहले से ही हैडोप नोड्स पर प्रेस्टो चला रहे हैं। फेसबुक पर हम आमतौर पर नेटवर्क लोड को फैलाने के लिए हडोप क्लस्टर के भीतर कुछ नोड्स पर प्रेस्टो चलाते हैं।

आम तौर पर, मैं एक नए क्लस्टर के लिए उद्योग मानक अनुपात के साथ जाऊंगा: प्रत्येक डिस्क के लिए 2 कोर और 2-4 गीगा मेमोरी, 10 गिगाबिट नेटवर्किंग के साथ यदि आप इसे बर्दाश्त कर सकते हैं। आपके पास कुछ डेटा (4+) होने के बाद, आपके डेटा पर आपके प्रश्नों का उपयोग करके बेंचमार्क। यदि आपको अनुपात समायोजित करने की आवश्यकता है तो यह स्पष्ट होना चाहिए।

खरोंच से एक क्लस्टर कुछ तथ्यों पर गौर करने के लिए हार्डवेयर आकार के संदर्भ में:

  • कुल डेटा आकार डिस्क आप की आवश्यकता होगी की संख्या का निर्धारण करेगा। एचडीएफएस में एक बड़ा ओवरहेड है इसलिए आपको बहुत सारी डिस्क की आवश्यकता होगी।
  • सीपीयू गति से डिस्क का अनुपात गर्म डेटा (डेटा जिसके साथ आप काम कर रहे हैं) और ठंडे डेटा (संग्रह डेटा) के बीच अनुपात पर निर्भर करता है। यदि आप अभी अपना डेटा गोदाम शुरू कर रहे हैं तो आपको बहुत सी सीपीयू की आवश्यकता होगी क्योंकि सभी डेटा नए और गर्म होंगे। दूसरी ओर, अधिकांश भौतिक डिस्क केवल डेटा को इतनी तेजी से वितरित कर सकती हैं, इसलिए किसी बिंदु पर अधिक CPUs मदद नहीं करते हैं।
  • सीपीयू गति से स्मृति तक का अनुपात समेकन के आकार पर निर्भर करता है और आप जो प्रदर्शन करना चाहते हैं उसमें शामिल होते हैं और उस मात्रा (गर्म) डेटा को कैश करना चाहते हैं। वर्तमान में, प्रेस्टो को एक एकल मशीन पर स्मृति में फिट होने के लिए अंतिम एकत्रीकरण परिणाम और हैश तालिका की आवश्यकता होती है (हम इन प्रतिबंधों को हटाने पर सक्रिय रूप से काम कर रहे हैं)। यदि आपके पास बड़ी मात्रा में स्मृति है, तो ओएस डिस्क पृष्ठों को कैश करेगा जो प्रश्नों के प्रदर्शन में काफी सुधार करेगा।

फेसबुक में हम अपने Presto प्रक्रियाओं के रूप में निम्नानुसार चलाएँ:

  • हम एक 16 गीगाबाइट ढेर के साथ हमारे JVMs चलाने ओएस बफ़र्स के लिए उपलब्ध सबसे स्मृति छोड़ने के लिए
  • मशीनों पर हम Presto हम डॉन चलाने मैपरेडस कार्यों को चलाने के लिए
  • अधिकांश प्रेस्टो मशीनों पर हमारे पास 16 असली कोर हैं और हम प्रेस्टो एफ़िनिटी (जल्द ही सीजी समूह) का उपयोग करते हैं ताकि प्रेस्टो को 12 कोर तक सीमित किया जा सके (इसलिए डीएफएस क्लाइंट और अन्य चीजें आसानी से चल सकती हैं)
  • मो हमारे सर्वर के सेंट 10 गीगाबिट नेटवर्क पर हैं, लेकिन हम एक बड़े पुराने crufty क्लस्टर 1 गीगाबिट (जो ठीक काम करता है)
  • हम समन्वयक के लिए एक ही विन्यास का उपयोग करें और कार्यकर्ताओं
+0

विस्तृत, त्वरित उत्तर के लिए धन्यवाद! – benvolioT

+0

इस तरह के एक महान प्रतिक्रिया के लिए धन्यवाद – Pradatta

संबंधित मुद्दे