स्पार्क - एडब्ल्यूएस ईएमआर क्लस्टर के लिए किस इंस्टेंस प्रकार को प्राथमिकता दी जाती है?

मैं ईएमआर स्पार्क क्लस्टर पर कुछ मशीन लर्निंग एल्गोरिदम चला रहा हूं। मैं उत्सुक हूं कि किस तरह का उदाहरण उपयोग करना है ताकि मुझे इष्टतम लागत/प्रदर्शन लाभ मिल सके?स्पार्क - एडब्ल्यूएस ईएमआर क्लस्टर के लिए किस इंस्टेंस प्रकार को प्राथमिकता दी जाती है?

कीमतों के समान स्तर के लिए, मैं के बीच चयन कर सकते हैं:

  vCPU ECU Memory(GiB) 
m3.xlarge 4  13  15  
c4.xlarge 4  16  7.5 
r3.xlarge 4  13  30.5

उदाहरण किस प्रकार के ईएमआर स्पार्क क्लस्टर में इस्तेमाल किया जाना चाहिए?

स्रोत

2015-05-25 shihpeng

यह आपके उपयोग के मामले, जरूरतों आदि पर निर्भर करता है ... (काफी राय आधारित क्यूए) – eliasah

बस उदाहरण के लिए , क्या होगा यदि मैं कई लाख प्रविष्टियों के साथ मैट्रिक्स पर एएलएस कारककरण या एसवीडी को प्रशिक्षित करने जा रहा हूं? – shihpeng

आपका डेटा किस आकार का है? गीगाबाइट्स में? – eliasah

आम तौर पर यह आपके उपयोग के मामले, जरूरतों आदि पर निर्भर करता है ... लेकिन मैं आपके द्वारा साझा की गई जानकारी पर विचार करने के लिए न्यूनतम कॉन्फ़िगरेशन का सुझाव दे सकता हूं।

आप डेटा के 2 ~ 4 GB का बीच मैट्रिक्स पर एक ALS गुणन या SVD प्रशिक्षित करने के लिए कोशिश कर रहे हैं। तो वास्तव में यह बहुत अधिक डेटा नहीं है।

आपको एक छोटे वितरित क्लस्टर को सेटअप और कॉन्फ़िगर करने के लिए कम से कम 1 मास्टर और 2 नोड्स की आवश्यकता होगी। मास्टर किसी भी कंप्यूटिंग को नहीं कर पाएगा, इसलिए उसे अधिक संसाधनों की आवश्यकता नहीं होगी, लेकिन निश्चित रूप से मैं कार्य शेड्यूलिंग आदि से निपट रहा हूं,

आप अपनी आवश्यकताओं के अनुसार दास (उदाहरण) जोड़ सकते हैं।

1 x master : m3.xlarge - vCPU : 4 , RAM : 15 GB and 2 x 40 GB SSDs 
2 x slaves : c3.4xlarge - vCPU : 16, RAM : 30 GB and 2 x 160GB SSDs.

सी 3 और सी 4 गणना उच्च प्रदर्शन प्रोसेसर की विशेषता उदाहरणों अनुकूलित कर रहे हैं और हालांकि यह उपयोग के मामलों अनुशंसा की जाती है R3 की तुलना में EC2 में सबसे कम कीमत/गणना प्रदर्शन के साथ स्मृति कैश वितरित किया गया और इन-स्मृति एनालिटिक्स कर रहे हैं। लेकिन सी 4 कम कीमत के लिए आपके लिए नौकरी करेगा।

प्रदर्शन अनुकूलन:

प्रति घंटा वेतन वृद्धि पर अमेज़न ईएमआर शुल्क नहीं। इसका मतलब है कि जब आप क्लस्टर चलाते हैं, तो आप पूरे घंटे के लिए भुगतान कर रहे हैं। यह याद रखना महत्वपूर्ण है क्योंकि यदि आप अमेज़ॅन ईएमआर क्लस्टर के पूर्ण घंटे के लिए भुगतान कर रहे हैं, तो मिनटों के मामले में आपके डेटा प्रोसेसिंग समय में सुधार करना आपके समय और प्रयास के लायक नहीं हो सकता है।

यह न भूलें कि प्रदर्शन बढ़ाने के लिए और नोड जोड़ने से आपके क्लस्टर को अनुकूलित करने में समय व्यतीत करना सस्ता है।

संदर्भ: Amazon EMR Best Practices - Parviz Deyhim।

संपादित करें: आप भी अपने क्लस्टर संसाधनों की निगरानी के लिए Ganglia सक्षम करना चाहेंगे: सीपीयू, रैम, नेटवर्क I/O। यह आपको अपने ईएमआर क्लस्टर को ट्यून करने में भी मदद करेगा। व्यावहारिक रूप से, आपके पास करने के लिए कोई विन्यास नहीं है। सृजन पर अपने ईएमआर क्लस्टर में जोड़ने के लिए बस documentation का पालन करें।

स्रोत

2015-05-25 17:11:53 eliasah

आम तौर पर पसंद उदाहरण बोल काम आप चल रहे हैं पर निर्भर करता है लेकिन स्पार्क बहुत स्मृति-गहन है और मैं सबसे नौकरियों के लिए 30GB से भी कम समय के साथ मशीनों का उपयोग नहीं होता है (यह स्मृति गहन? यह सीपीयू गहन है? आदि है) ।

अपने विशेष मामले (4 जीबी डेटासेट) में मुझे यकीन नहीं है कि आप वितरित कंप्यूटिंग का उपयोग क्यों शुरू करना चाहते हैं- इससे आपकी नौकरी धीमी हो जाएगी।यदि आप सुनिश्चित हैं कि आप स्पा को स्थानीय थ्रेड में एक्स थ्रेड के साथ चलाते हैं (आपके पास कितने कोर हैं)

स्रोत

2015-05-25 17:16:43

मैं आपसे सहमत हूं और इसलिए मैंने न्यूनतम conf क्यों कहा। :) – eliasah

न्यूनतम conf का उपयोग ईएमआर का उपयोग नहीं करना है - बस एक उदाहरण प्राप्त करें (यहां तक कि एक स्पॉट इंस्टेंस) स्पार्क डाउनलोड करें और इसे स्थानीय मोड में चलाएं –

ईएमआर के लिए न्यूनतम conf, सवाल मुझे लगता है कि ईएमआर पर स्पार्क के बारे में था। आपका दिन शुभ हो! वास्तव में – eliasah

स्पार्क - एडब्ल्यूएस ईएमआर क्लस्टर के लिए किस इंस्टेंस प्रकार को प्राथमिकता दी जाती है?

उत्तर

संबंधित मुद्दे