2015-05-25 18 views
13

मैं ईएमआर स्पार्क क्लस्टर पर कुछ मशीन लर्निंग एल्गोरिदम चला रहा हूं। मैं उत्सुक हूं कि किस तरह का उदाहरण उपयोग करना है ताकि मुझे इष्टतम लागत/प्रदर्शन लाभ मिल सके?स्पार्क - एडब्ल्यूएस ईएमआर क्लस्टर के लिए किस इंस्टेंस प्रकार को प्राथमिकता दी जाती है?

कीमतों के समान स्तर के लिए, मैं के बीच चयन कर सकते हैं:

  vCPU ECU Memory(GiB) 
m3.xlarge 4  13  15  
c4.xlarge 4  16  7.5 
r3.xlarge 4  13  30.5 

उदाहरण किस प्रकार के ईएमआर स्पार्क क्लस्टर में इस्तेमाल किया जाना चाहिए?

+0

यह आपके उपयोग के मामले, जरूरतों आदि पर निर्भर करता है ... (काफी राय आधारित क्यूए) – eliasah

+0

बस उदाहरण के लिए , क्या होगा यदि मैं कई लाख प्रविष्टियों के साथ मैट्रिक्स पर एएलएस कारककरण या एसवीडी को प्रशिक्षित करने जा रहा हूं? – shihpeng

+0

आपका डेटा किस आकार का है? गीगाबाइट्स में? – eliasah

उत्तर

12

आम तौर पर यह आपके उपयोग के मामले, जरूरतों आदि पर निर्भर करता है ... लेकिन मैं आपके द्वारा साझा की गई जानकारी पर विचार करने के लिए न्यूनतम कॉन्फ़िगरेशन का सुझाव दे सकता हूं।

आप डेटा के 2 ~ 4 GB का बीच मैट्रिक्स पर एक ALS गुणन या SVD प्रशिक्षित करने के लिए कोशिश कर रहे हैं। तो वास्तव में यह बहुत अधिक डेटा नहीं है।

आपको एक छोटे वितरित क्लस्टर को सेटअप और कॉन्फ़िगर करने के लिए कम से कम 1 मास्टर और 2 नोड्स की आवश्यकता होगी। मास्टर किसी भी कंप्यूटिंग को नहीं कर पाएगा, इसलिए उसे अधिक संसाधनों की आवश्यकता नहीं होगी, लेकिन निश्चित रूप से मैं कार्य शेड्यूलिंग आदि से निपट रहा हूं,

आप अपनी आवश्यकताओं के अनुसार दास (उदाहरण) जोड़ सकते हैं।

1 x master : m3.xlarge - vCPU : 4 , RAM : 15 GB and 2 x 40 GB SSDs 
2 x slaves : c3.4xlarge - vCPU : 16, RAM : 30 GB and 2 x 160GB SSDs. 

सी 3 और सी 4 गणना उच्च प्रदर्शन प्रोसेसर की विशेषता उदाहरणों अनुकूलित कर रहे हैं और हालांकि यह उपयोग के मामलों अनुशंसा की जाती है R3 की तुलना में EC2 में सबसे कम कीमत/गणना प्रदर्शन के साथ स्मृति कैश वितरित किया गया और इन-स्मृति एनालिटिक्स कर रहे हैं। लेकिन सी 4 कम कीमत के लिए आपके लिए नौकरी करेगा।

प्रदर्शन अनुकूलन:

  • प्रति घंटा वेतन वृद्धि पर अमेज़न ईएमआर शुल्क नहीं। इसका मतलब है कि जब आप क्लस्टर चलाते हैं, तो आप पूरे घंटे के लिए भुगतान कर रहे हैं। यह याद रखना महत्वपूर्ण है क्योंकि यदि आप अमेज़ॅन ईएमआर क्लस्टर के पूर्ण घंटे के लिए भुगतान कर रहे हैं, तो मिनटों के मामले में आपके डेटा प्रोसेसिंग समय में सुधार करना आपके समय और प्रयास के लायक नहीं हो सकता है।

  • यह न भूलें कि प्रदर्शन बढ़ाने के लिए और नोड जोड़ने से आपके क्लस्टर को अनुकूलित करने में समय व्यतीत करना सस्ता है।

संदर्भ: Amazon EMR Best Practices - Parviz Deyhim

संपादित करें: आप भी अपने क्लस्टर संसाधनों की निगरानी के लिए Ganglia सक्षम करना चाहेंगे: सीपीयू, रैम, नेटवर्क I/O। यह आपको अपने ईएमआर क्लस्टर को ट्यून करने में भी मदद करेगा। व्यावहारिक रूप से, आपके पास करने के लिए कोई विन्यास नहीं है। सृजन पर अपने ईएमआर क्लस्टर में जोड़ने के लिए बस documentation का पालन करें।

2

आम तौर पर पसंद उदाहरण बोल काम आप चल रहे हैं पर निर्भर करता है लेकिन स्पार्क बहुत स्मृति-गहन है और मैं सबसे नौकरियों के लिए 30GB से भी कम समय के साथ मशीनों का उपयोग नहीं होता है (यह स्मृति गहन? यह सीपीयू गहन है? आदि है) ।

अपने विशेष मामले (4 जीबी डेटासेट) में मुझे यकीन नहीं है कि आप वितरित कंप्यूटिंग का उपयोग क्यों शुरू करना चाहते हैं- इससे आपकी नौकरी धीमी हो जाएगी।यदि आप सुनिश्चित हैं कि आप स्पा को स्थानीय थ्रेड में एक्स थ्रेड के साथ चलाते हैं (आपके पास कितने कोर हैं)

+0

मैं आपसे सहमत हूं और इसलिए मैंने न्यूनतम conf क्यों कहा। :) – eliasah

+0

न्यूनतम conf का उपयोग ईएमआर का उपयोग नहीं करना है - बस एक उदाहरण प्राप्त करें (यहां तक ​​कि एक स्पॉट इंस्टेंस) स्पार्क डाउनलोड करें और इसे स्थानीय मोड में चलाएं –

+0

ईएमआर के लिए न्यूनतम conf, सवाल मुझे लगता है कि ईएमआर पर स्पार्क के बारे में था। आपका दिन शुभ हो! वास्तव में – eliasah

संबंधित मुद्दे