2015-01-06 8 views
15

मैं समांतर कंप्यूटिंग के लिए नया हूं और अमेज़ॅन एडब्ल्यूएस पर एमपीआई और हाडोप + मैपराइडस को आजमाने की कोशिश कर रहा हूं। लेकिन मैं उलझन में हूं कि दूसरे पर एक का उपयोग कब किया जाए।हैडोप मैपराइडस बनाम एमपीआई (बनाम स्पार्क बनाम महौत बनाम मेसोस) - एक दूसरे पर एक का उपयोग कब करें?

उदाहरण के लिए, अंगूठे सलाह मैं देख रहा हूँ के रूप में संक्षेप किया जा सकता है में से एक आम नियम ...

  • बिग डेटा, गैर पुनरावृत्ति, दोष सहिष्णु => MapReduce
  • स्पीड, छोटे डेटा, पुनरावृत्ति, गैर मैपर-प्रसारण प्रकार => एमपीआई

लेकिन फिर भी, मैं भी एमपीआई पर MapReduce के कार्यान्वयन (MR-MPI) को देखने के जो दोष सहिष्णुता लेकिन seems to be MapReduce Hadoop पर की तुलना में कुछ मानक के बारे में अधिक कुशल प्रदान नहीं करता है, और लगता है बड़े डी संभाल लें आउट-ऑफ-कोर मेमोरी का उपयोग कर एटीए।

इसके विपरीत, एमपीआईआई कार्यान्वयन (MPICH2-YARN) भी नई पीढ़ी हैडोप यार्न पर वितरित फ़ाइल सिस्टम (एचडीएफएस) के साथ हैं।

के अलावा, वहाँ एमपीआई के भीतर प्रावधानों (स्कैटर-एकत्र करें, Checkpoint-Restart, ULFM और अन्य fault tolerance) कि MapReduce प्रतिमान के कई विशेषताओं की नकल हो रहा है।

और महाउट, मेसोस और स्पार्क इस सब में कैसे फिट होते हैं?

हैडोप मैपराइडस, एमपीआई, मेसोस, स्पार्क और महौत के बीच (या कॉम्बो) के बीच निर्णय लेने के दौरान कौन से मानदंडों का उपयोग किया जा सकता है?

+2

http://stackoverflow.com/questions/1530490/what-are-some-scenarios-for-which-mpi-is-a-better-fit-than-mapreduce?rq=1 की संभावित डुप्लिकेट? –

+2

मैंने अपनी पोस्टिंग से पहले q और a पढ़ा था। वहां, आप देखेंगे कि प्रत्येक उत्तर पोस्ट के लिए, ऐसी टिप्पणियां हैं जो कहती हैं कि उत्तर सटीक नहीं है। उदाहरण के लिए, पहला जवाब लें। MapReduce पर सीमित एलिमेंट कार्यान्वयन हैं [1] (http://milindb.tumblr.com/post/8782567841/mapreduce-pregel-and-fem-framework), [2] (http://ieeexplore.ieee.org/ XPL/login.jsp? tp = & arnumber = 6188175 & url = http% 3A% 2F% 2Fieeexplore.ieee.org% 2Fxpls% 2Fabs_all.jsp% 3Farnumber% 3D6188175)। – crackjack

+0

जब मैंने यह प्रश्न पूछा था, तो मैं कुछ और विकल्पों (भ्रम में जोड़ने के लिए) आया - जैसे अक्का, जो मैपरेडस जैसे "स्पष्ट रूप से समानांतर" परिदृश्य तक ही सीमित नहीं है, जबकि गलती सहनशील भी है और इसके लिए बाइंडिंग है इंफिनिबैंड (टीसीपी) इत्यादि। – crackjack

उत्तर

8

इस निर्णय के लिए अच्छे तकनीकी मानदंड हो सकते हैं लेकिन मैंने इसे प्रकाशित कुछ भी नहीं देखा है। ऐसा लगता है कि एक सांस्कृतिक विभाजन है जहां यह समझा जाता है कि मैपरेडस का उपयोग कॉर्पोरेट वातावरण में डेटा के माध्यम से निकलने के लिए किया जाता है जबकि वैज्ञानिक वर्कलोड एमपीआई का उपयोग करते हैं। यह नेटवर्क प्रदर्शन के लिए उन वर्कलोड की अंतर्निहित संवेदनशीलता के कारण हो सकता है। यहां कैसे पता लगाना है इसके बारे में कुछ विचार दिए गए हैं:

कई आधुनिक एमपीआई कार्यान्वयन कई नेटवर्क पर चल सकते हैं लेकिन इन्फिनिबैंड के लिए अत्यधिक अनुकूलित किए जाते हैं। MapReduce के लिए कैनोलिक उपयोग केस ईथरनेट के माध्यम से जुड़े "व्हाइट बॉक्स" कमोडिटी सिस्टम के समूह में प्रतीत होता है। "मैपरेडस इंफिनिबैंड" पर एक त्वरित खोज http://dl.acm.org/citation.cfm?id=2511027 की ओर ले जाती है जो बताती है कि मैपरेडस पर्यावरण में इन्फिनिबैंड का उपयोग अपेक्षाकृत नई बात है।

तो आप इन्फिनिबैंड के लिए अत्यधिक अनुकूलन वाली प्रणाली पर क्यों चलना चाहेंगे? यह ईथरनेट की तुलना में काफी महंगा है लेकिन उच्च नेटवर्क विवाद (रेफरी: http://www.hpcadvisorycouncil.com/pdf/IB_and_10GigE_in_HPC.pdf) के मामले में उच्च बैंडविड्थ, कम विलंबता और स्केल बेहतर है।

यदि आपके पास ऐसा कोई एप्लिकेशन है जो इन्फिनिबैंड के अनुकूलन के उन प्रभावों के प्रति संवेदनशील होगा जो पहले से ही कई एमपीआई पुस्तकालयों में पके हुए हैं, तो यह आपके लिए उपयोगी होगा। यदि आपका ऐप नेटवर्क प्रदर्शन के लिए अपेक्षाकृत असंवेदनशील है और कम्प्यूटेशंस पर अधिक समय बिताता है जिसके लिए प्रक्रियाओं के बीच संचार की आवश्यकता नहीं होती है, तो शायद मैपरेडस बेहतर विकल्प है।

यदि आपके पास बेंचमार्क चलाने का अवसर है, तो आप यह देखने के लिए जो भी सिस्टम उपलब्ध हैं, उस पर प्रक्षेपण कर सकते हैं यह देखने के लिए कि नेटवर्क प्रदर्शन में कितना सुधार होगा। अपने नेटवर्क को थ्रॉटलिंग करने का प्रयास करें: डाउनक्लॉक गीग 100 एमबीआईटी या इंफिनिबैंड क्यूडीआर को डीडीआर में, उदाहरण के लिए, परिणामों के माध्यम से एक रेखा खींचें और देखें कि एमपीआई द्वारा अनुकूलित एक तेज इंटरकनेक्ट की खरीद आपको वह जगह मिल जाएगी जहां आप जाना चाहते हैं।

6

लिंक आप एफईएम के बारे में पोस्ट MapReduce पर किया जा रहा: http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=6188175&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D6188175

एमपीआई उपयोग करता है। यह वास्तव में सार में कहता है। उन्होंने एमपीआई के प्रोग्रामिंग मॉडल (गैर-शर्मनाक समानांतर) को एचडीएफएस के साथ डेटा इलाके का फायदा उठाने के लिए डेटा को "मंच" करने के लिए जोड़ा।

हैडोप पूरी तरह से शर्मनाक समानांतर गणनाओं के लिए है। कुछ भी जिसके लिए प्रक्रियाओं को स्वयं व्यवस्थित करने और जटिल तरीकों से डेटा का आदान-प्रदान करने की आवश्यकता होती है, उसे हडोप के साथ बकवास प्रदर्शन मिलेगा। यह एक एल्गोरिदमिक जटिलता बिंदु दृश्य, और माप के दृष्टिकोण से भी प्रदर्शित किया जा सकता है।

संबंधित मुद्दे