2014-05-07 12 views
49

एक ई-कॉमर्स वेबसाइट के लिए 10 लाख उत्पादों के साथ एक MySQL products डेटाबेस को ध्यान में रखते हुए।अपाचे महाउट और अपाचे स्पार्क के एमएलबीब के बीच क्या अंतर है?

मैं उत्पादों को वर्गीकृत करने के एक वर्गीकरण मॉड्यूल स्थापित करने के लिए कोशिश कर रहा हूँ। मैं MySQL से Hadoop तक डेटा आयात करने के लिए अपाचे स्क्वाप का उपयोग कर रहा हूं।

मैं इसे Classification algorithms है से एक का उपयोग करने के लिए एक मशीन लर्निंग ढांचे के रूप में इस पर महावत उपयोग करना चाहता था, और फिर मैं जो MLlib

  • तो दो चौखटे के बीच अंतर क्या है के साथ प्रदान की जाती है स्पार्क में भाग?
  • मुख्य रूप से, प्रत्येक के फायदे, नीचे-बिंदु और सीमाएं क्या हैं?

उत्तर

40

मुख्य अंतर यह अंतर्निहित चौखटे से आएगा। महौत के मामले में यह हैडोप मैपराइडस है और एमएलआईबी के मामले में यह स्पार्क है। अधिक विशिष्ट होना करने के लिए - प्रति नौकरी भूमि के ऊपर में अंतर से
अपने एमएल कलन विधि एकल एमआर काम करने के लिए मैप किया गया है - मुख्य अंतर केवल स्टार्टअप भूमि के ऊपर है, जो Hadoop एमआर के लिए सेकंड के दर्जनों है हो जाएगा, और कहते हैं कि 1 स्पार्क के लिए दूसरी करते हैं। तो मॉडल प्रशिक्षण के मामले में यह महत्वपूर्ण नहीं है।
यदि आपके एल्गोरिदम को कई नौकरियों में मैप किया गया है तो चीजें अलग-अलग होंगी। इस मामले में हम प्रतिरक्षा प्रति ओवरहेड पर एक ही अंतर करेंगे और यह गेम परिवर्तक हो सकता है।
आइए मान लें कि हमें 100 पुनरावृत्तियों की आवश्यकता है, प्रत्येक क्लस्टर सीपीयू के 5 सेकंड की आवश्यकता है।

  • स्पार्क पर: इसमें 100 * 5 + 100 * 1 सेकंड = 600 सेकंड लगेंगे।
  • हडोप पर: एमआर (महाउट) इसमें 100 * 5 + 100 * 30 = 3500 सेकेंड लगेगा।

उसी समय हडोप एमआर अधिक परिपक्व रूपरेखा है, तब स्पार्क और यदि आपके पास बहुत अधिक डेटा है, और स्थिरता सर्वोपरि है - मैं महाउट को गंभीर विकल्प मानता हूं।

+7

महाउट की भविष्य की रिलीज अप्रैल 2014 में घोषित मैपराइडस के बजाय स्पार्क का उपयोग भी करेगी। – herman

+3

जानना अच्छा है। लेकिन फिर एमएलआईबी के साथ क्या अंतर होगा? –

+0

फिर, अब महाउट स्पार्क पर आधारित है, महौत और स्पार्क के बीच क्या अंतर है? – skan

38

चेतावनी - प्रमुख संपादित करें:

MLlib उच्च स्तरीय एल्गोरिदम कि स्पार्क पर चलता है का एक ढीला संग्रह है। महोत्सव महोदया का महारानी था, जो हाडोप मैप्रिडस पर था। 2014 में महाउट ने घोषणा की कि यह अब हडोप मैप्रिडस कोड स्वीकार नहीं करेगा और स्पार्क में नए विकास को पूरी तरह से स्विच करेगा (अन्य इंजनों के साथ संभवतः ऑफिंग में, एच 2 ओ की तरह)।

इस से बाहर आने के लिए सबसे महत्वपूर्ण बात यह है कि एक स्काला आधारित सामान्यीकृत वितरित अनुकूलित रेखीय बीजगणित इंजन और एक इंटरैक्टिव स्काला खोल सहित माहौल है। शायद सबसे महत्वपूर्ण शब्द "सामान्यीकृत" है। चूंकि यह एमएलआईबीआईबी में उपलब्ध स्पार्क पर चलता है, इसलिए महौत-स्पार्क के रैखिक बीजगणित इंजन के साथ उपयोग किया जा सकता है।

आप एक सामान्य इंजन है कि क्या आर जैसे उपकरणों कर की, लेकिन वास्तव में बड़ा डेटा पर बहुत कुछ करना होगा, महावत को देखने की जरूरत है। यदि आपको एक विशिष्ट एल्गोरिदम की आवश्यकता है, तो प्रत्येक को यह देखने के लिए देखें कि उनके पास क्या है। उदाहरण के लिए केमैन एमएलआईबीबी में चलता है लेकिन यदि आपको एएए (अनुशंसाकर्ताओं में इस्तेमाल किए गए एक कॉकर्सेंस मैट्रिक्स) को क्लस्टर करने की आवश्यकता है तो आपको उन्हें दोनों की आवश्यकता होगी क्योंकि एमएलआईबीआईबी में मैट्रिक्स ट्रांसपोज़र या एएए नहीं है (वास्तव में महॉट एक पतली-अनुकूल है एए इसलिए ट्रांसपोज़र अनुकूलित किया गया है)।

महावत भी कुछ नवीन recommender building blocks की पेशकश कोई अन्य ओएसएस में पाया चीजें शामिल हैं।

महाउट के पास अभी भी इसके पुराने हडोप एल्गोरिदम हैं लेकिन स्पार्क जैसे तेज़ गणना इंजन आदर्श बन जाते हैं, अधिकांश लोग वहां निवेश करेंगे।

+1

फिर, अब महाउट स्पार्क पर आधारित है, महौत और स्पार्क के बीच क्या अंतर है? क्या स्पार्क धीरे-धीरे महाउट को प्रतिस्थापित करेगा? – skan

+2

पुराने हडूप मैप्रिडस आधारित महाउट - हाँ। लेकिन मुझे नहीं लगता कि अभी तक अज्ञात महाउट-स्पार्क डीएसएल, जो एक सामान्यीकृत बीजगणित सॉल्वर और पर्यावरण है, एमएलआईबीबी जैसा कुछ भी है। चूंकि यह स्पार्क पर चलता है और एमएलआईबीआईबी में कुछ भी उपयोग कर सकता है, यह उन सभी को फिर से लागू करने की कोशिश नहीं करता है, लेकिन आर जैसे सामान्य कुछ होने पर ध्यान केंद्रित करता है लेकिन विशाल डेटा सेट पर। – pferrel

+0

महौत ने खुद को फिर से शुरू किया और - जैसा कि पेपरेल द्वारा बताया गया - प्रासंगिक और दिलचस्प बन गया है। यह कुछ क्षेत्रों में mllib की तुलना में एक अधिक ठोस रैखिक बीजगणित underpinning है – javadba

संबंधित मुद्दे