2009-09-11 14 views
20

किसी उपलब्ध विभिन्न Hadoop वितरण के बीच विभिन्न अंतर की रूपरेखा तैयार कर सकते हैं:Hadoop वितरण मतभेद

अपाचे Hadoop distro के रूप में प्रयोग एक आधार रेखा।

क्या मानक अपाचे हैडोप डिस्ट्रो पर इन वितरणों में से किसी एक का उपयोग करने के लिए अच्छा कारण है?

उत्तर

14

अस्वीकरण: मैं क्लाउडेरा पर इस गर्मी में प्रशिक्षु (लेकिन मेरे सबसे अच्छे दोस्त के कुछ याहू! :-) पर कर रहे हैं)

याहू वितरण कुछ सबसेट पर है कि वे चलाने Hadoop 20 का एक संस्करण (गया?) है उनके क्लस्टर के। इसमें स्थिरता, बग फिक्स इत्यादि के लिए पैच का एक सेट शामिल है। यह एक स्रोत रिलीज है; इसमें आरपीएम या डेबियन पैकेज आदि जैसे व्यवस्थापक-अनुकूल विशेषताएं नहीं हैं।

क्लौडेरा वितरण आरपीएमएस और डीबीएस (स्रोत भी उपलब्ध है) के रूप में संकुल है। इसका मतलब है कि आप मानक तरीकों, आदि के माध्यम से अपडेट प्राप्त कर सकते हैं। इसमें स्थिरता और बग फिक्स पैच भी शामिल हैं। यह लगातार बनाए रखा जाता है (यह नहीं कहने के लिए याहू का नहीं है - मुझे लगता है कि कोई सिर्फ गिटूब पर जा सकता है और जांच कर सकता है कि आखिरकार इसे अपडेट किया गया था)। यह पिग और हाइव पैकेज भी करता है।

क्लौडेरा का हडोप 20 का वितरण बीटा में है, और 18 को स्थिर माना जाता है (Cloudera blog पर इस पर अधिक)। 18 संस्करण में हाइव और पिग के लिए पैकेज भी शामिल हैं; 20 के लिए, आपको उन्हें स्वयं बनाना होगा (पिग या हाइव की आधिकारिक रिलीज नहीं है जो अभी तक 20 का समर्थन करती हैं, हालांकि पैच मौजूद हैं)। 20 के क्लौडेरा और याहू संस्करणों के बीच महत्वपूर्ण ओवरलैप हो सकता है; दोनों प्रकट होते हैं, ताकि आप जांच सकें। क्लौडेरा के डिस्ट्रोज़ का नवीनतम दस्तावेज http://archive.cloudera.com

याहू उनके वितरण के लिए समर्थन प्रदान नहीं करता है; वे समुदाय के लिए एक सेवा के रूप में अपने पैच किए गए संस्करण प्रदान करते हैं, इसलिए रुचि रखने वाले लोग आंतरिक रूप से याहू चलाते हैं। याहू क्लस्टर के आकार को देखते हुए, यह एक महत्वपूर्ण योगदान है, खासकर यदि आप एक हडोप डेवलपर नहीं हैं जो हर समय जेआईआरए का पालन करता है। क्लौडेरा वाणिज्यिक रूप से उनके वितरण का समर्थन करता है, साथ ही साथ हडोप मेलिंग सूचियों के माध्यम से कुछ समुदाय समर्थन प्रदान करता है और, दूरस्थ-विशिष्ट मुद्दों के लिए, उनके GetSatisfaction पृष्ठ पर।

दोनों वेनिला अपाचे डिस्ट्रो से काफी अलग हैं क्योंकि वे इसे रिलीज़ के बीच में पैच करते हैं (20 के क्लौडेरा संस्करण में 60+ पैच हैं!)।

+0

हॉर्टनवर्क्स याहू से बाहर हो गया है और अब हडोप के लिए समर्थन प्रदान कर रहा है। –

0

स्क्वायरकॉग लगभग सभी बिंदुओं पर सही है: याहू! वितरण याहू में सभी उत्पादन समूहों पर चल रहा है, न कि उनमें से एक सबसेट। यह कुल में 25,000 से अधिक मशीनें हैं। याहू! वितरण में विश्वसनीय, सतत संचालन सुनिश्चित करने के लिए आवश्यक व्यापक, अंत तक परीक्षण किया गया है। अन्य वितरण पैच लगाने के बारे में अधिक उदार है और इसलिए इसमें अधिक सुविधाएं हो सकती हैं, लेकिन व्यापक रूप से परीक्षण नहीं की गई है।

4

याहू ने अपने स्वयं के वितरण को बंद कर दिया है और अपाचे हैडोप पर ध्यान केंद्रित किया है।

http://developer.yahoo.com/blogs/hadoop/posts/2011/01/announcement-yahoo-focusing-on-apache-hadoop-discontinuing-the-yahoo-distribution-of-hadoop/

http://www.cloudera.com/blog/2011/02/some-news-related-to-the-apache-hadoop-project/

हाल ही में, HortonWorks (www.hortonworks.com) याहू से बाहर काता गया था। और अब हॉर्टनवर्क्स भी याहू के विपरीत समर्थन प्रदान करेगा।

http://www.hortonworks.com/about-us/our-manifesto/

क्लाउडेरा रूप HortonWorks

http://www.cloudera.com/products-services/

मुख्य अंतर यह है HortonWorks अपाचे वितरण, स्थिर स्थापित करने के लिए आसान और दूसरों बनाना चाहता है उसी तर्ज पर है। जबकि, क्लौडेरा के पास अपाचे हैडोप के आधार पर इसका स्वयं का वितरण सीडीएच * है।

1

अपाचे हैडोप के बजाय क्लौडेरा, हॉर्टोनवर्क या मैपआर जैसे हाडोप वितरण को चुनने के विभिन्न कारण हैं। उपकरण समर्थन और वाणिज्यिक सहायता के दो बड़े फायदे हैं। आपको सही और संगत संस्करणों में पिग, हाइव इत्यादि जैसे सभी हडोप ढांचे "एकत्रित और एकीकृत" में भी बहुत परेशानी होती है।

इन्फोक्यू पर मेरे आलेख पर एक नज़र डालें। यह बड़ा डेटा सुइट्स अपाचे Hadoop के बीच मतभेद, Hadoop वितरण और बताते हैं, और जब उपयोग करने के लिए जो एक:

http://www.infoq.com/articles/BigDataPlatform

सादर,

काई Wähner (@KaiWaehner, www.kai-waehner.de/ब्लॉग)