2012-06-28 12 views
26

की तुलना में तूफान हाडोप से तुलना कैसे करता है? हडोप ओपन-सोर्स बड़े पैमाने पर बैच प्रोसेसिंग के लिए डिफैक्टो मानक प्रतीत होता है, क्या स्टॉर्म के पास हडूप पर कोई फायदे हैं? या वे पूरी तरह से अलग हैं?अपाचे तूफान हडोप

+4

साथ संक्षेप किया जा सकता है मैं कुल भावना बनाया सवाल लगता है और यह मेरे को समझने के लिए कैसे इस तरह के एक उपयोगी प्रश्न के रूप में गैर-रचनात्मक बंद हो गया मुश्किल है। सवाल सीधे था, तथ्यों, संदर्भों आदि की कोई आवश्यकता नहीं थी – mvallebr

उत्तर

37

आप अपनी राय क्यों नहीं देते हैं।

ट्विटर तूफान के रूप में वास्तविक समय Hadoop माना गया है। यह आसान खपत के लिए एक विपणन लेना है।

वे अधिशेष रूप से समान हैं क्योंकि दोनों वितरित अनुप्रयोग समाधान हैं। मास्टर/गुलाम, ज़ुकीपर आधारित समन्वय जैसे विशिष्ट वितरित आर्किटेक्चरल तत्वों के अलावा, मुझे तुलना में चट्टान से गिरती है।

ट्विटर डेटा के रूप में प्रसंस्करण के लिए एक पाइपलाइन की तरह है। पाइप वह है जो विभिन्न कंप्यूटिंग नोड्स को जोड़ता है जो डेटा प्राप्त करते हैं, गणना करते हैं और आउटपुट वितरित करते हैं। (वहां लिंगो स्पॉट्स और बोल्ट हैं) इस समानता को एक जटिल पाइपलाइन तारों में बढ़ाएं जिसे आवश्यक होने पर फिर से इंजीनियर किया जा सकता है और आपको ट्विटर तूफान मिल जाता है।

अखरोट खोल में यह डेटा को तब तक संसाधित करता है जब यह आता है। कोई विलंबता नहीं है।

हाडोप मुख्य रूप से एचडीएफएस के कारण इस संबंध में अलग कैसे है। यह वितरित भंडारण और सहिष्णुता के लिए कई पैमाने (डिस्क, मशीन, रैक इत्यादि)

एम/आर कम्प्यूटेशनल नौकरियों को वितरित करने के लिए एचडीएफएस पर डेटा स्थानीयकरण का लाभ उठाने के लिए बनाया गया है। साथ में, वे वास्तविक समय डेटा प्रोसेसिंग के लिए सुविधा प्रदान नहीं करते हैं। लेकिन जब आप बड़े डेटा को देख रहे हों तो यह हमेशा एक आवश्यकता नहीं है। (घास के मैदान में सुई)

संक्षेप में, ट्विटर तूफान एक वितरित वास्तविक समय डेटा प्रोसेसिंग समाधान है। मुझे नहीं लगता कि हमें उनकी तुलना करनी चाहिए। ट्विटर ने इसे बनाया क्योंकि इसे छोटी ट्वीट्स को संसाधित करने की सुविधा की आवश्यकता थी, लेकिन उनमें से हंसमुख संख्या और वास्तविक समय में।

देखें: HStreaming अगर आप कुछ बात

+6

+1, पूरी तरह से सहमत हैं। बस एक छोटा सा नोट: ट्विटर ने इसे नहीं बनाया, उन्होंने [अधिग्रहित] (http://engineering.twitter.com/2011/08/storm-is-coming-more-details-and-plans.html)। बैकटाइप ने इसे मूल रूप से बनाया। – johndodo

+1

@johndodo: धन्यवाद। मैं पूरी तरह से इसकी उत्पत्ति से अनजान था। – pyfunc

+0

बदलती टोपोलॉजी की पाइपलाइन के साथ अच्छा सादृश्य। – SChepurin

11

मूल रूप से इसकी तुलना करने के लिए बाध्य कर रहे हैं, उन दोनों को बड़ा डेटा का विश्लेषण करने के लिए उपयोग किया जाता है, लेकिन तूफान जबकि Hadoop बैच प्रोसेसिंग के लिए प्रयोग किया जाता है वास्तविक समय प्रसंस्करण के लिए प्रयोग किया जाता है। Click here

4

तुलना करने के लिए के बजाय, वे एक दूसरे को अब होने बैच + वास्तविक समय (छद्म वास्तविक समय) प्रसंस्करण के पूरक करने वाले हैं:

इस तूफान को एक बहुत अच्छा परिचय है कि मैंने पाया है। स्पार्क (http://spark.apache.org) जो बैच या के लिए एक एकीकृत एपीआई के साथ डेवलपर प्रदान करता है: Ted Dunning on Twitter's Storm

+0

क्या इस ट्विटर तूफान आर्किटेक्चर को विंडोज वातावरण में डुप्लिकेट किया जा सकता है? – vbNewbie

+1

बहुत ज्यादा सबकुछ डुप्लिकेट किया जा सकता है लेकिन मुझे संदेह है कि विंडोज़ में इसे लागू करने का कोई अर्थ होगा क्योंकि तूफान का उद्देश्य "वास्तविक समय" प्रसंस्करण के लिए है। – SChepurin

+0

"छद्म-वास्तविक समय" से आपका क्या मतलब है, कृपया विस्तार करें। – samthebest

3

मैं थोड़ी देर के लिए तूफान का उपयोग कर रहे हैं और अब मैं के लिए एक अद्भुत एक यह वास्तव में अच्छा प्रौद्योगिकी छोड़ने गया है - वहाँ एक इसी वीडियो प्रस्तुति है स्ट्रीमिंग प्रसंस्करण (माइक्रो बैच) के साथ ही मशीन लर्निंग और ग्राफ प्रोसेसिंग।

एक कोशिश के लायक है।

1

तूफान फास्ट डेटा (वास्तविक समय) & हैडोप बिग डेटा (डेटा के पूर्व-मौजूदा टन) के लिए है। तूफान बड़े डेटा को संसाधित नहीं कर सकता है लेकिन यह आउटपुट के रूप में बड़ा डेटा उत्पन्न कर सकता है।

0

अपाचे तूफान एक नि: शुल्क और मुक्त स्रोत वितरित रीयलटाइम गणना प्रणाली है। तूफान ने डेटा के असंबद्ध धाराओं को विश्वसनीय रूप से संसाधित करना आसान बना दिया है, जो हैडोप ने बैच प्रोसेसिंग के लिए किया था।

कई उप प्रणालियों Hadoop पारिस्थितिकी तंत्र में मौजूद है के बाद से, हम व्यापार की आवश्यकताओं पर & एक विशेष प्रणाली की व्यवहार्यता के आधार सही उप प्रणाली चुना जाना है।

हाडोप मैपरेडस एक समय में एक नौकरी की बैच प्रोसेसिंग के लिए कुशल है। यही कारण है कि डेटा विश्लेषण टूल की बजाय डेटा वेयरहाउसिंग टूल के रूप में हैडोप का व्यापक रूप से उपयोग किया जा रहा है। वित्तीय सेवा, दूरसंचार, खुदरा, विनिर्माण, परिवहन -

के बाद से सवाल केवल करने के लिए "तूफान" बनाम "Hadoop" संबंधित है, Storm use cases पर एक नजर है।

  1. हैडोप मैपराइडस बैच प्रोसेसिंग के लिए सबसे उपयुक्त है।
  2. तूफान एक पूर्ण स्ट्रीम प्रसंस्करण इंजन है और इसका उपयोग उप-सेकंड में विलंबता के साथ वास्तविक समय डेटा विश्लेषण के लिए किया जा सकता है।

हडोप, तूफान और स्पार्क के बीच तुलना के लिए इस dezyre article पर एक नज़र डालें। यह समानताएं और अंतर बताता है।

यह नीचे चित्र (dezyre लेख से)

enter image description here

संबंधित मुद्दे