2017-09-26 14 views
7

मैं एक ईटीएल डेटा वेयर हाउस समाधान को लागू करने के लिए Google डेटा प्रवाह का उपयोग कर रहा हूं।Google क्लाउड डेटाफ़्लो और Google क्लाउड डेटाप्रोक के बीच क्या अंतर है?

Google क्लाउड ऑफरिंग में देखकर, ऐसा लगता है कि डेटाप्रोक भी वही काम कर सकता है।

ऐसा लगता है कि DataProc डेटाफ्लो से थोड़ा सस्ता है।

किसी को भी पेशेवरों/DataProc

से अधिक dataflow के विपक्ष को पता क्यों गूगल दोनों की पेशकश करता है?

उत्तर

1

समान कारण है कि डेटाप्रोक हडोप और स्पार्क दोनों प्रदान करता है: कभी-कभी एक प्रोग्रामिंग मॉडल नौकरी के लिए सबसे अच्छा फिट होता है, कभी-कभी दूसरा। इसी प्रकार, कुछ मामलों में नौकरी के लिए सबसे अच्छा फिट डेटाफ्लो द्वारा पेश अपाचे बीम प्रोग्रामिंग मॉडल है।

कई मामलों में, एक बड़ा विचार यह है कि किसी के पास पहले से ही एक विशेष ढांचे के खिलाफ एक कोडबेस लिखा गया है, और कोई भी इसे Google क्लाउड पर तैनात करना चाहता है, भले ही, कहें, बीम प्रोग्रामिंग मॉडल हैडोप से बेहतर है , डेटाफ्लो पर चलाने के लिए बीम पर अपने कोड को फिर से लिखने के बजाय, कई हडोप कोड वाले किसी भी व्यक्ति को अभी भी डेटाप्रोक का चयन करना पड़ सकता है।

स्पार्क और बीम प्रोग्रामिंग मॉडल के बीच अंतर काफी बड़े हैं, और बहुत सारे उपयोग मामले हैं जहां प्रत्येक के दूसरे पर एक बड़ा फायदा होता है। https://cloud.google.com/dataflow/blog/dataflow-beam-and-spark-comparison देखें।

8

हां, क्लाउड डेटाफ्लो और क्लाउड डेटाप्रोक दोनों का उपयोग ईटीएल डेटा वेयरहाउसिंग समाधानों को लागू करने के लिए किया जा सकता है।

की क्यों इन उत्पादों में से प्रत्येक के लिए मौजूद एक सिंहावलोकन गूगल Cloud Platform Big Data Solutions Articles

त्वरित टेकअवे में पाया जा सकता है:

  • बादल Dataproc, एक Hadoop क्लस्टर प्रदान जीसीपी पर, और Hadoop- के लिए उपयोग पारिस्थितिक तंत्र उपकरण (जैसे अपाचे पिग, हाइव, और स्पार्क); यदि आप पहले से ही हैडोप टूल्स से परिचित हैं और हडोप नौकरियां
  • क्लाउड डेटाफ्लो आपको जीसीपी पर Apache Beam आधारित नौकरियों को चलाने के लिए एक जगह प्रदान करता है, और आपको क्लस्टर पर चल रही नौकरियों के सामान्य पहलुओं को संबोधित करने की आवश्यकता नहीं है (उदाहरण के लिए काम संतुलन, या एक नौकरी के लिए श्रमिकों की संख्या स्केलिंग; डिफ़ॉल्ट रूप से, यह स्वचालित रूप से प्रबंधित किया जाता है, और दोनों बैच और स्ट्रीमिंग के लिए लागू होता है) - यह बहुत समय अन्य सिस्टम पर लग सकता है
    • अपाचे बीम एक महत्वपूर्ण विचार है; बीम नौकरियों का उद्देश्य "धावक" में पोर्टेबल होना है, जिसमें क्लाउड डेटाफ्लो शामिल है, और आपको "रनर" कैसे काम करता है, इसके बजाय आपको अपने लॉजिकल गणना पर ध्यान केंद्रित करने में सक्षम बनाता है - तुलनात्मक रूप से, जब स्पार्क नौकरी को संलेखित करते हैं, तो आपका कोड बाध्य होता है धावक, स्पार्क, और कैसे है कि धावक काम करता है के लिए
    • बादल Dataflow भी "टेम्पलेट्स," जो सामान्य कार्यों जहां मतभेद पैरामीटर मान
हैं आसान बनाने में मदद कर सकते हैं के आधार पर रोजगार के अवसर पैदा करने की क्षमता प्रदान करता है
संबंधित मुद्दे