2016-09-09 26 views
7

साहा से Tez paper में एट अल, तेज़ साथ Hadoop 2 के निम्नलिखित मॉड्यूलर वास्तुकला दिखाया गया है:कोई Tez पर स्पार्क/फ्लिंक क्यों चलाएगा? ।

Hadoop 2 with Tez

क्यों किसी तेज़ पर चलाना शामिल है स्पार्क/Flink?

फायदे क्या हैं? यार्न का बेहतर उपयोग?

+0

क्या आपने सीधे लेखकों से संपर्क करने का प्रयास किया है? –

उत्तर

0

यदि मैं सही ढंग से समझता हूं, तो टीज़ पर स्पार्क चलाना सैद्धांतिक रूप से बेहतर डीएजी बेहतर हो सकता है। उदाहरण के लिए मशीन लर्निंग पुनरावृत्तियों पर लागू किया जा सकता है।

प्रासंगिक अनुच्छेद नीचे प्रस्तुत किया गया है।

हम एक तेज़ DAG में बाद के संकलन स्पार्क DAG सांकेतिक शब्दों में बदलना और एक यार्न क्लस्टर कि था स्पार्क इंजन सेवा नहीं चल में सफलतापूर्वक इसे चलाने के लिए सक्षम थे। उपयोगकर्ता परिभाषित स्पार्क कोड एक Tez प्रोसेसर पेलोड में क्रमबद्ध है और एक सामान्य स्पार्क प्रोसेसर में इंजेक्शन दिया गया है जो उपयोगकर्ता कोड को deserializes और निष्पादित करता है। यह स्पार्क के अपने रनटाइम ऑपरेटरों का उपयोग करके अनमोडिफाइड स्पार्क प्रोग्राम को YARN पर चलाने की अनुमति देता है ... Tez सत्र स्पार्क मशीन सीखने के पुनरावृत्तियों को सक्षम बनाता है प्रति-पुनरावृत्ति DAGs को साझा Tez सत्र में कुशलता से चलाने के लिए सक्षम बनाता है। यह काम एक प्रयोगात्मक प्रोटोटाइप और स्पार्क परियोजना

कहा जा रहा है का हिस्सा नहीं है, ऐसा लगता है कि इस संयोजन एक प्रयोगात्मक सेटिंग से बाहर के लिए लागू किया गया कभी नहीं किया है, तो भले ही उपकरणों के साथ तेज़ के संयोजन के लिए सभ्य कारण हैं स्पार्क की तरह, यह इस बिंदु पर किसी भी परियोजना की मदद नहीं करेगा।

इसके अलावा, मेरी व्यक्तिगत उम्मीद यह है कि जब तक आपके पास बहुत विशिष्ट वर्कलोड नहीं होते हैं, तो मुझे आश्चर्य होगा कि यदि टीज़ डीएजी सामान्य स्पार्क डीएजी से काफी बेहतर प्रदर्शन करता है।

संबंधित मुद्दे