2015-03-04 10 views
12

में सह-विभाजित जुड़ाव स्पार्क एसक्यूएल डेटा स्रोतों का कोई कार्यान्वयन है जो सह-विभाजन में शामिल होते हैं - सबसे अधिक संभावना CoGroupRDD के माध्यम से? मुझे मौजूदा स्पार्क कोडबेस के भीतर कोई उपयोग नहीं दिख रहा था।स्पार्क एसक्यूएल

प्रेरणा बहुत मामले कि दो तालिकाओं एक ही नंबर और विभाजन चाबियों का एक ही वर्गों में फेरबदल यातायात को कम करने के लिए किया जाएगा: उस मामले में वहाँ एक MX1 के बजाय एक MXN फेरबदल फैनआउट होगा।

वर्तमान में स्पार्क एसक्यूएल में मिलती है की केवल बड़े पैमाने पर कार्यान्वयन ShuffledHashJoin हो रहा है - जो करता MXN फेरबदल फैनआउट की आवश्यकता होती है और इस तरह महंगा है।

उत्तर

4

मुझे लगता है कि आप Bucket Join optimization की तलाश कर रहे हैं जो स्पार्क 2.0 में आना चाहिए।

1.6 में आप कुछ समान कर सकते हैं, लेकिन केवल डेटा को कैश करके। SPARK-4849

+0

धन्यवाद माइकल। बाल्टी में शामिल होने के लिए तत्पर हैं। – javadba

संबंधित मुद्दे