मैं एक कठिन समय कुछ है कि लगता है को लागू करने की तरह यह बहुत आसान होना चाहिए हो रही है:प्रदर्शन देखने/का उपयोग कर एक स्पार्क RDD या डेटा फ्रेम में अनुवाद एक और RDD/df
मेरा लक्ष्य एक RDD में अनुवाद करने के लिए है एक लुकअप टेबल या अनुवाद शब्दकोश के रूप में एक दूसरे आरडीडी/डेटा फ्रेम का उपयोग कर डेटाफ्रेम। मैं इन अनुवादों को कई कॉलम में बनाना चाहता हूं।
समस्या की व्याख्या करने का सबसे आसान तरीका उदाहरण के अनुसार है।
Route SourceCityID DestinationCityID
A 1 2
B 1 3
C 2 1
और
CityID CityName
1 London
2 Paris
3 Tokyo
मेरे वांछित आउटपुट RDD है:
Route SourceCity DestinationCity
A London Paris
B London Tokyo
C Paris London
मैं इसे यह उत्पादन के बारे में कैसे जाना चाहिए चलो कहते हैं कि मैं अपने इनपुट के रूप में निम्नलिखित दो RDDs करते हैं?
यह एसक्यूएल में एक आसान समस्या है, लेकिन मुझे स्पार्क में आरडीडी के साथ स्पष्ट समाधानों की जानकारी नहीं है। , cogroup में शामिल हों, आदि विधियां मल्टी-कॉलम आरडीडी के लिए उपयुक्त नहीं हैं और यह निर्दिष्ट करने की अनुमति नहीं देते कि कौन से कॉलम में शामिल होना है।
कोई विचार? क्या SQLContext उत्तर है?
डेटाफ्रेम और स्पार्कएसक्यूएल का उपयोग करने से आप जो भी ढूंढ रहे हैं उसकी मदद करेंगे। यह मूल रूप से एक अलग वाक्यविन्यास के साथ एसक्यूएल है। – eliasah
टेबल/आरडीडी के आकार क्या हैं? क्या सिटीआईडी / सिटीनाम आरडीडी रूट आरडीडी से कई गुना छोटा है? उस स्थिति में मैं एक मानचित्र के रूप में आरडीडी के परिणाम एकत्रित करता हूं और इसे प्रसारित करता हूं, ताकि यह प्रत्येक कर्मचारी पर स्थानीय लुकअप हो। –