में एक और RDD के आधार पर मैं केवल कर्मचारियों जो एक डिपामेंट आईडी दूसरी तालिका में संदर्भित है रखने के लिए करना चाहते हैं।फ़िल्टर स्पार्क
employee = [['Raffery',31], ['Jones',33], ['Heisenberg',33], ['Robinson',34], ['Smith',34]]
department = [31,33]
employee = sc.parallelize(employee)
department = sc.parallelize(department)
employee.filter(lambda e: e[1] in department).collect()
Py4JError: An error occurred while calling o344.__getnewargs__. Trace:
py4j.Py4JException: Method __getnewargs__([]) does not exist
कोई भी विचार:
Employee table
LastName DepartmentID
Rafferty 31
Jones 33
Heisenberg 33
Robinson 34
Smith 34
Department table
DepartmentID
31
33
मैं निम्नलिखित कोड है जो काम नहीं करता है की कोशिश की? मैं पाइथन के साथ स्पार्क 1.1.0 का उपयोग कर रहा हूं। हालांकि, मैं एक स्कैला या पायथन जवाब स्वीकार करता हूं।
आप एक होने के लिए अपने विभाग सूची की आवश्यकता है RDD? – maasg
वास्तव में नहीं। विभाग सूची एचडीएफएस से लोड की गई है लेकिन यह बहुत बड़ी नहीं है। – poiuytrez