मैं एक pyspark कार्यक्रम शुरू कर रहा हूँ जार जोड़ेpyspark स्वसंपूर्ण को
from pyspark import SparkContext, SparkConf
SparkConf().setAppName("Example").setMaster("local[2]")
sc = SparkContext(conf=conf)
मैं कैसे इस तरह के Databricks सीएसवी जार के रूप में जार निर्भरता कैसे जोड़ूँ? कमांड लाइन का उपयोग करना, मैं इस तरह पैकेज जोड़ सकते हैं:
$ pyspark/spark-submit --packages com.databricks:spark-csv_2.10:1.3.0
लेकिन मैं इनमें से किसी भी प्रयोग नहीं कर रहा हूँ। कार्यक्रम एक बीर कार्यप्रवाह का उपयोग नहीं कर रहा है चिंगारी के लिये भेज मैं अपने ./foo.py कार्यक्रम चलाने के लिए सक्षम होना चाहिए का हिस्सा है और यह सिर्फ काम करना चाहिए।
- मुझे पता है कि आप अतिरिक्त क्लासपाथ के लिए स्पार्क गुण सेट कर सकते हैं लेकिन आपको प्रत्येक नोड में जेएआर फाइलों की प्रतिलिपि बनाना है?
- की कोशिश की conf.set ("spark.jars", "jar1, jar2") है कि एक py4j CNF अपवाद
यह समाधान कम से कम नोटबुक के भीतर मेरे लिए काम नहीं करता है; मुझे अभी भी क्लास-नहीं मिली त्रुटियां मिलती हैं। वास्तव में, स्पार्क द्वारा उठाए गए पर्यावरण चरों में से कोई भी नहीं उठाया जाता है। ऐसा लगता है कि 'os.environ' केवल उस प्रक्रिया के लिए पर्यावरण सेट करता है जिसमें पाइथन कर्नेल चल रहा है, लेकिन कोई भी उपप्रोसेस उन पर्यावरण चर को नहीं उठाता है। दूसरे शब्दों में, यह 'निर्यात ... के बराबर नहीं कर रहा है। कोई विचार? – santon
'subprocess.Popen' 'env' तर्क लेता है जहां आप वर्तमान वातावरण की एक प्रति पास कर सकते हैं। – zero323