में pyspark लिखें और चलाएं मैं IntelliJ में Pyspark के साथ काम करने की कोशिश कर रहा हूं लेकिन मैं यह नहीं समझ सकता कि इसे सही तरीके से इंस्टॉल/सेटअप कैसे करें। मैं इंटेलिजे में पायथन के साथ काम कर सकता हूं और मैं पाइस्पार्क खोल का उपयोग कर सकता हूं लेकिन मैं इंटेलिजे को स्पार्क फाइलों को कैसे ढूंढ सकता हूं ("आयात त्रुटि: आयातक कोई मॉड्यूल नहीं है") में पाइस्पर्क परिणाम आयात करें।IntelliJ IDEA
स्पार्क को शामिल/आयात करने के तरीके पर कोई युक्तियां ताकि इंटेलिजे इसके साथ काम कर सके, की सराहना की जा सके।
धन्यवाद।
अद्यतन:
मैं कोड के इस टुकड़े की कोशिश की:
from pyspark import SparkContext, SparkConf
spark_conf = SparkConf().setAppName("scavenge some logs")
spark_context = SparkContext(conf=spark_conf)
address = "C:\test.txt"
log = spark_context.textFile(address)
my_result = log.filter(lambda x: 'foo' in x).saveAsTextFile('C:\my_result')
निम्न त्रुटि संदेश के साथ
:
Traceback (most recent call last):
File "C:/Users/U546816/IdeaProjects/sparktestC/.idea/sparktestfile", line 2, in <module>
spark_conf = SparkConf().setAppName("scavenge some logs")
File "C:\Users\U546816\Documents\Spark\lib\spark-assembly-1.3.1-hadoop2.4.0.jar\pyspark\conf.py", line 97, in __init__
File "C:\Users\U546816\Documents\Spark\lib\spark-assembly-1.3.1-hadoop2.4.0.jar\pyspark\context.py", line 221, in _ensure_initialized
File "C:\Users\U546816\Documents\Spark\lib\spark-assembly-1.3.1-hadoop2.4.0.jar\pyspark\java_gateway.py", line 35, in launch_gateway
File "C:\Python27\lib\os.py", line 425, in __getitem__
return self.data[key.upper()]
KeyError: 'SPARK_HOME'
Process finished with exit code 1
चर, PYTHONPATH और SPARK_HOME हैं अत्याचारी फ़ायरवॉल के पीछे हम में से उन लोगों के लिए। –
और SPARK_HOME में बिन, पायथन इत्यादि वाली निर्देशिका तक पथ शामिल होना चाहिए और पायथन तक नहीं। –