2015-11-02 13 views
5

में pyspark लिखें और चलाएं मैं IntelliJ में Pyspark के साथ काम करने की कोशिश कर रहा हूं लेकिन मैं यह नहीं समझ सकता कि इसे सही तरीके से इंस्टॉल/सेटअप कैसे करें। मैं इंटेलिजे में पायथन के साथ काम कर सकता हूं और मैं पाइस्पार्क खोल का उपयोग कर सकता हूं लेकिन मैं इंटेलिजे को स्पार्क फाइलों को कैसे ढूंढ सकता हूं ("आयात त्रुटि: आयातक कोई मॉड्यूल नहीं है") में पाइस्पर्क परिणाम आयात करें।IntelliJ IDEA

स्पार्क को शामिल/आयात करने के तरीके पर कोई युक्तियां ताकि इंटेलिजे इसके साथ काम कर सके, की सराहना की जा सके।

धन्यवाद।

अद्यतन:

मैं कोड के इस टुकड़े की कोशिश की:

from pyspark import SparkContext, SparkConf 
spark_conf = SparkConf().setAppName("scavenge some logs") 
spark_context = SparkContext(conf=spark_conf) 
address = "C:\test.txt" 
log = spark_context.textFile(address) 

my_result = log.filter(lambda x: 'foo' in x).saveAsTextFile('C:\my_result') 
निम्न त्रुटि संदेश के साथ

:

Traceback (most recent call last): 
File "C:/Users/U546816/IdeaProjects/sparktestC/.idea/sparktestfile", line 2, in <module> 
spark_conf = SparkConf().setAppName("scavenge some logs") 
File "C:\Users\U546816\Documents\Spark\lib\spark-assembly-1.3.1-hadoop2.4.0.jar\pyspark\conf.py", line 97, in __init__ 
File "C:\Users\U546816\Documents\Spark\lib\spark-assembly-1.3.1-hadoop2.4.0.jar\pyspark\context.py", line 221, in _ensure_initialized 
File "C:\Users\U546816\Documents\Spark\lib\spark-assembly-1.3.1-hadoop2.4.0.jar\pyspark\java_gateway.py", line 35, in launch_gateway 

File "C:\Python27\lib\os.py", line 425, in __getitem__ 
return self.data[key.upper()] 
KeyError: 'SPARK_HOME' 

Process finished with exit code 1 

उत्तर

3

सेट आपके कार्यक्रम में/कॉन्फ़िगरेशन चलाने/डीबग के लिए env पथ (SPARK_HOME और PYTHONPATH)।

उदाहरण के लिए:

SPARK_HOME=/Users/<username>/javalibs/spark-1.5.0-bin-hadoop2.4/python/ 
PYTHON_PATH=/Users/<username>/javalibs/spark-1.5.0-bin-hadoop2.4/python/pyspark 

देखें IntelliJ विचार में संलग्न स्नैपशॉट

Run/Debug configuration for PySpark

+0

चर, PYTHONPATH और SPARK_HOME हैं अत्याचारी फ़ायरवॉल के पीछे हम में से उन लोगों के लिए। –

+0

और SPARK_HOME में बिन, पायथन इत्यादि वाली निर्देशिका तक पथ शामिल होना चाहिए और पायथन तक नहीं। –

1

उदाहरण के लिए, इस तरह के कुछ:

from pyspark import SparkContext, SparkConf 
spark_conf = SparkConf().setAppName("scavenge some logs") 
spark_context = SparkContext(conf=spark_conf) 
address = "/path/to/the/log/on/hdfs/*.gz" 
log = spark_context.textFile(address) 

my_result = (log. 

...here go your actions and transformations... 

).saveAsTextFile('my_result')