पर प्रसंस्करण प्रसंस्करण प्रसंस्करण किया है। मेरे पास संसाधन प्रबंधक के रूप में यार्न का उपयोग करके क्लॉडर सीडीएच 5.3 क्लस्टर पर स्पार्क चल रहा है। मैं पाइथन (पायस्पार्क) में स्पार्क ऐप्स विकसित कर रहा हूं।पीईएसपार्क ने एक यार्न क्लस्टर
मैं नौकरियां जमा कर सकता हूं और वे सफलतापूर्वक दौड़ते हैं, हालांकि वे कभी भी एक से अधिक मशीन (स्थानीय मशीन I से सबमिट नहीं) पर चलते हैं।
मैंने विभिन्न विकल्पों की कोशिश की है, जैसे कि क्लस्टर के लिए तैनाती मोड और यार्न-क्लाइंट और यार्न-क्लस्टर के लिए - अभी तक यह एक से अधिक सर्वर पर नहीं चल रहा है।
मैं इसे --मास्टर स्थानीय [8] जैसे कुछ पास करके एक से अधिक कोर पर चलाने के लिए प्राप्त कर सकता हूं, लेकिन यह स्पष्ट रूप से एकाधिक नोड्स पर प्रसंस्करण को वितरित नहीं करता है।
मैं बहुत तरह HDFS से एक बहुत ही बस पायथॉन लिपि डाटा प्रोसेसिंग है:
import simplejson as json
from pyspark import SparkContext
sc = SparkContext("", "Joe Counter")
rrd = sc.textFile("hdfs:///tmp/twitter/json/data/")
data = rrd.map(lambda line: json.loads(line))
joes = data.filter(lambda tweet: "Joe" in tweet.get("text",""))
print joes.count()
और मैं की तरह एक आदेश प्रस्तुत चला रहा हूँ:
spark-submit atest.py --deploy-mode client --master yarn-client
क्या मैं नौकरी रन सुनिश्चित करने के लिए क्या कर सकते हैं क्लस्टर में समानांतर में?
मुझे लगता है कि यह सच नहीं है, Pyspark एक यार्न क्लस्टर पर चला सकते हैं। –
यदि आप Pyspark चलाने के लिए चाहते हैं। आज़माएं: pyspark --deploy-mode क्लाइंट --मास्टर यार्न-क्लाइंट – kennyut