पर पाइस्पार्क स्क्रिप्ट चल रहा है, मैं वर्तमान में स्पार्क्स प्री कॉन्फिगर किए गए ./ec2 निर्देशिका का उपयोग कर ईसी 2 के क्लस्टर का उपयोग करके अपने अपाचे स्पार्क पाइस्पार्क स्क्रिप्ट को स्वचालित करता हूं। स्वचालन और शेड्यूलिंग उद्देश्यों के लिए, मैं क्लस्टर को स्क्रिप्ट भेजने के लिए बोटो ईएमआर मॉड्यूल का उपयोग करना चाहता हूं।ईएमआर
मैं ईएमआर के क्लस्टर पर स्पार्क बूट करने और स्पार्क स्थापित करने में सक्षम था। मैं भी इस तरह के तरह pyspark की मेरी स्थानीय मशीन के संस्करण का उपयोग कर, और स्थापित करने के मास्टर द्वारा ईएमआर पर एक स्क्रिप्ट शुरू करने के लिए कर रहा हूँ:
$: MASTER=spark://<insert EMR master node of cluster here> ./bin/pyspark <myscriptname.py>
बहरहाल, यह है कि स्क्रिप्ट स्थानीय रूप से चलाने के लिए मुझे की आवश्यकता है, और इस तरह मैं नहीं कर रहा हूँ बोटो की क्षमता को पूरी तरह से लाभ उठाने में सक्षम 1) क्लस्टर शुरू करें 2) स्क्रिप्ट चरणों को जोड़ें और 3) क्लस्टर को रोकें। मुझे spark-shell (scala) के लिए script-runner.sh और emr "step" कमांड का उपयोग करके उदाहरण मिल गए हैं, लेकिन मुझे लगता है कि पाइथन मॉड्यूल (pyspark) के साथ ऐसा करने का एक आसान तरीका है। पहले से बहुत - बहुत धन्यवाद!
यदि आप एक बड़े गिट भंडार के भीतर एक स्क्रिप्ट चलाने के लिए चाहते हैं तो क्या होगा? मैं एक बूटस्ट्रैप एक्शन के माध्यम से क्लस्टर में रिपो क्लोन कर सकता हूं लेकिन फिर आप 'स्पार्क-सबमिट --मास्टर यार्न/पथ/से/script_to_run.py' कैसे करते हैं? –
@EvanZamir, मुझे लगता है कि आप उस मामले में [कमांड धावक] (http://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-commandrunner.html) का उपयोग करने का प्रयास कर सकते हैं –