2015-06-10 43 views
8

पर स्पार्क मास्टर यूआरएल कैसे ढूंढें मैं स्पार्क के लिए नया हूं और संस्करण 1.3.1 के साथ अमेज़ॅन क्लस्टर पर स्पार्क स्थापित करने की कोशिश कर रहा हूं। जब मैं करअमेज़ॅन ईएमआर

SparkConf sparkConfig = new SparkConf().setAppName("SparkSQLTest").setMaster("local[2]"); 

यह है मेरे लिए काम, फिर भी मुझे पता है कि इस परीक्षण के उद्देश्य मैं सेट कर सकते हैं के लिए है आया स्थानीय [2]

जब मैं क्लस्टर मोड का उपयोग करने मैं

में बदल करने की कोशिश की
SparkConf sparkConfig = new SparkConf().setAppName("SparkSQLTest").setMaster("spark://localhost:7077"); 
इस मैं त्रुटि

नीचे हो रही है

साथ पहुंच योग्य नहीं दूरदराज के पते को संबद्ध करने की कोशिश की के साथ

[akka.tcp: // sparkMaster @ स्थानीय होस्ट: 7077]। पता अब 5000 एमएस के लिए गेट किया गया है, इस पते के सभी संदेश मृत अक्षरों को वितरित किए जाएंगे। कारण: कनेक्शन से इनकार कर दिया 15/06/10 15:22:21 INFO क्लाइंट। ऐप क्लाइंट $ क्लाइंटएक्टर: मास्टर akka.tcp से जुड़ना: // स्पार्कमास्टर @ लोकलहोस्ट: 7077/उपयोगकर्ता/मास्टर ..

क्या कोई कृपया कृपया मुझे मास्टर यूआरएल कैसे सेट करें।

+0

मैं ईएमआर का उपयोग न करने की सलाह देता हूं। इसके बजाय आधिकारिक दस्तावेज़ीकरण का पालन करें: http://spark.apache.org/docs/latest/ec2-scripts.html –

उत्तर

7

यदि आप https://github.com/awslabs/emr-bootstrap-actions/tree/master/spark से बूटस्ट्रैप कार्रवाई का उपयोग कर रहे हैं तो कॉन्फ़िगरेशन YARN पर स्पार्क के लिए सेटअप है। तो बस मास्टर को yarn-client या yarn-cluster पर सेट करें। स्मृति और कोर के साथ निष्पादकों की संख्या को परिभाषित करना सुनिश्चित करें। https://spark.apache.org/docs/latest/running-on-yarn.html

अलावा में यार्न पर स्पार्क के बारे में अधिक जानकारी के लिए स्मृति और कोर आकार के लिए निष्पादक सेटिंग के संबंध में:

विशेष रूप से yarn.scheduler.maximum-allocation-mbhttp://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/TaskConfiguration_H2.html में प्रत्येक प्रकार के लिए डिफ़ॉल्ट यार्न नोड प्रबंधक कॉन्फ़िगरेशन पर एक नजर डालें। आप बुनियादी ईसी 2 जानकारी यूआरएल (http://aws.amazon.com/ec2/instance-types/) से कोर की संख्या निर्धारित कर सकते हैं। एक्जिक्यूटर मेमोरी का अधिकतम आकार अधिकतम आवंटन के भीतर स्पार्क के ओवरहेड और 256 एमबी की वृद्धि में फिट होना है। इस गणना का एक अच्छा विवरण http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/ पर है। यह न भूलें कि आरडीडी कैश के लिए आधे से अधिक निष्पादक स्मृति का उपयोग किया जा सकता है।

+0

जिज्ञासा से बाहर दस्तावेज जानना चाहता था प्रलेखन में मास्टर कहते हैं: // आईपी: पोर्ट लेकिन जब मैं ऐसा करता हूं मुझे त्रुटि बंदरगाह मैं 7077 डिफ़ॉल्ट और आईपी को स्थानीयहोस्ट – Sam

+0

के रूप में उपयोग करता हूं जो दस्तावेज आप संदर्भित कर रहे हैं वह स्पार्कल स्टैंडअलोन मोड में उपयोग कर रहा है। यदि स्पार्क की स्थापना स्टैंडअलोन क्लस्टर स्थापित कर रही है तो आईपी मास्टर नोड का आईपी होगा और संभवतः डिफ़ॉल्ट पोर्ट होगा। अन्यथा क्लस्टर सेटअप से जो भी मेल खाता है, उसे होने की आवश्यकता होगी। Http://spark.apache.org/docs/latest/cluster-overview.html#cluster-manager-types – ChristopherB

+0

पर समर्थित क्लस्टर की सूची धन्यवाद @ क्रिस्टोफर बी ... एक और सवाल जैसा कि आपने निष्पादकों को स्मृति के लिए सेट करने के लिए उल्लेख किया है और कोर। क्या आप कृपया मुझे सुझाव दे सकते हैं कि अमेज़ॅन के विभिन्न उदाहरण प्रकारों के साथ इन मानों को कैसे ढूंढें। [लिंक] http://aws.amazon.com/ec2/instance-types/। – Sam

संबंधित मुद्दे