2013-11-04 10 views
7

में समांतरता को समझना मुझे स्पार्क और स्कैला में समांतरता के बारे में कुछ भ्रम है। मैं एक प्रयोग चला रहा हूं जिसमें मुझे डिस्क परिवर्तन/प्रक्रिया कुछ कॉलम से कई (सीएसवी) फ़ाइलों को पढ़ना है और फिर इसे डिस्क पर वापस लिखना है।स्पार्क और स्कैला

मेरे प्रयोगों में, यदि मैं केवल स्पार्ककॉन्टेक्स्ट की समांतर विधि का उपयोग करता हूं तो इसका प्रदर्शन पर कोई प्रभाव नहीं पड़ता है। हालांकि बस स्कैला के समांतर संग्रह (पैरा के माध्यम से) का उपयोग करके समय लगभग आधा हो जाता है।

मैं स्पार्क संदर्भ के लिए स्थानीय [2] तर्कों के साथ स्थानीयहोस्ट मोड में अपने प्रयोग चला रहा हूं।

मेरा प्रश्न है कि मुझे स्कैला के समांतर संग्रहों का उपयोग कब करना चाहिए और स्पार्क संदर्भ के समानांतर का उपयोग कब करना चाहिए?

+0

स्कैला में कई समांतर संग्रह हैं। कृपया देखें: http: //docs.scala-lang.org/overviews/parallel-collections/conversions.html और http://docs.scala-lang.org/overviews/parallel-collections/concrete-parallel-collections.html –

उत्तर

3

स्पार्ककॉन्टेक्स्ट का समांतरता आपके संग्रह को कई नोड्स पर प्रसंस्करण के लिए उपयुक्त बनाता है, साथ ही आपके एकल कार्यकर्ता उदाहरण (स्थानीय [2]) के कई स्थानीय कोरों पर भी उपयुक्त हो सकता है, लेकिन फिर, आपको शायद स्पार्क के कार्य को चलाने से बहुत अधिक ओवरहेड मिलता है शेड्यूलर वह सब जादू है। बेशक, एकल मशीन पर स्कैला के समांतर संग्रह तेजी से होना चाहिए।

http://spark.incubator.apache.org/docs/latest/scala-programming-guide.html#parallelized-collections - क्या आपकी फाइलें कई स्लाइसों में स्वचालित रूप से विभाजित होने के लिए काफी बड़ी हैं, क्या आपने स्लाइस संख्या मैन्युअल रूप से सेट करने का प्रयास किया था?

क्या आपने एक ही स्पार्क नौकरी को एकल कोर पर और फिर दो कोर पर चलाने का प्रयास किया था?

स्पार्क से एक बहुत बड़ी समान रूप से संरचित फ़ाइल के साथ सबसे अच्छा परिणाम की अपेक्षा करें, न कि कई छोटी फाइलों के साथ।

3

स्पार्क कॉन्टेक्स्ट में एकाधिक नोड्स की सामान्यता का समर्थन करने के लिए अतिरिक्त प्रसंस्करण होगा, यह डेटा आकार पर स्थिर रहेगा, इसलिए विशाल डेटा सेट के लिए नगण्य हो सकता है। 1 नोड पर यह ओवरहेड स्काला के समांतर संग्रहों से धीमा कर देगा।

उपयोग स्पार्क जब

  1. आपके पास 1 से अधिक नोड
  2. 1 नोड पर स्पार्क भूमि के ऊपर है क्योंकि डेटा नगण्य है आप अपनी नौकरी से अधिक नोड्स पैमाने पर करने के लिए तैयार होना चाहता हूँ बहुत बड़ा है, इसलिए आप अमीर ढांचे का चयन भी कर सकते हैं
संबंधित मुद्दे