मैं ईसी 2 क्लस्टर पर स्पार्क डेटा प्रसंस्करण नौकरी तैनात कर रहा हूं, क्लस्टर के लिए नौकरी छोटी है (कुल में 120 जी रैम के साथ 16 कोर), सबसे बड़ी आरडीडी में केवल 76k + पंक्तियां हैं। लेकिन बीच में भारी गिरावट आई है (इस प्रकार पुन: विभाजन की आवश्यकता है) और धारावाहिकरण के बाद प्रत्येक पंक्ति में लगभग 100k डेटा होता है। नौकरी हमेशा पुन: विभाजन में फंस गई। अर्थात्, काम लगातार निम्न त्रुटियों और पुनः प्राप्त होगा:org.apache.spark.shuffle.MetadataFetchFailedException के संभावित कारण क्या हैं: शफल के लिए आउटपुट स्थान गुम है?
org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle
org.apache.spark.shuffle.FetchFailedException: Error in opening FileSegmentManagedBuffer
org.apache.spark.shuffle.FetchFailedException: java.io.FileNotFoundException: /tmp/spark-...
मैं समस्या की पहचान करने की कोशिश की है, लेकिन यह मशीन फेंकने 50% नीचे इन त्रुटियों कर रहे हैं के दोनों मेमोरी और डिस्क की खपत की तरह लगता है। मैंने विभिन्न विन्यासों का भी प्रयास किया है, जिनमें शामिल हैं:
let driver/executor memory use 60% of total memory.
let netty to priortize JVM shuffling buffer.
increase shuffling streaming buffer to 128m.
use KryoSerializer and max out all buffers
increase shuffling memoryFraction to 0.4
लेकिन उनमें से कोई भी काम नहीं करता है। छोटी नौकरी हमेशा त्रुटियों की एक ही श्रृंखला और अधिकतम आउट रीट्रीज़ (1000 गुना तक) ट्रिगर करती है। ऐसी स्थिति में इस बात का निवारण कैसे करें?
यदि आपके पास कोई सुराग है तो बहुत बहुत धन्यवाद।
बहुत बहुत धन्यवाद! मेरी समस्या यह है कि मैं बस स्पार्क स्टैंडअलोन मास्टर का उपयोग कर रहा हूं। खो गया निष्पादक वास्तव में बड़ी शफलिंग के लिए एक समस्या है, क्योंकि प्रत्येक को एक गैर-लगातार भंडारण में लिखने में काफी समय लगता है और एक बार खो जाने के बाद इसे शुरू करना होगा। मैं जांच कर रहा हूं कि क्या अक्सर चेकपॉइंटिंग समस्या को हल कर सकती है – tribbloid
क्या आपने इसमें अंतर्दृष्टि प्राप्त की है? – raam86
मैंने जीसी द्वारा अपने वर्कफ़्लो को दोबारा लिखा है और आरडीडी को मैन्युअल रूप से जारी रखा है और अधिक मेमोरी और स्पेस को मुक्त करने के लिए चेकपॉइंट() के साथ अन्य persist() को बदल दिया है। इस पल के लिए गायब हो गया। लेकिन स्मृति/डिस्क खपत के प्रोफाइल पर विचार करते समय इसे गलत तरीके से नहीं किया जाना चाहिए।जब मैं इसे फिर से सामना करता हूं तो मैं अपडेट करूंगा – tribbloid