2016-07-02 9 views
7

मैं नवीनतम ईएमआर का उपयोग करके एडब्ल्यूएस पर स्पार्क करने के लिए 1TB डेटा के साथ डेटाबेस लोड करने का प्रयास कर रहा हूं। और चलने का समय इतना लंबा है कि यह 6 घंटों में भी समाप्त नहीं होता है, लेकिन 6h30m चलाने के बाद, मुझे यह घोषणा करने में कुछ त्रुटि मिलती है कि कंटेनर पर नोड खो गया और फिर काम विफल हो गया। लॉग्स इस तरह हैं:"निकास स्थिति: -100 के साथ यार्न मोड अंत पर स्पार्क। डायग्नोस्टिक्स: कंटेनर * * खोए * नोड पर जारी किया गया"

16/07/01 22:45:43 WARN scheduler.TaskSetManager: Lost task 144178.0 in stage 0.0 (TID 144178, ip-10-0-2-176.ec2.internal): ExecutorLostFailure (executor 5 exited caused by one of the running tasks) Reason: Container marked as failed: container_1467389397754_0001_01_000006 on host: ip-10-0-2-176.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 
16/07/01 22:45:43 WARN scheduler.TaskSetManager: Lost task 144181.0 in stage 0.0 (TID 144181, ip-10-0-2-176.ec2.internal): ExecutorLostFailure (executor 5 exited caused by one of the running tasks) Reason: Container marked as failed: container_1467389397754_0001_01_000006 on host: ip-10-0-2-176.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 
16/07/01 22:45:43 WARN scheduler.TaskSetManager: Lost task 144175.0 in stage 0.0 (TID 144175, ip-10-0-2-176.ec2.internal): ExecutorLostFailure (executor 5 exited caused by one of the running tasks) Reason: Container marked as failed: container_1467389397754_0001_01_000006 on host: ip-10-0-2-176.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 
16/07/01 22:45:43 WARN scheduler.TaskSetManager: Lost task 144213.0 in stage 0.0 (TID 144213, ip-10-0-2-176.ec2.internal): ExecutorLostFailure (executor 5 exited caused by one of the running tasks) Reason: Container marked as failed: container_1467389397754_0001_01_000006 on host: ip-10-0-2-176.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 
16/07/01 22:45:43 INFO scheduler.DAGScheduler: Executor lost: 5 (epoch 0) 
16/07/01 22:45:43 WARN cluster.YarnSchedulerBackend$YarnSchedulerEndpoint: Container marked as failed: container_1467389397754_0001_01_000007 on host: ip-10-0-2-173.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 
16/07/01 22:45:43 INFO storage.BlockManagerMasterEndpoint: Trying to remove executor 5 from BlockManagerMaster. 
16/07/01 22:45:43 INFO storage.BlockManagerMasterEndpoint: Removing block manager BlockManagerId(5, ip-10-0-2-176.ec2.internal, 43922) 
16/07/01 22:45:43 INFO storage.BlockManagerMaster: Removed 5 successfully in removeExecutor 
16/07/01 22:45:43 ERROR cluster.YarnClusterScheduler: Lost executor 6 on ip-10-0-2-173.ec2.internal: Container marked as failed: container_1467389397754_0001_01_000007 on host: ip-10-0-2-173.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 
16/07/01 22:45:43 INFO spark.ExecutorAllocationManager: Existing executor 5 has been removed (new total is 41) 
16/07/01 22:45:43 WARN scheduler.TaskSetManager: Lost task 144138.0 in stage 0.0 (TID 144138, ip-10-0-2-173.ec2.internal): ExecutorLostFailure (executor 6 exited caused by one of the running tasks) Reason: Container marked as failed: container_1467389397754_0001_01_000007 on host: ip-10-0-2-173.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 
16/07/01 22:45:43 WARN scheduler.TaskSetManager: Lost task 144185.0 in stage 0.0 (TID 144185, ip-10-0-2-173.ec2.internal): ExecutorLostFailure (executor 6 exited caused by one of the running tasks) Reason: Container marked as failed: container_1467389397754_0001_01_000007 on host: ip-10-0-2-173.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 
16/07/01 22:45:43 WARN scheduler.TaskSetManager: Lost task 144184.0 in stage 0.0 (TID 144184, ip-10-0-2-173.ec2.internal): ExecutorLostFailure (executor 6 exited caused by one of the running tasks) Reason: Container marked as failed: container_1467389397754_0001_01_000007 on host: ip-10-0-2-173.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 
16/07/01 22:45:43 WARN scheduler.TaskSetManager: Lost task 144186.0 in stage 0.0 (TID 144186, ip-10-0-2-173.ec2.internal): ExecutorLostFailure (executor 6 exited caused by one of the running tasks) Reason: Container marked as failed: container_1467389397754_0001_01_000007 on host: ip-10-0-2-173.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 
16/07/01 22:45:43 WARN cluster.YarnSchedulerBackend$YarnSchedulerEndpoint: Container marked as failed: container_1467389397754_0001_01_000035 on host: ip-10-0-2-173.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 
16/07/01 22:45:43 INFO scheduler.DAGScheduler: Executor lost: 6 (epoch 0) 
16/07/01 22:45:43 INFO storage.BlockManagerMasterEndpoint: Trying to remove executor 6 from BlockManagerMaster. 
16/07/01 22:45:43 INFO storage.BlockManagerMasterEndpoint: Removing block manager BlockManagerId(6, ip-10-0-2-173.ec2.internal, 43593) 
16/07/01 22:45:43 INFO storage.BlockManagerMaster: Removed 6 successfully in removeExecutor 
16/07/01 22:45:43 ERROR cluster.YarnClusterScheduler: Lost executor 30 on ip-10-0-2-173.ec2.internal: Container marked as failed: container_1467389397754_0001_01_000035 on host: ip-10-0-2-173.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 
16/07/01 22:45:43 WARN scheduler.TaskSetManager: Lost task 144162.0 in stage 0.0 (TID 144162, ip-10-0-2-173.ec2.internal): ExecutorLostFailure (executor 30 exited caused by one of the running tasks) Reason: Container marked as failed: container_1467389397754_0001_01_000035 on host: ip-10-0-2-173.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 
16/07/01 22:45:43 INFO spark.ExecutorAllocationManager: Existing executor 6 has been removed (new total is 40) 
16/07/01 22:45:43 WARN scheduler.TaskSetManager: Lost task 144156.0 in stage 0.0 (TID 144156, ip-10-0-2-173.ec2.internal): ExecutorLostFailure (executor 30 exited caused by one of the running tasks) Reason: Container marked as failed: container_1467389397754_0001_01_000035 on host: ip-10-0-2-173.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 
16/07/01 22:45:43 WARN scheduler.TaskSetManager: Lost task 144170.0 in stage 0.0 (TID 144170, ip-10-0-2-173.ec2.internal): ExecutorLostFailure (executor 30 exited caused by one of the running tasks) Reason: Container marked as failed: container_1467389397754_0001_01_000035 on host: ip-10-0-2-173.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 
16/07/01 22:45:43 WARN scheduler.TaskSetManager: Lost task 144169.0 in stage 0.0 (TID 144169, ip-10-0-2-173.ec2.internal): ExecutorLostFailure (executor 30 exited caused by one of the running tasks) Reason: Container marked as failed: container_1467389397754_0001_01_000035 on host: ip-10-0-2-173.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 
16/07/01 22:45:43 INFO scheduler.DAGScheduler: Executor lost: 30 (epoch 0) 
16/07/01 22:45:43 WARN cluster.YarnSchedulerBackend$YarnSchedulerEndpoint: Container marked as failed: container_1467389397754_0001_01_000024 on host: ip-10-0-2-173.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 

मैं बहुत यकीन है कि मेरी नेटवर्क सेटिंग काम करता है क्योंकि मैं एक बहुत छोटे मेज पर एक ही पर्यावरण पर इस स्क्रिप्ट को चलाने की कोशिश की है हूँ।

इसके अलावा, मुझे पता है कि किसी ने 6 महीने पहले एक ही प्रश्न के लिए एक प्रश्न पोस्ट किया था: spark-job-error-yarnallocator-exit-status-100-diagnostics-container-released लेकिन मुझे अभी भी पूछना है क्योंकि कोई भी इस प्रश्न का उत्तर नहीं दे रहा था।

+0

मैं एक ही समस्या को मार रहा हूं। कोई जवाब नहीं :( – clay

+0

@clay बस मेरा अनुमान। स्पॉट इंस्टेंस वापस ले लिया जाएगा जब कीमत आपकी कीमत से अधिक हो जाएगी, और फिर नोड खो जाएगा। तो यदि आप लंबी अवधि की नौकरी पर चल रहे हैं, तो इसका उपयोग न करें स्पॉट इंस्टेंस। मुझे अपने डेटा सेट को कई छोटे कार्यों में विभाजित करने का एक तरीका मिलता है, जिनमें से प्रत्येक केवल 5 मिनट तक चलता है, और एस 3 पर कम परिणाम बचाता है, उसके बाद, एस 3 से परिणाम पढ़ता है और दूसरा कम करता है, इसलिए मैं लंबे समय तक चलने वाली नौकरी से बच सकते हैं। –

+0

मैं इस मुद्दे को भी मार रहा हूं:/ – Prayag

उत्तर

1

ऐसा लगता है कि अन्य लोगों के पास भी एक ही समस्या है, इसलिए मैं सिर्फ एक टिप्पणी लिखने के बजाय उत्तर पोस्ट करता हूं। मुझे यकीन नहीं है कि यह इस मुद्दे को हल करेगा लेकिन यह एक विचार होना चाहिए।

यदि आप स्पॉट इंस्टेंस का उपयोग करते हैं, तो आपको पता होना चाहिए कि यदि आपके इनपुट से कीमत अधिक है तो स्पॉट इंस्टेंस बंद हो जाएगा, और आप इस मुद्दे को दबा देंगे। भले ही आप दास के रूप में एक स्पॉट उदाहरण का उपयोग कर रहे हों। तो मेरा समाधान लंबे समय तक चलने वाली नौकरी के लिए किसी स्पॉट इंस्टेंस का उपयोग नहीं कर रहा है।

एक और विचार नौकरी को कई स्वतंत्र चरणों में टुकड़ा करना है, ताकि आप प्रत्येक चरण के परिणाम को S3 पर फ़ाइल के रूप में सहेज सकें। अगर कोई त्रुटि हुई, तो कैश की गई फाइलों से बस उस चरण से शुरू करें।

संबंधित मुद्दे