मेरे पास एक ईएमआर स्ट्रीमिंग जॉब (पायथन) है जो सामान्य रूप से ठीक काम करती है (उदाहरण के लिए 10 मशीन 200 इनपुट प्रोसेसिंग)। हालांकि, जब मैं इसे बड़े डेटा सेट के खिलाफ चलाए (12 मशीनों, 6000 आदानों की कुल प्रसंस्करण इनपुट प्रति के बारे में 20 सेकंड में), क्रंचिंग मैं निम्नलिखित त्रुटि मिलती है के 2.5 घंटे के बाद:अमेज़ॅन लोचदार MapReduce - SIGTERM
java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 143
at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:372)
at org.apache.hadoop.streaming.PipeMapRed.mapRedFinished(PipeMapRed.java:586)
at org.apache.hadoop.streaming.PipeMapper.close(PipeMapper.java:135)
at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:57)
at org.apache.hadoop.streaming.PipeMapRunner.run(PipeMapRunner.java:36)
at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:441)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:377)
at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:396)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1132)
at org.apache.hadoop.mapred.Child.main(Child.java:249)
अगर मैं पढ़ रहा हूँ यह सही ढंग से, subprocess कोड 143 के साथ विफल रहा क्योंकि किसी ने स्ट्रीमिंग नौकरी के लिए एक सिगरेट सिग्नल भेजा था।
क्या मेरी समझ सही है? यदि हां: तो ईएमआर इंफ्रास्ट्रक्चर एक सिगरेट कब भेजेगा?
क्या आपने क्लाउडवॉच मीट्रिक को जांचने के लिए यह देखा कि क्या आप किसी प्रकार की आईओ सीमा को मार रहे हैं? मेरे अनुभव से, एक बार जब आप आईओ सीमा को हिट करते हैं तो कुछ अजीब चीजें होने लगती हैं। मुझे नहीं पता कि आप किस डेटा प्रकार का उपयोग अपने डेटा नोड्स के लिए कर रहे थे, लेकिन मैं बड़ी नौकरियों को चलाने के दौरान तेज आईओ प्रदर्शन के साथ कुछ अपग्रेड करने का सुझाव दूंगा। – Edenbauer
बात यह है कि प्रत्येक कार्य सीपीयू-बाध्य है, दुर्लभ और स्पोरैडिक I/O के साथ। यह क्या करता है कि यह एस 3 से एक फ़ाइल लोड करता है, और फिर लगभग 20 सेकंड के लिए बहुत सी भारी CPU प्रसंस्करण करता है। प्रत्येक 5 सेकंड में यह एक और (इंटरमीडिएट) फ़ाइल को S3 पर संग्रहीत करता है। यह कुछ बाहरी पुस्तकालयों (एलएक्सएमएल, विज्ञान-सीखने) का उपयोग करता है, और मैं सोच रहा था कि उनमें से एक मुझे विफल कर रहा था (स्मृति खपत में वृद्धि के द्वारा?), और ईएमआर आधारभूत संरचना एक सिगरेट भेज रही थी। यह सत्यापित करने के लिए, मैं मामलों/परिदृश्यों को समझने की कोशिश कर रहा हूं जब ईएमआर एक प्रक्रिया को सिगरेट कर सकता है। – slavi