2016-10-13 8 views
8

मेरे पास एक हैडोप क्लस्टर (एचडीपी 2.1) है। सब कुछ एक लंबे समय के लिए काम कर रहा है, लेकिन अचानक नौकरियों निम्नलिखित आवर्तक त्रुटि वापस जाने के लिए शुरू कर दिया है:हडोप: नौकरी इतिहास सर्वर पर रीडायरेक्ट करते समय NullPointerException

  • https://issues.apache.org/jira/browse/MAPREDUCE-5703
  • https://issues.apache.org/jira/browse/MAPREDUCE-5547:

    16/10/13 16:21:11 INFO Configuration.deprecation: fs.default.name is deprecated. Instead, use fs.defaultFS 
    16/10/13 16:21:12 INFO Configuration.deprecation: fs.default.name is deprecated. Instead, use fs.defaultFS 
    16/10/13 16:21:12 INFO impl.TimelineClientImpl: Timeline service address: http://dev-fiwr-bignode-12.hi.inet:8188/ws/v1/timeline/ 
    16/10/13 16:21:13 INFO client.RMProxy: Connecting to ResourceManager at dev-fiwr-bignode-12.hi.inet/10.95.76.79:8050 
    16/10/13 16:21:13 INFO input.FileInputFormat: Total input paths to process : 2 
    16/10/13 16:21:13 INFO mapreduce.JobSubmitter: number of splits:2 
    16/10/13 16:21:13 INFO Configuration.deprecation: fs.default.name is deprecated. Instead, use fs.defaultFS 
    16/10/13 16:21:14 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1476366871137_0003 
    16/10/13 16:21:14 INFO impl.YarnClientImpl: Submitted application application_1476366871137_0003 
    16/10/13 16:21:14 INFO mapreduce.Job: The url to track the job: http://dev-fiwr-bignode-12.hi.inet:8088/proxy/application_1476366871137_0003/ 
    16/10/13 16:21:14 INFO mapreduce.Job: Running job: job_1476366871137_0003 
    16/10/13 16:21:19 INFO mapreduce.Job: Job job_1476366871137_0003 running in uber mode : false 
    16/10/13 16:21:19 INFO mapreduce.Job: map 0% reduce 0% 
    16/10/13 16:21:23 INFO mapreduce.Job: map 50% reduce 0% 
    16/10/13 16:21:24 INFO mapreduce.Job: map 100% reduce 0% 
    16/10/13 16:21:28 INFO mapreduce.Job: map 100% reduce 100%\ 
    6/10/13 16:21:29 INFO mapred.ClientServiceDelegate: Application state is completed. FinalApplicationStatus=SUCCEEDED. Redirecting to job history server 
    16/10/13 16:21:29 INFO mapred.ClientServiceDelegate: Application state is completed. FinalApplicationStatus=SUCCEEDED. Redirecting to job history server 
    16/10/13 16:21:29 INFO mapred.ClientServiceDelegate: Application state is completed. FinalApplicationStatus=SUCCEEDED. Redirecting to job history server 
    Exception in thread \"main\" java.io.IOException: 
    org.apache.hadoop.ipc.RemoteException(java.lang.NullPointerException): java.lang.NullPointerException 
    org.apache.hadoop.mapreduce.v2.hs.HistoryClientService$HSClientProtocolHandler.getTaskAttemptCompletionEvents(HistoryClientService.java:277) 
    org.apache.hadoop.mapreduce.v2.api.impl.pb.service.MRClientProtocolPBServiceImpl.getTaskAttemptCompletionEvents(MRClientProtocolPBServiceImpl.java:173) 
    org.apache.hadoop.yarn.proto.MRClientProtocol$MRClientProtocolService$2.callBlockingMethod(MRClientProtocol.java:283) 
    org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:585) 
    org.apache.hadoop.ipc.RPC$Server.call(RPC.java:928) 
    org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2013) 
    org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2009) 
    java.security.AccessController.doPrivileged(Native Method) 
    javax.security.auth.Subject.doAs(Subject.java:415) 
    org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1594) 
    org.apache.hadoop.ipc.Server$Handler.run(Server.java:2007) 
    org.apache.hadoop.mapred.ClientServiceDelegate.invoke(ClientServiceDelegate.java:334) 
    org.apache.hadoop.mapred.ClientServiceDelegate.getTaskCompletionEvents(ClientServiceDelegate.java:386) 
    org.apache.hadoop.mapred.YARNRunner.getTaskCompletionEvents(YARNRunner.java:539) 
    org.apache.hadoop.mapreduce.Job$5.run(Job.java:668) 
    org.apache.hadoop.mapreduce.Job$5.run(Job.java:665) 
    java.security.AccessController.doPrivileged(Native Method) 
    javax.security.auth.Subject.doAs(Subject.java:415) 
    org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1594) 
    org.apache.hadoop.mapreduce.Job.getTaskCompletionEvents(Job.java:665) 
    org.apache.hadoop.mapreduce.Job.monitorAndPrintJob(Job.java:1366) 
    org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:1306) 
    dijkstra.adjacencylist.AdjacencyListDriver.jobRun(AdjacencyListDriver.java:53) 
    dijkstra.adjacencylist.AdjacencyListDriver.run(AdjacencyListDriver.java:31) 
    org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) 
    org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:84) 
    dijkstra.launch.LaunchClass.launchAdjMatrix(LaunchClass.java:226) 
    dijkstra.launch.LaunchClass.main(LaunchClass.java:199) 
    sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 
    sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57) 
    sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 
    java.lang.reflect.Method.invoke(Method.java:606) 
    org.apache.hadoop.util.RunJar.main(RunJar.java:212) 
    Caused by: 
    org.apache.hadoop.ipc.RemoteException(java.lang.NullPointerException): 
    java.lang.NullPointerException 
    org.apache.hadoop.mapreduce.v2.hs.HistoryClientService$HSClientProtocolHandler.getTaskAttemptCompletionEvents(HistoryClientService.java:277) 
    ... 
    

    थोड़ा Googling, मैं इन मुद्दों को देखा है

वे संबंधित प्रतीत होते हैं। फिर भी, क्लस्टर अभी तक ठीक से क्यों चल रहा था? कॉन्फ़िगरेशन में कुछ भी नहीं बदला गया था, क्लस्यूटर सुरक्षित मोड में नहीं है, एचडीएफएस स्पेस उपयोग लगभग 0.03% है ... कोई सुराग? और इस मामले में यह ऊपर उल्लिखित मुद्दों से संबंधित है, कोई कामकाज?

बहुत धन्यवाद, मैं आपके उत्तरों या अतिरिक्त जानकारी आवश्यकताओं के लिए ट्यूनेड रहूंगा।

+0

बस एक चीज़ की पुष्टि करें, क्या यह जॉब निष्पादन के बाद आउटपुट फ़ाइल में कुछ भी लिखता है? आमतौर पर, वितरित सिस्टम में नेटवर्क और हार्डवेयर विफलता के मुद्दे होते हैं जो अपरिहार्य हैं। अब, मैं जानना भी उत्सुक हूं कि वास्तविक समस्या क्या है। – Azim

+0

@Azim, नौकरी आंतरिक रूप से कई अन्य नौकरियों को चलाने के लिए प्रतीत होता है ... मुझे ऐसा कोई विचार पसंद नहीं है, वैसे भी मैं नौकरी का बेवकूफ़ नहीं हूं बल्कि क्लस्टर का व्यवस्थापक हूं। ऐसा कहा जा रहा है कि, उपयोगकर्ता मुझे पहला गुच्छा बताता है, मान लें, उप-नौकरियां खत्म करें और एचडीएफएस में लिखें। समस्या नौकरियों के दूसरे समूह के साथ है: एचडीएफएस में कुछ भी नहीं लिखा गया है क्योंकि इतिहास सर्वर एनपीई बढ़ता है। – frb

उत्तर

0

आपका मुद्दों, 5703 के समान है स्टैक ट्रेस द्वारा पहचानने, और जैसा कि कि बग में कहा गया है:

"विधि GetTaskAttemptCompletionEventsResponse() verifyAndGetJob() कॉल करके एक नौकरी दिलवाया, लेकिन यह जाँच की कभी नहीं करता है, तो काम था शून्य या नहीं, जो इस मुद्दे का मूल कारण था। "

नौकरी आईडी का उपयोग कर नौकरी लुकअप है, नौकरी नहीं मिली है।

उस बग में यह एक परिदृश्य सूचीबद्ध करता है जिसमें नौकरी इतिहास सर्वर (जेएचएस) को एक पूर्ण नौकरी के बारे में पूछताछ की जाती है लेकिन जेएचएस उस नौकरी के लिए जानकारी प्राप्त करने में विफल रहा।

नौकरी समाप्ति और नौकरी इतिहास अपलोड के बारे में खुले मुद्दे प्रतीत होते हैं जो इस अपवाद को तब होने की अनुमति देते हैं जब नौकरी इतिहास अपलोड विफल हो जाता है। बग में इस मुद्दे को इतिहास अपलोड करने से पहले इतिहास लिखने वाले नोड को पुनरारंभ करके ट्रिगर किया गया था, या उस नोड द्वारा इतिहास लिखने के लिए कोई अच्छा नोड नहीं था।

दुर्भाग्यवश, यहां कुछ और नहीं है जो आपके मामले में इतिहास अपलोड करने के कारण होने की पहचान करने में सहायता कर सकता है, लेकिन यह इस मुद्दे का अंतर्निहित स्रोत प्रतीत होता है। आपके जॉब इतिहास सर्वर में सफलतापूर्वक पूरा होने वाले नौकरी का कोई रिकॉर्ड नहीं है।

+0

आपके उत्तर के लिए धन्यवाद। कृपया, अधिक जानकारी के लिए, मैंने अपनी मूल पोस्ट में जो टिप्पणी जोड़ा है, उसे जांचें। – frb

संबंधित मुद्दे