मैं बड़ी डेटा फ़ाइल को संसाधित करने के लिए अपाचे स्पार्क 0.8.0 का उपयोग कर रहा हूं और RDD
पर कुछ बुनियादी .map
और .reduceByKey
संचालन कर रहा हूं।अपाचे स्पार्क: स्थानीय [के] मास्टर यूआरएल - नौकरी फंसे
के बाद से मैं कई प्रोसेसर के साथ एक मशीन का उपयोग कर रहा है, मैं मास्टर URL फ़ील्ड में local[8]
उल्लेख करते हुए SparkContext
val sc = new SparkContext("local[8]", "Tower-Aggs", SPARK_HOME)
बनाने लेकिन जब भी मैं कई प्रोसेसर का उल्लेख है, काम अटक जाती है (रुक जाता है/रुकती है) बेतरतीब ढंग से । कोई निश्चित स्थान नहीं है जहां यह अटक जाता है, यह सिर्फ यादृच्छिक है। कभी-कभी ऐसा नहीं होगा। मुझे यकीन नहीं है कि यह उसके बाद जारी रहता है लेकिन यह लंबे समय तक अटक गया है जिसके बाद मैं नौकरी छोड़ देता हूं।
लेकिन जब मैं local[8]
के स्थान पर local
का उपयोग करता हूं, तो नौकरी कभी भी अटकने के बिना निर्बाध रूप से चलती है।
val sc = new SparkContext("local", "Tower-Aggs", SPARK_HOME)
मैं समझने के लिए जहां समस्या है नहीं पा रहा हूँ।
मैं Scala 2.9.3
और sbt
उपयोग कर रहा हूँ का निर्माण और आवेदन
मैं स्पार्क 1.4.1 के साथ समान समस्या दिखाई दे रहा हूँ। @ विजाय क्या आप इस के आसपास हो गए? –
मुझे आपकी मशीनों पर लॉजिकल कोर की संख्या की तुलना में अधिक प्रक्रियाओं (के) को असाइन करने में अक्सर यह समस्या होती है। एक छोटी संख्या देने की कोशिश कर रहा है। @YohanLiyanage – Vijay
धन्यवाद @ विजय। मैं उसमें देख लूंगा। –