में भारी डेटा पर ByKey स्पार्क में BeyKey कम चल रहा है।रन कम करें स्पाइक
val counts = textFile.flatMap(line => line.split(" ")).repartition(20000).
.map(word => (word, 1))
.reduceByKey(_ + _, 10000)
counts.saveAsTextFile("hdfs://...")
लेकिन यह हमेशा स्मृति से बाहर चलाने के ...
मैं 50 सर्वर, सर्वर प्रति 35 निष्पादकों, सर्वर प्रति 140GB स्मृति का उपयोग हूँ: मेरा कार्यक्रम चिंगारी का सबसे सरल उदाहरण है।
दस्तावेज की मात्रा है: 8TB दस्तावेज़, 20 अरब दस्तावेज़, कुल मिलाकर 1000 बिलियन शब्द। और कम करने के बाद के शब्द लगभग 100 मिलियन होंगे।
मुझे आश्चर्य है कि स्पार्क की कॉन्फ़िगरेशन कैसे सेट करें?
मुझे आश्चर्य है कि इन मानकों को क्या मूल्य होना चाहिए?
1. the number of the maps ? 20000 for example?
2. the number of the reduces ? 10000 for example?
3. others parameters?
मैं आपकी मदद नहीं कर सकता। हालांकि क्या आपके प्रश्न के समाधान को ट्रैक करना संभव है? कुछ राशि और संख्या बहुत प्रभावशाली हैं। – sashaegorov