2015-08-11 15 views
14

मैंने स्पार्क और फ्लिंक के-साधन एप्लिकेशन का निर्माण किया है। मेरा टेस्ट केस 3 नोड क्लस्टर पर 1 मिलियन अंक पर क्लस्टरिंग है।स्पार्क बनाम फ्लिंक कम मेमोरी उपलब्ध

जब मेमोरी बाधाएं शुरू होती हैं, तो फ्लिंक डिस्क पर आउटसोर्स करना शुरू कर देता है और धीरे-धीरे काम करता है लेकिन काम करता है। हालांकि, अगर स्मृति पूर्ण हो जाती है और फिर से शुरू होती है (अनंत लूप?) स्पार्क निष्पादकों को खो देता है।

मैं मेलिंग सूची से सहायता के साथ मेमोरी सेटिंग को कस्टमाइज़ करने का प्रयास करता हूं, धन्यवाद। लेकिन स्पार्क अभी भी काम नहीं करता है।

क्या कोई कॉन्फ़िगरेशन सेट करना आवश्यक है? मेरा मतलब है कि फ्लिंक कम मेमोरी के साथ काम करता है, स्पार्क भी सक्षम होना चाहिए; या नहीं?

उत्तर

19

मैं स्पार्क विशेषज्ञ नहीं हूं (और मैं एक झुकाव योगदानकर्ता हूं)। जहां तक ​​मुझे पता है, स्पार्क डिस्क पर फैलाने में सक्षम नहीं है अगर पर्याप्त मुख्य स्मृति नहीं है। स्पार्क पर फ्लिंक का यह एक फायदा है। हालांकि, स्पार्क ने फ्लिंक के समान प्रबंधित स्मृति को सक्षम करने के लिए एक नई परियोजना कॉल "टंगस्टन" की घोषणा की। यदि यह सुविधा पहले से ही उपलब्ध है मैं नहीं जानता: https://databricks.com/blog/2015/04/28/project-tungsten-bringing-spark-closer-to-bare-metal.html

अतः स्मृति समस्याओं से बाहर स्पार्क के बारे में प्रश्न के एक जोड़े हैं (उपज कई परिणाम "स्मृति से बाहर चिंगारी" के साथ एक इंटरनेट खोज, भी):

spark java.lang.OutOfMemoryError: Java heap space Spark runs out of memory when grouping by key Spark out of memory

हो सकता है कि उन लोगों के मदद से एक।

+4

स्पार्क डिस्क पर डेटा को क्रमबद्ध कर सकता है लेकिन कुछ हिस्सों के लिए जेवीएम के ढेर पर डेटा के कुछ हिस्सों की आवश्यकता होती है। यदि ढेर का आकार पर्याप्त नहीं है, तो नौकरी आउटऑफमेमरी एरर के साथ मर जाती है। इसके विपरीत, फ्लिंक का इंजन ढेर पर बहुत सारी वस्तुओं को जमा नहीं करता है बल्कि उन्हें समर्पित मेमोरी क्षेत्र में संग्रहीत करता है। सभी ऑपरेटरों को इस तरह से लागू किया जाता है कि वे बहुत कम स्मृति से निपट सकते हैं और डिस्क तक फैल सकते हैं। यह [ब्लॉग पोस्ट] (http://flink.apache.org/news/2015/05/11/Juggling-with- बिट्स-and-Bytes.html) फ्लिंक के मेमोरी प्रबंधन पर चर्चा करता है और यह बाइनरी डेटा पर कैसा चल रहा है। –

संबंधित मुद्दे