2014-11-11 17 views
8

स्पार्क मेमोरी में काम करने वाले डेटासेट को कैश करता है और फिर मेमोरी की गति पर कंप्यूटेशंस करता है। क्या यह नियंत्रित करने का कोई तरीका है कि कामकाजी सेट रैम में कितनी देर तक रहता है?मेमोरी कैशिंग में अपाचे स्पार्क

मेरे पास नौकरी के माध्यम से उपयोग की जाने वाली बड़ी मात्रा में डेटा है। शुरुआत में रैम को नौकरी लोड करने में समय लगता है और जब अगली नौकरी आती है, तो उसे सभी डेटा फिर से रैम में लोड करना होता है जो समय लेने वाला होता है। स्पार्क का उपयोग कर डेटा को हमेशा के लिए डेटा (या निर्दिष्ट समय के लिए) कैश करने का कोई तरीका है?

उत्तर

9

स्पष्ट uncache के लिए, आपको RDD.unpersist()

उपयोग कर सकते हैं यदि आप संचित RDDs कई नौकरियों भर में आप यह कर सकते साझा करना चाहते हैं:

  1. एक ही संदर्भ का उपयोग करके आरडीडी को कैश करें और अन्य नौकरियों के संदर्भ को दोबारा उपयोग करें। इस तरह आप केवल एक बार कैश करते हैं और इसका उपयोग कई बार
  2. उपरोक्त उल्लिखित कार्यक्षमता के लिए मौजूद 'स्पार्क जॉब सर्वर' हैं। चेकआउट Spark Job Server ओयाला द्वारा खुलासा किया गया।
  3. तरह Tachyon

मैं स्पार्क में कैशिंग विकल्पों के साथ प्रयोग कर रहे हैं एक बाहरी कैशिंग समाधान का उपयोग करें। आप यहां और अधिक पढ़ सकते हैं: http://sujee.net/understanding-spark-caching/

+0

धन्यवाद सुजी। मैंने इस समाधान पर काम किया है। – Atom

0

आप आरडीडी के लिए कैशिंग विकल्प निर्दिष्ट कर सकते हैं। RDD.cache (MEMORY_ONLY)

स्पार्क स्वचालित रूप से साफ़ हो जाता है जब किसी अन्य कार्रवाई को आरडीडी की आवश्यकता नहीं होती है।

निर्दिष्ट समय के लिए आरडीडी को कैश करने का कोई विकल्प नहीं है।

लिंक नीचे की जाँच करें

http://spark.apache.org/docs/latest/programming-guide.html#which-storage-level-to-choose

+1

क्या इसे डीएएम के निष्पादन को रोककर जावा के माध्यम से किया जा सकता है जो आरडीडी को कैश में लोड कर रहा है? – Atom

+0

मुझे मैन्युअल रूप से डिमन्स को रोकने के बारे में निश्चित नहीं है। क्या आप लगातार नौकरियों के बीच डेटासेट का पुन: उपयोग करना चाहते हैं? –

+0

@samthebest क्या आप समझने में मेरी सहायता कर सकते हैं कि स्मृति में किसी विशेष समय के लिए आरडीडी को कैश करने के बजाय कैश से इसे साफ़ करने और इसे हर बार एक नई नौकरी चलाने के लिए संभव तरीका है? – Atom

संबंधित मुद्दे