2013-10-28 4 views
10

संदर्भों के इलाके के संदर्भ में केप्लर आर्किटेक्चर के साथ जीपीयू में एल 2 कैश कैसे काम करता है? उदाहरण के लिए यदि कोई धागा वैश्विक स्मृति में कोई पता एक्सेस करता है, तो उस पते का मान एल 2 कैश में नहीं है, मूल्य कैश किया जा रहा है? क्या यह अस्थायी है? या उस पते के अन्य आस-पास के मूल्य भी एल 2 कैश में लाए गए हैं (स्थानिक)?केप्लर में एल 2 कैश

नीचे तस्वीर एनवीआईडीआईए व्हाइटपेपर से है।

Picture is from NVIDIA whitepaper

+1

L2 कैश गणना क्षमता 2.0 या उच्चतर संस्करण के साथ शुरू की है और केपलर वास्तुकला पर समर्थित किया जा रहा है था। उपयोग की जाने वाली कैशिंग नीति एलआरयू (कम से कम हाल ही में उपयोग की जाती है) का मुख्य उद्देश्य वैश्विक स्मृति बैंडविड्थ बाधा से बचने के लिए था। मैंने इसे "क्यूडा एप्लिकेशन डिज़ाइन और विकास" पुस्तक से पढ़ा था। सुनिश्चित नहीं है कि क्या यह आपके प्रश्न का उत्तर देता है। –

+3

एल 1 कैश में 128 बाइट्स का कैशलाइन आकार है। एल 2 कैश में 32 बाइट्स का कैशलाइन आकार होता है। तो एक एल 2 मिस ​​32-बाइट लोड ट्रिगर करता है। केपलर सामान्य रूप से सामान्य वैश्विक भार के लिए एल 1 सक्षम नहीं होता है। –

उत्तर

10

एकीकृत L2 कैश गणना क्षमता 2.0 या उच्चतर संस्करण के साथ शुरू की है और केपलर वास्तुकला पर समर्थित किया जा रहा है था। उपयोग की जाने वाली कैशिंग नीति एलआरयू (कम से कम हाल ही में उपयोग की जाती है) का मुख्य उद्देश्य वैश्विक स्मृति बैंडविड्थ बाधा से बचने के लिए था। जीपीयू आवेदन दोनों प्रकार के इलाके (अस्थायी और स्थानिक) प्रदर्शित कर सकता है।

जब भी कोई प्रयास होता है तो एक विशिष्ट स्मृति को पढ़ने के लिए यह कैश एल 1 और एल 2 में नहीं दिखता है, तो यह कैश लाइन से 128 बाइट लोड करेगा। यह डिफ़ॉल्ट मोड है। नीचे दिए गए आरेख से भी समझा जा सकता है कि क्यों 128 बिट एक्सेस पैटर्न अच्छा परिणाम देता है।

enter image description here

+2

उपर्युक्त पोस्ट का पहला अनुच्छेद प्रश्न का उत्तर देता है। इस उत्तर के दूसरे अनुच्छेद के बारे में, मुझे लगता है कि यह केवल तभी सही है जब (डिफ़ॉल्ट मोड में) डिवाइस आर्किटेक्चर फर्मि है। टिप्पणियों में उल्लिखित @ रोबर्ट क्रोवेला के रूप में, केप्लर में एक एल 2 कैश मिस 32-बाइट लोड में परिणाम देता है। साथ ही, मुझे लगता है कि चित्र भ्रामक है। जब एक एसएम कम संख्या में धागे से कम किया जाता है, तो व्यापक वैश्विक मेमोरी अनुरोध ग्लोबल मेमोरी बैंडविड्थ को संतृप्त कर सकते हैं। जब एसएम अधिक धागे के साथ अधिक/पूरी तरह से कब्जा कर लेता है, तो ग्लोबल मेमोरी बैंडविड्थ 4-बाइट लोड के साथ भी संतृप्त हो सकता है। – Farzad

संबंधित मुद्दे