लागू मैं सोच रहा हूँ क्या एक CUDA कर्नेल कॉल प्रदर्शन की भूमि के ऊपर ++ जैसे निम्नलिखित सी/सी में है:प्रदर्शन दंड जब एक CUDA कर्नेल
somekernel1<<<blocks,threads>>>(args);
somekernel2<<<blocks,threads>>>(args);
somekernel3<<<blocks,threads>>>(args);
कारण है कि मैं इस पूछ रहा हूँ क्योंकि है मैं जिस एप्लिकेशन का निर्माण कर रहा हूं, वह वर्तमान में कई कर्नेल में बार-बार कॉल करता है (कॉल के बीच डिवाइस को फिर से पढ़ा/लिखा जाता है) और मैं सोच रहा हूं कि इन कर्नेल को एक कर्नेल कॉल में कॉल करना है (कुछ कर्नेल 1-3 डिवाइस फ़ंक्शंस बनने के साथ) प्रदर्शन में कोई सार्थक अंतर होगा।
स्विस सेना चाकू दृष्टिकोण कुछ ऐसा है जो मैं इन कर्नेल के परियोजनाओं के बीच साझा करने के लिए प्रयास करने से बचने की कोशिश कर रहा हूं। प्रतिक्रिया के लिए धन्यवाद, मैं बस यह सुनिश्चित करना चाहता था कि कुछ पागल प्रदर्शन समस्या नहीं थी कि मुझे एकाधिक कूडा कॉल करने के बारे में पता नहीं था। – NothingMore
नोट: डब्लूडीडीएम पर, यदि आप टेस्ला जीपीयू का उपयोग कर रहे हैं, तो आप एक्सपी या लिनक्स जैसे गैर-डब्लूडीडीएम प्लेटफ़ॉर्म के साथ प्रदर्शन को लाने के लिए टेस्ला कंप्यूट क्लस्टर (टीसीसी) ड्राइवर का उपयोग कर सकते हैं। मूल प्रश्न के लिए, मैं जोर देउंगा: अगर कर्नेल संयोजन से पीसीआई-एक्सप्रेस ट्रांसफर को कम करने में मदद मिलती है, तो यह इसके लायक हो सकता है। यदि नहीं, तो कम से कम सुनिश्चित करें कि कर्नेल 1 के आंकड़ों के GPU में स्थानान्तरण के साथ कर्नेल 1 की गणना को ओवरलैप करें। – harrism
talonmies क्या गैर-डब्लूडीडीएम विंडोज प्लेटफॉर्म आप बात कर रहे हैं? winXP? डब्ल्यूडीडीएम जुर्माना बहुत बड़ा है क्योंकि मैं बहुत दिलचस्पी रखता हूं और मैं लिनक्स में नहीं जा सकता। Win7 x64 का उपयोग करके और एक x64 प्लेटफार्म (रैम मुद्दों) की आवश्यकता होगी – Dredok