gpgpu

9गर्मी

3उत्तर

मैंने दो मैट्रिक्स जोड़ने के लिए एक सरल CUDA एप्लिकेशन बनाया है। यह ठीक संकलित है। मैं जानना चाहता हूं कि कर्नेल सभी धागे से कैसे लॉन्च किया जाएगा और प्रवाह CUDA के अंदर क्या होगा? मेरा मतलब है, किस फ

14गर्मी

3उत्तर

जीपीयू

पर मॉड्यूलर अंकगणित मैं जीपीयू एल्गोरिदम पर काम कर रहा हूं जो बहुत सारे मॉड्यूलर कंप्यूटेशंस करने वाला है। विशेष रूप से, एक परिमित क्षेत्र में मैट्रिस पर विभिन्न संचालन जो लंबे समय तक चलते हैं आदिम पर

13गर्मी

2उत्तर

बेवकूफ, ब्लास और कब्ला

नम्पी को विभिन्न बीएलएएस कार्यान्वयन (एमकेएल, एसीएमएल, एटीएलएएस, गोटोब्लास इत्यादि) के खिलाफ "लिंक/संकलित" किया जा सकता है। यह हमेशा कॉन्फ़िगर करने के लिए सीधा नहीं है लेकिन यह संभव है। क्या एनवीआईडीआ

5गर्मी

1उत्तर

सीयूडीए धागे, एसएमएक्स, एसपी और ब्लॉक, वे कैसे काम करते हैं?

मैं थोड़ा उलझन में हूं कि सीयूडीए कैसे काम करता है, क्या थ्रेड प्रत्येक एक ही निर्देश (सिम) निष्पादित करते हैं लेकिन अलग-अलग इंडेक्स के साथ एकल डेटा का उपयोग करते हैं? या इसे "अलग डेटा" माना जाता है (

8गर्मी

2उत्तर

साझा मेमोरी बैंडविड्थ फर्मि बनाम केप्लर जीपीयू

साझा मेमोरी एक्सेस करते समय केर्प्लर 2x या 4x फर्मि की बैंडविड्थ है? प्रोग्रामिंग गाइड राज्यों: (2.X के लिए) "प्रत्येक बैंक के अनुसार दो घड़ी चक्र 32 बिट के एक बैंडविड्थ है", और "प्रत्येक बैंक के अनुस

6गर्मी

4उत्तर

ओपनसीएल

में ओवरलैपिंग ट्रांसफर और डिवाइस गणना, मैं ओपनसीएल के साथ शुरुआत करने वाला हूं और मुझे कुछ समझने में कठिनाइयां हैं। मैं मेजबान और डिवाइस के बीच एक छवि के स्थानान्तरण में सुधार करना चाहता हूं। मैंने मु

5गर्मी

1उत्तर

ओपनएसीसी का उपयोग कर मैट्रिक्स गुणा को अनुकूलित करने के लिए कैसे?

मैं ओपनएसीसी (पीजीआई के कंपाइलर के साथ) सीख रहा हूं और मैट्रिक्स गुणा उदाहरण को अनुकूलित करने की कोशिश कर रहा हूं। void matrix_mul(float *restrict r, float *a, float *b, int N, int accelerate){ #pra

5गर्मी

3उत्तर

ओपनसीएल प्रदर्शन अनुकूलन

मैंने ओपनसीएल सीखना शुरू कर दिया है और मैं वर्तमान में परीक्षण करने की कोशिश करता हूं कि मैं एक साधारण कंकाल एनीमेशन एल्गोरिदम के लिए प्रदर्शन में कितना सुधार कर सकता हूं। ऐसा करने के लिए मैंने एक प्र

41गर्मी

3उत्तर

कब cudaDevice सिंक्रनाइज़ करने के लिए?

जब cudaDeviceSynchronize फ़ंक्शन पर कॉल कर रहा है तो वास्तव में आवश्यकता है? जहां तक मैं सीयूडीए दस्तावेज से समझता हूं, सीयूडीए कर्नेल असीमित हैं, इसलिए ऐसा लगता है कि हमें प्रत्येक कर्नेल लॉन्च के

6गर्मी

1उत्तर

CUDA में धागे से डेटा कुशलता से एकत्र करने के लिए कैसे?

मेरे पास एक ऐसा एप्लिकेशन है जो CUDA में समीकरणों की एक प्रणाली को हल करता है, मुझे यकीन है कि प्रत्येक थ्रेड को 4 समाधान मिल सकते हैं, लेकिन फिर मैं मेजबान पर वापस कैसे कॉपी कर सकता हूं? मैं सभी थ्रे