gpgpu

    9गर्मी

    3उत्तर

    मैंने दो मैट्रिक्स जोड़ने के लिए एक सरल CUDA एप्लिकेशन बनाया है। यह ठीक संकलित है। मैं जानना चाहता हूं कि कर्नेल सभी धागे से कैसे लॉन्च किया जाएगा और प्रवाह CUDA के अंदर क्या होगा? मेरा मतलब है, किस फ

    14गर्मी

    3उत्तर

    पर मॉड्यूलर अंकगणित मैं जीपीयू एल्गोरिदम पर काम कर रहा हूं जो बहुत सारे मॉड्यूलर कंप्यूटेशंस करने वाला है। विशेष रूप से, एक परिमित क्षेत्र में मैट्रिस पर विभिन्न संचालन जो लंबे समय तक चलते हैं आदिम पर

    13गर्मी

    2उत्तर

    नम्पी को विभिन्न बीएलएएस कार्यान्वयन (एमकेएल, एसीएमएल, एटीएलएएस, गोटोब्लास इत्यादि) के खिलाफ "लिंक/संकलित" किया जा सकता है। यह हमेशा कॉन्फ़िगर करने के लिए सीधा नहीं है लेकिन यह संभव है। क्या एनवीआईडीआ

    5गर्मी

    1उत्तर

    मैं थोड़ा उलझन में हूं कि सीयूडीए कैसे काम करता है, क्या थ्रेड प्रत्येक एक ही निर्देश (सिम) निष्पादित करते हैं लेकिन अलग-अलग इंडेक्स के साथ एकल डेटा का उपयोग करते हैं? या इसे "अलग डेटा" माना जाता है (

    8गर्मी

    2उत्तर

    साझा मेमोरी एक्सेस करते समय केर्प्लर 2x या 4x फर्मि की बैंडविड्थ है? प्रोग्रामिंग गाइड राज्यों: (2.X के लिए) "प्रत्येक बैंक के अनुसार दो घड़ी चक्र 32 बिट के एक बैंडविड्थ है", और "प्रत्येक बैंक के अनुस

    6गर्मी

    4उत्तर

    में ओवरलैपिंग ट्रांसफर और डिवाइस गणना, मैं ओपनसीएल के साथ शुरुआत करने वाला हूं और मुझे कुछ समझने में कठिनाइयां हैं। मैं मेजबान और डिवाइस के बीच एक छवि के स्थानान्तरण में सुधार करना चाहता हूं। मैंने मु

    5गर्मी

    1उत्तर

    मैं ओपनएसीसी (पीजीआई के कंपाइलर के साथ) सीख रहा हूं और मैट्रिक्स गुणा उदाहरण को अनुकूलित करने की कोशिश कर रहा हूं। void matrix_mul(float *restrict r, float *a, float *b, int N, int accelerate){ #pra

    5गर्मी

    3उत्तर

    मैंने ओपनसीएल सीखना शुरू कर दिया है और मैं वर्तमान में परीक्षण करने की कोशिश करता हूं कि मैं एक साधारण कंकाल एनीमेशन एल्गोरिदम के लिए प्रदर्शन में कितना सुधार कर सकता हूं। ऐसा करने के लिए मैंने एक प्र

    41गर्मी

    3उत्तर

    जब cudaDeviceSynchronize फ़ंक्शन पर कॉल कर रहा है तो वास्तव में आवश्यकता है? जहां तक ​​मैं सीयूडीए दस्तावेज से समझता हूं, सीयूडीए कर्नेल असीमित हैं, इसलिए ऐसा लगता है कि हमें प्रत्येक कर्नेल लॉन्च के

    6गर्मी

    1उत्तर

    मेरे पास एक ऐसा एप्लिकेशन है जो CUDA में समीकरणों की एक प्रणाली को हल करता है, मुझे यकीन है कि प्रत्येक थ्रेड को 4 समाधान मिल सकते हैं, लेकिन फिर मैं मेजबान पर वापस कैसे कॉपी कर सकता हूं? मैं सभी थ्रे