वहाँ नहीं वास्तव में इस के लिए एक औपचारिक एल्गोरिथ्म है; आम तौर पर, रैखिक बीजगणित संचालन के इस प्रकार जहां पूरी समस्या स्मृति में एक साथ संग्रहीत नहीं होती है उन्हें "कोर से बाहर" परिचालन के रूप में जाना जाता है।
इसे हल करने के लिए, आपको विशेष रूप से विस्तृत एल्गोरिदम, केवल CUBLAS लाइब्रेरी और एक पेंसिल और पेपर की आवश्यकता नहीं है। उदाहरण के लिए, अगर आप इस तरह मैट्रिक्स उत्पाद विघटित कर सकते हैं:
जो आप चार स्वतंत्र उप आव्यूह गुणन संचालन देता है। इन्हें बहुत सरल मेजबान कोड का उपयोग करके CUBLAS रत्न में चार कॉल का उपयोग करके गणना की जा सकती है। आप समस्या को आकार और अपनी जीपीयू क्षमता से मेल खाने के लिए आवश्यकतानुसार कई उप-मैट्रिक्स को विचार बढ़ा सकते हैं। एक ही सिद्धांत का उपयोग कई जीपीयू पर मैट्रिक्स गुणात्मक समस्याओं को लागू करने के लिए भी किया जा सकता है (उदाहरण के लिए this question देखें)।
वैकल्पिक रूप से, आप हार्वर्ड में SciGPU-GEMM कोडबेस विकसित किए गए इस सटीक विचार का एक कार्यान्वयन कार्यान्वयन पा सकते हैं और HPL-CUDA लिनपैक कार्यान्वयन (अस्वीकरण: मैं बाद वाले कोडबेस से संबद्ध हूं)।
'[ए0; ए 1] * [बी 0 बी 1] = [ए0 * बी 0 ए0 * बी 1 जैसे मैट्रिस को बस विभाजित करने के बारे में क्या; ए 1 * बी 0 ए 1 * बी 1] '? वह शायद एक अच्छी शुरुआत है। – kangshiyin