मेरे पास एक ऐसा एप्लिकेशन है जो CUDA में समीकरणों की एक प्रणाली को हल करता है, मुझे यकीन है कि प्रत्येक थ्रेड को 4 समाधान मिल सकते हैं, लेकिन फिर मैं मेजबान पर वापस कैसे कॉपी कर सकता हूं?CUDA में धागे से डेटा कुशलता से एकत्र करने के लिए कैसे?
मैं सभी थ्रेड स्टोर 4 समाधान (प्रत्येक समाधान के लिए 4 युगल) के लिए पर्याप्त जगह के साथ एक विशाल सरणी पास कर रहा हूं, और दूसरा थ्रेड प्रति समाधान की संख्या के साथ, हालांकि यह एक निष्क्रिय समाधान है, और वर्तमान बाधा है मेरे कर्नेल का।
मैं वास्तव में इसे अनुकूलित करना चाहता हूं। मुख्य समस्या एक ही सरणी में प्रति थ्रेड के एक चर संख्या के समाधान को जोड़ती है।
यदि मैं आपके कार्यक्रम के बारे में कुछ और जानता था तो यह मदद करना बहुत आसान होगा। मेरे ज्ञान के लिए (यह लगभग एक साल हो गया है क्योंकि मैं कुडा के साथ गड़बड़ करता हूं इसलिए मैं गलत हो सकता हूं), जानकारी प्राप्त करने का एकमात्र तरीका ज्ञापन है और वे धीमे हैं। और किस कार्ड पर कुडा का संस्करण? – 8bitwide
मुझे एक CUDA 4.0 और 4.2 उपलब्ध है। – RSFalcon7
कोड यहां डालने के लिए बहुत बड़ा है। मैं मानता हूं कि cudaMemCpy परिणाम प्राप्त करने का यही एकमात्र तरीका है, लेकिन मैं कचरा प्रतिलिपि से बच सकता हूं। – RSFalcon7