मुझे केवल एक टिप्पणी मिली कि स्थानीय मेमोरी रजिस्टर मेमोरी, दो-प्रति-थ्रेड प्रकारों की तुलना में धीमी है।क्या स्थानीय मेमोरी CUDA में साझा स्मृति से धीमी है?
साझा स्मृति तेजी से माना जाना चाहिए, लेकिन यह स्थानीय स्मृति [थ्रेड के] से तेज है?
मैं जो करना चाहता हूं वह एक औसत फ़िल्टर है, लेकिन औसत के बजाय दिए गए प्रतिशत के साथ। इस प्रकार मुझे सूची के टुकड़े लेने, उन्हें क्रमबद्ध करने और फिर एक उपयुक्त चुनने की आवश्यकता है। लेकिन मैं साझा स्मृति सूची को हल करना शुरू नहीं कर सकता या चीजें गलत हो सकती हैं। क्या मैं बस स्थानीय मेमोरी की प्रतिलिपि बनाकर बहुत सारे प्रदर्शन खो दूंगा?
यह वास्तव में प्रोग्रामिंग से संबंधित नहीं है, है ना? मुझे गणित टैग के लिए एक मजबूत लिंक नहीं दिख रहा है। –
@Sjoerd C. de Vries: CUDA के संदर्भ में, यह एक प्रोग्रामिंग से संबंधित प्रश्न है - आर्किटेक्चर में एक समान वर्दी मेमोरी स्पेस है और प्रोग्रामर को स्पष्ट रूप से चुनना चाहिए कि किसी भी कोड में कौन से मेमोरी प्रकार और एक्सेसिंग विधियों का उपयोग किया जाना चाहिए लिखते हैं। यह CUDA प्रोग्रामिंग का एक मूल सिद्धांत है। – talonmies
@talonmies मैं समझता हूं कि, लेकिन फिर भी यह सवाल प्रोग्रामेटिक रूप से मेमोरी, मतभेद wrt एपीआई, प्रोग्रामिंग रजिस्ट्रार बनाम प्रोग्रामिंग साझा स्मृति आदि के बारे में नहीं है। यह मूल रूप से किस स्मृति प्रकार के बारे में है। यह एक हार्डवेयर सवाल है। मुझे लगता है कि ओपी को प्रश्न को दोबारा शुरू करना चाहिए, उदाहरण के लिए सीयूडीए में साझा स्मृति का उपयोग कर डेटा के एक निश्चित प्रतिशत को खोजने की अपनी समस्या की दिशा में। –