simd

5गर्मी

1उत्तर

में न्यूनतम 4 एसपी मानों का मानना है कि __m128 वैरिएबल होल्डिंग 4 एसपी मान हो, और आप न्यूनतम चाहते हैं, क्या कोई अंतर्निहित फ़ंक्शन उपलब्ध है, या मूल्यों के बीच बेवकूफ रैखिक तुलना के अलावा कुछ भी है

8गर्मी

1उत्तर

फ्लोट वेक्टर

एसएसई कमी एसएसई इंट्रिनिक्स का उपयोग कर फ्लोट वेक्टर के योग तत्व (कमी) कैसे प्राप्त कर सकता हूं? सरल सीरियल कोड: void(float *input, float &result, unsigned int NumElems) { result = 0; for(a

6गर्मी

2उत्तर

एसएसई गुणा 2 64-बिट पूर्णांक

दो 64-बिट पूर्णांक को दो 64-बिट पूर्णांक से गुणा कैसे करें? मुझे कोई निर्देश नहीं मिला जो इसे कर सकता है।

23गर्मी

1उत्तर

कैसे AVX तुलना विधेय चुनने के लिए वेरिएंट

उन्नत वेक्टर एक्सटेंशन (AVX) _m256_cmp_ps की तरह निर्देश तुलना में, अंतिम तर्क एक विधेय तुलना है। भविष्यवाणी के लिए विकल्प मुझे जबरदस्त करते हैं। वे टाइप, ऑर्डरिंग, सिग्नलिंग का ट्रिपल प्रतीत होते हैं

6गर्मी

1उत्तर

AVX _mm_load1_ps

SSE के साथ के लिए 256-बिट बराबर आप आंतरिक _mm_load1_ps() AVX साथ 256 बिट विस्तृत SIMD का उपयोग करते समय के साथ एक __m128 के सभी 4 स्लॉट में स्मृति से एक भी नाव लोड कर सकते हैं, वहाँ हो रहा है कोई _mm2

6गर्मी

1उत्तर

एक्सएमएम रजिस्टर में 4 शॉर्ट्स के दो सेट कैसे लोड करें?

मैं विजुअल सी ++ 2012 का उपयोग कर एसएसई इंट्रिनिक्स के साथ शुरुआत कर रहा हूं और मुझे कुछ पॉइंटर्स चाहिए (कोई इरादा नहीं है)। मेरे पास दो एरे हैं जिनमें 4 signed short एस हैं (प्रत्येक सरणी इस प्रकार 6

6गर्मी

3उत्तर

विरल सरणी SIMD (AVX2) का उपयोग कर संपीड़न

मैं एक विरल सरणी a (ज्यादातर शून्य) है: unsigned char a[1000000]; और मैं SIMD निर्देश का उपयोग कर a की गैर शून्य तत्वों को अनुक्रमित की एक सरणी b बनाना चाहेंगे AVX2 के साथ इंटेल x64 आर्किटेक्चर पर।

7गर्मी

1उत्तर

सी (सिम)

में एक छवि और सोबेल फ़िल्टर ऑप्टिमाइज़ेशन की तेज ट्रांसपोजिशन मैं एक वास्तव में (वास्तव में) तेजी से Sobel operator को एक रे-ट्रैसर के लिए मेरे मित्र के लिए लागू करना चाहता हूं और मैंने लिखा (स्रोत he

8गर्मी

4उत्तर

__m128i रजिस्टर

में सेट बिट्स की संख्या को तेजी से गिनती है मुझे __m128i रजिस्टर के सेट बिट्स की संख्या गिननी चाहिए। विशेष रूप से, मुझे दो फ़ंक्शन लिखना चाहिए जो निम्न तरीकों का उपयोग करके रजिस्टर के बिट्स की संख्या

9गर्मी

2उत्तर

क्या जीसीसी उपलब्ध होने पर टेक्स्ट प्रोसेसिंग के लिए इंटेल के एसएसई 4.2 निर्देशों का उपयोग करता है?

मैंने here पढ़ा है कि इंटेल ने स्ट्रिंग प्रोसेसिंग को तेज करने के लिए SSE 4.2 instructions पेश किया था। लेख से उद्धरण: SSE 4.2 अनुदेश सेट, पहले इंटेल कोर i7 में लागू, स्ट्रिंग और पाठ प्रोसेसिंग निर्दे