simd

    5गर्मी

    1उत्तर

    में न्यूनतम 4 एसपी मानों का मानना ​​है कि __m128 वैरिएबल होल्डिंग 4 एसपी मान हो, और आप न्यूनतम चाहते हैं, क्या कोई अंतर्निहित फ़ंक्शन उपलब्ध है, या मूल्यों के बीच बेवकूफ रैखिक तुलना के अलावा कुछ भी है

    8गर्मी

    1उत्तर

    एसएसई कमी एसएसई इंट्रिनिक्स का उपयोग कर फ्लोट वेक्टर के योग तत्व (कमी) कैसे प्राप्त कर सकता हूं? सरल सीरियल कोड: void(float *input, float &result, unsigned int NumElems) { result = 0; for(a

    6गर्मी

    2उत्तर

    दो 64-बिट पूर्णांक को दो 64-बिट पूर्णांक से गुणा कैसे करें? मुझे कोई निर्देश नहीं मिला जो इसे कर सकता है।

    23गर्मी

    1उत्तर

    उन्नत वेक्टर एक्सटेंशन (AVX) _m256_cmp_ps की तरह निर्देश तुलना में, अंतिम तर्क एक विधेय तुलना है। भविष्यवाणी के लिए विकल्प मुझे जबरदस्त करते हैं। वे टाइप, ऑर्डरिंग, सिग्नलिंग का ट्रिपल प्रतीत होते हैं

    6गर्मी

    1उत्तर

    SSE के साथ के लिए 256-बिट बराबर आप आंतरिक _mm_load1_ps() AVX साथ 256 बिट विस्तृत SIMD का उपयोग करते समय के साथ एक __m128 के सभी 4 स्लॉट में स्मृति से एक भी नाव लोड कर सकते हैं, वहाँ हो रहा है कोई _mm2

    6गर्मी

    1उत्तर

    मैं विजुअल सी ++ 2012 का उपयोग कर एसएसई इंट्रिनिक्स के साथ शुरुआत कर रहा हूं और मुझे कुछ पॉइंटर्स चाहिए (कोई इरादा नहीं है)। मेरे पास दो एरे हैं जिनमें 4 signed short एस हैं (प्रत्येक सरणी इस प्रकार 6

    6गर्मी

    3उत्तर

    मैं एक विरल सरणी a (ज्यादातर शून्य) है: unsigned char a[1000000]; और मैं SIMD निर्देश का उपयोग कर a की गैर शून्य तत्वों को अनुक्रमित की एक सरणी b बनाना चाहेंगे AVX2 के साथ इंटेल x64 आर्किटेक्चर पर।

    7गर्मी

    1उत्तर

    में एक छवि और सोबेल फ़िल्टर ऑप्टिमाइज़ेशन की तेज ट्रांसपोजिशन मैं एक वास्तव में (वास्तव में) तेजी से Sobel operator को एक रे-ट्रैसर के लिए मेरे मित्र के लिए लागू करना चाहता हूं और मैंने लिखा (स्रोत he

    8गर्मी

    4उत्तर

    में सेट बिट्स की संख्या को तेजी से गिनती है मुझे __m128i रजिस्टर के सेट बिट्स की संख्या गिननी चाहिए। विशेष रूप से, मुझे दो फ़ंक्शन लिखना चाहिए जो निम्न तरीकों का उपयोग करके रजिस्टर के बिट्स की संख्या

    9गर्मी

    2उत्तर

    मैंने here पढ़ा है कि इंटेल ने स्ट्रिंग प्रोसेसिंग को तेज करने के लिए SSE 4.2 instructions पेश किया था। लेख से उद्धरण: SSE 4.2 अनुदेश सेट, पहले इंटेल कोर i7 में लागू, स्ट्रिंग और पाठ प्रोसेसिंग निर्दे