avx2 - 前端之家

使用AVX2和SSE2进行位向量运算

我是AVX2和SSE2指令集的新手，我想学习更多有关如何使用此类指令集来加速位向量运算的信息。到

前端之家
2022-08-16 • 问答
使用AVX2

我正在使用乘法（加上其他运算）代替整数除法。我的解决方案最终要求我将2个32位数字相乘并取前32位

前端之家
2022-08-16 • 问答
使用avx2从两个向量中检索和交织元素

给出avx2中的两个单精度浮点向量a和b： <br/> a：[0; 1; 2; 3; 4; 5; 6; 7] <br/> b：[8; 9; 10； 11; 12; 13; 14; 15] <

前端之家
2022-08-16 • 问答
英特尔SIMD内部函数：_mm256_i64scatter_pd

我在编译英特尔SIMD散点内在函数时遇到麻烦。我已经将原始代码简化为： <pre><code>double *tmpMemoryDouble

前端之家
2022-08-15 • 问答
计算AVX2向量中每个元素的前导零位，模拟_mm256_lzcnt_epi32

在AVX512中，有一个固有的<code>_mm256_lzcnt_epi32</code>，它返回一个向量，对于8个32位元素中的每个元素，该

前端之家
2022-08-15 • 问答
使用AVX-2的32-1024位定点矢量算法

对于mandelbrot生成器，我想使用定点算法，在放大时从32位提高到1024位。现在，由于缺少带进位的

前端之家
2022-08-15 • 问答
AVX2收集指令用法详细信息

我试图了解AVX2 intel内在函数的收集功能。根据官方文档<a href="https://economictimes.indiatimes.com/industry/

前端之家
2022-08-15 • 问答
uint32_t * uint32_t = uint64_t与gcc的向量乘法

我正在尝试将<code>uint32_t</code>的向量乘以产生完整的64位结果，以gcc的<code>uint64_t</code>向量。我期望的结

前端之家
2022-08-15 • 问答
为什么AVX2和SSE2的按位OR运算符没有比简单的运算符快？操作员？

我正在尝试使用32位整数对非常长的二进制向量进行按位或运算。在此示例中，我们可以假设<em> n

前端之家
2022-08-15 • 问答
C ++ AVX2内在函数非标准大小

我正在尝试在C ++中使用AVX2内在函数。我正在使用浮点数<code>(__m256)</code>。现在有8个可容纳在寄存器中

前端之家
2022-08-14 • 问答
使用AVX2指令向左移128位数字

我正在尝试在AVX2中向左旋转128位数字。由于没有这样做的直接方法，因此我尝试使用左移和右移来完成

前端之家
2022-08-11 • 问答
转换AVX2 / ymm寄存器内3位值的有效方法

我有一个有趣的问题，无法想到用矢量化代码解决的有效方法。我有一个<code>ymm</code>寄存器，其

前端之家
2022-08-11 • 问答
使用AVX进行正态分布

我正在研究一个问题，以计算粒子彼此反弹的可能性，并且需要计算正态分布的pdf和cdf。我想知道是否

前端之家
2022-08-11 • 问答
可以将以下代码进行AVX2向量化吗？

我分析了我的应用程序（> 30000个SLOC），发现该热点是以下代码片段： <pre><code>if(a > b) { b = b - 1

前端之家
2022-08-11 • 问答
使用AVX2 C ++的选择性加载

我正在尝试使用AVX2实现以下目标，但花了半天时间却无法完成。我尝试使用maskload和其他方法，但是还

前端之家
2022-08-11 • 问答
英特尔至强6130的理论FLOPS计算

我已经在服务器中执行了lscpu并发现了以下结果， <pre><code>Architecture: x86_64 CPU op-mode(s): 32

前端之家
2022-08-09 • 问答
比较Double AVX向量并将结果存储在整数AVX向量中

我一直在尝试解决以下问题，但还没有能够解决。我想知道是否有人可以帮助我。我已经使用了遮罩和

前端之家
2022-08-09 • 问答
收集AVX2＆512内在的16位整数？

想象一下这段代码： <pre><code>def get_values_in_common(x, y): return set(x) & set(y) </code></pre> 这确实要

前端之家
2022-08-08 • 问答
在WMWare Workstation 15播放器上模拟SSE2可用而AVX2不可用

我想创建一个可以在其中进行设置的虚拟机： <ul> <li>支持SSE2 </li> <li>不支持AVX2 </li> </ul> 我已经

前端之家
2022-08-08 • 问答
适用于x86的GCC：优化两对浮点数之和

我正在通过优化对下面的代码进行编译，并且看起来仍然存在使用底层硬件的SIMD功能执行这两个求和的

前端之家
2022-08-06 • 问答
缩小两台机器之间ddot的差异

我目前有两台机器，它们在两个向量上为<code>np.dot</code>的一个实例产生不同的输出。在不深入研究从NumP

前端之家
2022-08-06 • 问答
AVX2：计算512个浮点数组的点积

首先，我将是SIMD内部函数的完整入门者。从本质上讲，我有一个支持AVX2内部（<code>Intel(R) Core(TM)

前端之家
2022-08-04 • 问答
当我试图清除classifier.py文件时，出现这些错误，有人可以帮助我清除这些错误吗？

（tensorflow） <blockquote> C：\ Users \ pratap \ youcode> python classify.py -i test-pos使用 TensorFlow后端。 2020-

前端之家
2022-08-01 • 问答
_mm256_broadcast_ss（）的C ++ AVX512内在等效项？

我正在将代码从AVX2重写为AVX512。我可以用来将单个浮点数广播到_mm512向量的等效项是什么？在AVX2

前端之家
2022-07-28 • 问答
从填充0的数组加载到256位AVX2寄存器

我想将4个double加载到256位寄存器中，如果数组大小小于4，则用0填充。 <pre><code>function calculateDamage(yo

前端之家
2022-07-25 • 问答
如何将SSE汇编代码转换为AVX1 / 2汇编代码？

我正在尝试使用NASM或MASM（Intel语法）将功能从AVX转换为AVX2。特别是： <pre><code>vmovapd xmm0, XMMWORD PTR [r

前端之家
2022-07-23 • 问答
使用/ arch：AVX2向指针添加0时的MSVC编译器错误；与警告C26451有关

使用/ O2，/ Ob2和/ arch：AVX2标志编译以下代码后，我遇到了一个错误。我在Win64上使用Microsoft Visual Studio Co

前端之家
2022-07-18 • 问答
水平添加，256位寄存器

我在ymm寄存器中有32个值，所有值均为1字节大小。我要添加它们，水平添加。在内部指南中，我

前端之家
2022-07-16 • 问答
Cython使用SIMD内部崩溃

我正在尝试将Cython用于SIMD（AVX2）。我的CPU确实支持它。我在这里执行SSE的代码中找到了。 <a href=

前端之家
2022-07-12 • 问答
具有AVX SIMD的Cython：代码可以正确运行一次，但是如果需要再次运行，则挂起

我对SIMD内在函数还是非常陌生的，并通过Cython进行了第二次尝试。在这里的人提供了一些帮助之后（非

前端之家
2022-07-12 • 问答

首页

下一页
末页