intrinsics

从AVX-512向量中提取底部的32位元素

要从<code>__m512i</code>中获取最不重要的元素，还有其他比这更尴尬的事情吗？ <pre><code>int extract_bottom

前端之家
2022-08-16 • 问答
使用avx2从两个向量中检索和交织元素

给出avx2中的两个单精度浮点向量a和b： a：[0; 1; 2; 3; 4; 5; 6; 7] b：[8; 9; 10； 11; 12; 13; 14; 15] <

前端之家
2022-08-16 • 问答
AVX2收集指令用法详细信息

我试图了解AVX2 intel内在函数的收集功能。根据官方文档<a href="https://economictimes.indiatimes.com/industry/

前端之家
2022-08-15 • 问答
深入了解__shfl__sync（）中的第一个参数掩码

这是广播变量的测试代码： <pre><code>#include <stdio.h> #include <cuda_runtime.h> __global__ void broadcast(

前端之家
2022-08-15 • 问答
16字节宽的VTBL是否有Armv8-A固有的？

根据我经常使用的来源<a href="https://developer.arm.com/architectures/instruction-sets/simd-isas/neon/intrinsics?search=vtbl" re

前端之家
2022-08-14 • 问答
__shfl_up_sync调用中的掩码是否自适应？

基本上，它是<a href="https://stackoverflow.com/questions/58833808/insight-into-the-first-argument-mask-in-shfl-sync">this post</a>

前端之家
2022-08-14 • 问答
C ++ AVX2内在函数非标准大小

我正在尝试在C ++中使用AVX2内在函数。我正在使用浮点数<code>(__m256)</code>。现在有8个可容纳在寄存器中

前端之家
2022-08-14 • 问答
在C ++中是否转换为simd类型的未定义行为？

在simd教程中，我找到了以下代码段。 <pre><code>void simd(float* a, int N)

前端之家
2022-08-14 • 问答
如何以编程方式检查是否在CPU上启用了融合多加（FMA）指令？

我想使用FMA内部指令_mm256_fmadd_pd（a，b，c），但是我的代码必须在启用或未启用FMA的不同计算机上运行

前端之家
2022-08-14 • 问答
等效于_mm_movelh_ps

因为没有<code>_mm_movelh_ps</code>的AVX版本，所以我通常使用<code>_mm256_shuffle_ps(a, b, 0x44)</code>代替AVX寄存器。

前端之家
2022-08-13 • 问答
根据相机高度计算由广角/短焦距镜头引起的每像素厘米变形

考虑到具有视角<code>fov</code>，以厘米为单位<code>height</code>的安装高度和框架为<code>image</code>的高架摄像

前端之家
2022-08-13 • 问答
使用SSE

假设我们以主行顺序存储了此2d（3,4）数组： <pre><code>0 1 2 3 | 4 5 6 7 | 8 9 10 11 </code></pre> 我的目

前端之家
2022-08-13 • 问答
使用SSE从16个字节的字段生成位掩码

经过一些操作后，我有了一个SSE寄存器，如果满足某些条件，则16个字节中的每个字节均设置为最低位；

前端之家
2022-08-13 • 问答
使用变量__builtin_clz如何将文字0和0作为变量产生不同的行为？

在仅有<code>__builtin_clz</code>给出错误答案的情况下，只有一种情况。我很好奇是什么导致了这种行为。 </

前端之家
2022-08-13 • 问答
英特尔汇编程序与内在技术，AVX

我有一个简单的矢量-矢量加法算法（c = a + b * lambda），它使用AVX指令以intel汇编语言编写。这是我的代

前端之家
2022-08-12 • 问答
kotlin plus运算符的功能定义在哪里？

我只是在kotlin源代码中查找Primitives.kt文件的源代码，以查看'plus'运算符的功能代码。 <pre><code>/** Adds

前端之家
2022-08-12 • 问答
使用AVX2指令向左移128位数字

我正在尝试在AVX2中向左旋转128位数字。由于没有这样做的直接方法，因此我尝试使用左移和右移来完成

前端之家
2022-08-11 • 问答
是否存在一个x86内在函数，可从内存中的32位浮点值到512位寄存器生成AVX512广播操作？

该指令存在（<code>vbroadcastss zmm/m32</code>），但似乎没有内在的生成指令。我可以将其编码为 <p

前端之家
2022-08-11 • 问答
英特尔将指令存储在仔细重叠的内存区域中所有这一切都没有意义，因为有一种更有效的方法掩膜店：

我必须将YMM寄存器中的低3个double存储到大小为3的未对齐double数组中（也就是说，无法写入第4个元素）

前端之家
2022-08-02 • 问答
如何从预处理器启用内部函数

我可以通过使用查找表找到16位值的第n个设置位，但是对于32位值，如果不将其分解并使用多个LUT则无法

前端之家
2022-08-02 • 问答
cmake CheckSymbolExists用于内在

我想使用cmake检查诸如<code>_mm_popcnt_u32</code>或<code>_mm_blendv_epi8</code>之类的intel内在函数。但是，根据编译

前端之家
2022-08-02 • 问答
如何用gcc或clang模拟_mm256_loadu_epi32？

英特尔的内部指南列出了内部<a href="https://software.intel.com/sites/landingpage/IntrinsicsGuide/#expand=294,3100,3007,3007,3

前端之家
2022-08-01 • 问答
_mm256_broadcast_ss（）的C ++ AVX512内在等效项？

我正在将代码从AVX2重写为AVX512。我可以用来将单个浮点数广播到_mm512向量的等效项是什么？在AVX2

前端之家
2022-07-28 • 问答
C＃SIMD Vector <int>未正确初始化

所以我正在使用C＃中的SIMD /内部函数。在向Microsoft报告此错误之前，我想知道我是否做错了。

前端之家
2022-07-26 • 问答
使用AVX512将打包的64位整数转换为带符号饱和的打包的8位整数

我正在寻找一种将打包的64位整数饱和为8位整数的解决方案。看着<code>_mm256_cvtepi64_epi8</code>，但它并未

前端之家
2022-07-22 • 问答
_mm256_movemask_epi8到uint64_t

有人可以向我解释为什么 tr2 和 tr4 显示不同的结果： <pre><code><script src=&

前端之家
2022-07-19 • 问答
如果将方法用作constexpr，是否要退出实现？

给出一个辅助方法，该方法进行一些位操作，该方法有时在运行时使用，有时用作 constexpr 参数：

前端之家
2022-07-18 • 问答
AWS CFT Fn :: Sub与数组

本着DRY的精神，我正在更新旧版S3 + CFT JSON脚本，该脚本可在多个环境（Dev，QA和Prod）中控制S3策略。该

前端之家
2022-07-17 • 问答
用内在函数初始化__m128i常数的最快方法？

当前，我有一个__m128i变量，我们称之为<code>X</code>。我想用一个恒定的128bit值对其进行异或，然后将该

前端之家
2022-07-16 • 问答
SIMD减少4个向量而没有hadd

我正在尝试优化一些代码，并且处于4个向量<code>__m256d</code>的状态下，我想将每个向量的和存储在另一

前端之家
2022-07-16 • 问答

首页

下一页
末页