-
如何在VS中将常规c ++项目更新为cuda运行时项目?
如何在Visual Studio 2019中将常规VC ++项目更新为cuda运行时项目? 我尝试添加vcxproj项目文件的cuda标记 -
Python Numba Cuda比JIT慢
我目前正在通过将其卸载到GPU来加速某些数值处理。我在下面有一些演示代码(实际代码会更复杂)。 -
cv :: cuda :: Stream选择线程默认流
我们正在使用<code>-default-stream=per-thread</code>进行编译,以获取CUDA的每个线程流。但是,当我们执行以下 -
cudaMallocManaged和cudaDeviceSynchronize()
我有以下两个基本相同的示例代码。 <strong> code1.cu </strong>使用<code>cudaMalloc</code>和<code>cudaMemcpy</code>处理 -
如何使用别名简化CUDA_VISIBLE_DEVICES
我可以使用<code>alias gpu0='CUDA_VISIBLE_DEVICES=0'</code>设置gpu0,但是如果<code>CUDA_VISIBLE_DEVICES=0,1,2</code> -
CUDA NppiBorderType到底能做什么?
我目前正在玩CUDA和NVIDIA 2D图像和信号性能基元(NPP),例如高斯滤波器 您可以在其中指定过滤器 -
如何有效地覆盖GPU上的内存区域?
我在GPU上分配了数据块。而且我有一种算法可以生成新数据来代替旧数据。新缓冲区具有相同的数据大 -
传输具有CUDA内存管理功能的CUDA阵列
CUDA内存管理功能: 我实际上不理解传递给处理CUDA数组的函数的一些参数。 这是<a href="http -
Cupy编译器异常
我正在尝试使用在CentOS下使用Slurm Scheduler在计算服务器上使用cupy的python软件包,并且在尝试使用该软件 -
CUDA根据给定的量化级别对一维数组进行量化
我正在尝试开发CUDA内核以量化一维数组,给定一个排序的量化级别数组。使用二叉搜索树,我可以遍历 -
我想在cuda源代码中将float更改为double
我想将浮点数更改为两倍。我试图将float的数据类型更改为double,但这不是我所期望的,并导致了错误。 -
如何解决Numba中的CudaAPIError:cuModuleLoadDataEx错误:
我正在使用Numba CUDA来加速我的程序,但是遇到CUDA API错误,但没有错误消息。这是什么意思?输出如下 -
多个进程可以共享一个CUDA上下文吗?
这个问题是Jason R对<a href="https://stackoverflow.com/questions/29964392/multiple-cuda-contexts-for-one-device-any-sense#comment664 -
SDKManager安装-没有ARM文件
NVIDIA提供的l4t-base:r32.2.1基本映像(jetson)没有cuda二进制文件 Pytorch正在寻找。我无法从Jetpack 4.2.2(特 -
静态__device__变量和内核在单独的文件中
我想用<code>__device__</code>限定符静态声明一个全局变量。同时,我想将用于GPU的函数存储在单独的文件中 -
交叉编译c / c ++ / cuda程序时尝试使用CMake
我正在尝试使用CMake交叉编译程序,但此消息失败: <pre class="lang-sh prettyprint-override"><code>/bin/sh: 1: Syn -
使用Caffe和CUDA的C ++程序
我尝试使用Cuda运行程序。 构建Caffe并进行运行测试很好。 但是当我编译一个简单的代码时 -
为什么我的CUDA突然不能用于Pytorch,而不能用于Tensorflow?
我正在使用的计算机与Titan XP一起运行,并运行Ubuntu 18.10。我不是所有者,所以不确定之前的配置方式。 -
不明白为什么在CUDA中列添加比行添加要快
我从CUDA开始,编写了两个用于实验的内核。 乳清都接受3个指向n * n(矩阵仿真)和n数组的指针。 <p -
运行基本的CUDA程序,但没有得到输出
这是一个非常简单的CUDA程序,但是当我运行此代码时,不会打印Hello world。 但是,如果我删除方 -
链接通过clang编译.cu文件生成的.ll文件
我正在使用clang编译以下代码: <code>clang++ -std=c++11 -emit-llvm -c -S $1 --cuda-gpu-arch=sm_30</code>。这将生成<code>v -
指令“ ld”和“ add”的参数不匹配
我想知道为什么下面的<code>asm</code>指令包含在cuda代码中 <pre><code>__global__ void access( double *posArray ) { -
LU分解在LAPACK和cuBLAS / cuSOLVER之间收到不同的结果
我正在测试一些场景,其中与为<code>dgetrf</code>编写函数相比,与<code>cuBLAS/cuSOLVER</code>一起使用时返回函 -
使用CUDA和Java中的IBM Open SDK将阵列乘法卸载到GPU
我正尝试使用CUDA(特别是CUDA4J)和Windows上的Eclipse IBM开发包,通过GPU并行优化Java软件项目。 但是 -
如何通过numba在CUDA中顺序执行代码?
我想按顺序执行cuda线程。例如, <a href="https://i.stack.imgur.com/MlZNA.jpg" rel="nofollow noreferrer"><img src="https://i.s -
将RGB图像转换为灰度时,我的输出是黑色图像
我正在尝试将RGB图像转换为灰度图像,我正在使用Lena.jpg图像。我在<code>TODO</code>部分中添加了一些代码 -
如何测量cudaMalloc执行时间
如何使用cuda事件测量cudaMalloc的执行时间? 我可以通过事件来测量内核时间和cudaMemcpy时间,但不适用于c -
如何将文件从主机复制到GPU设备?
我有一个C代码,该文件读取一个文件,该文件中填充有以块为单位的数据(称为帧),然后获取每个帧 -
CUDA返回值错误35是什么意思?
<strong>我的简单C ++ cuda代码的源代码</strong> <pre><code>#include <iostream> #include <cuda.h> using names -
获取CUDA上下文的内存使用情况
有没有一种方法可以获取cuda上下文内存使用量,而不必使用仅报告设备全局信息的cudaMemGetInfo?或者至