cuda - DEVMAX

c – 如何在CUDA应用程序中构建最佳速度的数据

我正在尝试编写一个简单的粒子系统,利用CUDA来更新粒子位置.现在我定义一个粒子具有一个定义了三个浮点值的位置的对象,还有一个用三个浮点值定义的速度.当更新粒子时,我为速度的Y分量添加一个恒定值来模拟重力,然后将速度加到当前位置,以获得新的位置.在内存管理方面,最好是维护两个独立的浮动数组来存储数据或以面向对象的方式进行结构化.这样的东西看起来像数据的大小是相同的(每个浮点数为4个字节,每个Vec

为什么cuGraphAddMemCopyNode已经获得了两个上下文，却需要额外的上下文？

考虑CUDA图形API函数在此描述。它采用的CUDA_MEMCPY3D结构是一组非常广泛的参数。实际上，它包含两个上下文句柄字段：srcContext和dstContext，用于定义源和目标内存区域或数组的上下文。然而，该函数需要额外的第三个上下文句柄。但是，这意味着什么？节点是一个图，它通过具有上下文的流启动。除此之外，为什么这很重要？两个端点上下文应该足以让CUDA驱动程序执行复制。虽然大多数节点插入API函数都没有？

CUDA设备代码支持的真正的C语言结构是什么？

例如,此代码的作用是：我也可以使用广泛的库,如推力::随机生成类.我唯一的猜测是,我可以这样做,因为__device__标记函数的自动内联,但这并不解释成员变量的处理.您是否在相同条件下使用过这些功能,还是可以向我解释为什么我的CUDA代码行为如此？

带CUDA的大整数加法

解决方法你是对的,进位传播可以通过前缀和计算完成,但是定义这个操作的二进制函数有点棘手,并证明它是关联的.事实上,这个算法(理论上)在Carry-lookaheadadder中被使用.假设我们有两个大的整数a[0..n-1]和b[0..n-1].然后我们计算：我们定义了两个功能：具有相当直观的意义：generate[i]==1表示进位是在…

CUDA：__syncthreads()里面的if语句

我有一个关于CUDA同步的问题.特别是,我需要一些澄清if语句的同步.我的意思是,如果我把__syncthreads()放在一个if语句的范围之内,这个if语句是由块内的一小部分线程命中的,那会怎么样？在同步点之后获得的线程是否解锁阻塞等待线程？

c – CMDA的CUDA编译问题

我有使用CMake编译我的CUDA代码的问题.我使用CUDA7,nvcc的版本信息如下：我的CMake文件使用find_cuda宏如下：我添加了std=c11编译器标志后许多帖子建议这是需要的.但是,我得到完全相同的错误有或没有这个标志.我还添加了以下内容以从nvcc编译标志中删除C11支持,但是这也不会改变任何东西.我得到的错误如下：我正在使用gcc4.8,但是也会得到与4.7相同的错误.我在c

c – 尝试“制作”CUDA SDK,ld找不到库,ldconfig说可以

我知道还有很多其他类似于这个问题的问题,但是没有一个解决方案在我身上有所帮助基本上,制作SDK示例文件,我得到/usr/bin/ld：找不到-lcuda这将是一个很容易的“找到库并将其扔给ldconfig”,除了ldconfig已经说它有它…解决方法ldconfig仅处理运行时库,而ld处理构建时库.根据您如何安装CUDA库,您可能需要为buildtime中使用的符号链接安装一个附加软件包,或者您可能需要将一个-L选项传递给gcc或ld,以便告诉它在构建时间符号链接.

c – 在CUDA中使用SIMD实现位旋转运算符

我知道StackOverflow不是为了向其他人询问代码,而是让我说话.我正在尝试在CUDAC设备代码中实现一些AES函数.在尝试实现左侧按字节旋转运算符时,我感到不安的是看到没有原生的SIMD内向.所以我开始了一个天真的实现,但……它是巨大的,虽然我还没有尝试过,但由于昂贵的拆包/打包,它不会很快……所以,有什么意思吗每字节位旋转操作至少有些效率？如果您不想看看,这是代码.解决方法所有元素的旋转计数都相同,对吧？

PyTorch中的CUDA的操作方法

这篇文章主要介绍了PyTorch中的CUDA的操作方法，CUDA是NVIDIA推出的异构计算平台，PyTorch中有专门的模块torch.cuda来设置和运行CUDA相关操作，更多相关介绍，需要的朋友可以查看下面文章内容

是否可以在另一个GPU（2 GPU系统）中处理数据

我的算法需要对每个相机的数据进行长期处理，因此每个相机都需要访问相同的GPU内存问题在一个GPU中处理4个摄像头可能会导致内存不足。所以，我认为一个GPU只能处理两个摄像头。但在第一时间，如果cam3在GPU0处被处理，则cam3数据不能在GPU1处处理。我想将cam3数据从GPU0复制到GPU1，但它并没有那么小，所以看起来效率很低。是否可以在GPU1上使用GPU0数据进行处理而无需内存？我在CUDA方面很短，所以如果有好的关键词来解决这个问题，请告诉我。

cuda 首页 cuda

cuda

首页

cuda