c – 在CUDA中编写内核函数的正确方法？

2019-11-04 原文

我即将开始将我写入CUDA的程序转换为希望提高处理速度.

现在显然我的旧程序一个接一个地执行许多函数,我已经在主程序中分离了这些函数并按顺序调用每个函数.

void main ()
{
  *initialization of variables*
  function1()
  function2()
  function3()
  print result;
}

这些函数本质上是串行的,因为funtion2取决于funtion1的结果.

好的,现在我想将这些函数转换为内核,并在函数中并行运行任务.

是否像以并行方式重写每个函数一样简单,然后在我的主程序中,一个接一个地调用每个内核？这比它需要的慢吗？例如,我可以让GPU直接执行下一个并行操作而无需返回cpu来初始化下一个内核吗？

显然,我会将所有运行时变量保留在GPU内存上以限制正在进行的数据传输量,所以我是否应该担心内核调用之间的时间？

我希望这个问题很清楚,如果没有,请让我详细说明.
谢谢.

这是一个额外的问题,以便我可以检查我的理智.最终这个程序的输入是一个视频文件,通过不同的功能,每一帧都会产生一个结果.我的计划是一次抓取多个帧(比如8个独特的帧),然后除以这8个帧中我拥有的块总数,然后块中的多个线程将对图像数据进行更多的并行操作,例如矢量加法,傅里叶变换等.
这是解决问题的正确方法吗？

解决方法

在某些情况下,您可以在GPU上以完全潜在的速度运行程序,而只需很少的移植工作来处理普通的cpu版本,这可能就是其中之一.

如果您有可能拥有这样的功能：

void process_single_video_frame(void* part_of_frame)
{
  // initialize variables
  ...
  intermediate_result_1 = function1(part_of_frame);
  intermediate_result_2 = function2(intermediate_result_1);
  intermediate_result_3 = function3(intermediate_result_2);
  store_results(intermediate_result_3);
}

并且您可以同时处理许多part_of_frames.说,几千,

和function1(),function2()和function3()经历了几乎相同的代码路径(也就是说,程序流程并不严重依赖于框架的内容),

那么,本地记忆可能会为你做所有的工作.本地内存是一种存储在全局内存中的内存.它以一种微妙但深刻的方式与全局内存不同……内存只是交错,相邻线程将访问相邻的32位字,如果所有线程都读取,则使内存访问完全合并其本地内存阵列的相同位置.

您的程序流程是您首先将part_of_frame复制到本地数组并准备其他本地数组以获得中间结果.然后,将指针传递给代码中各种函数之间的本地数组.

一些伪代码：

const int size_of_one_frame_part = 1000;

__global__ void my_kernel(int* all_parts_of_frames) {
    int i = blockIdx.x * blockDim.x + threadIdx.x;
    int my_local_array[size_of_one_frame_part];
    memcpy(my_local_array,all_parts_of_frames + i * size_of_one_frame_part);
    int local_intermediate_1[100];
    function1(local_intermediate_1,my_local_array);
    ...
}

__device__ void function1(int* dst,int* src) {
   ...
}

总之,这种方法可以让您使用cpu功能几乎不变,因为并行性不是来自创建函数的并行版本,而是通过并行运行整个函数链.并且通过在本地阵列中交错存储器的硬件支持再次实现了这一点.

笔记：

> part_of_frame从全局到本地内存的初始副本未合并,但希望您有足够的计算来隐藏它.>在计算能力<= 1.3的设备上,每个线程只有16KiB的本地内存可用,这对于你的part_of_frame和其他中间数据可能是不够的.但是在计算能力> = 2.0时,这已经扩展到512KiB,这应该是充足的.

c – 在CUDA中编写内核函数的正确方法？的更多相关文章

PyTorch中的CUDA的操作方法

这篇文章主要介绍了PyTorch中的CUDA的操作方法，CUDA是NVIDIA推出的异构计算平台，PyTorch中有专门的模块torch.cuda来设置和运行CUDA相关操作，更多相关介绍，需要的朋友可以查看下面文章内容
是否可以在另一个GPU（2 GPU系统）中处理数据

我的算法需要对每个相机的数据进行长期处理，因此每个相机都需要访问相同的GPU内存问题在一个GPU中处理4个摄像头可能会导致内存不足。所以，我认为一个GPU只能处理两个摄像头。但在第一时间，如果cam3在GPU0处被处理，则cam3数据不能在GPU1处处理。我想将cam3数据从GPU0复制到GPU1，但它并没有那么小，所以看起来效率很低。是否可以在GPU1上使用GPU0数据进行处理而无需内存？我在CUDA方面很短，所以如果有好的关键词来解决这个问题，请告诉我。
如何编写CUDA内核来加速python代码

几周来，我一直在学习python作为我的第一种编程语言。我决定用Numba编写一个乐透模拟。该代码在我的CPU上每秒大约250k次迭代时运行得很好。我真的很想看看它是如何在我的英伟达GPU上运行的，但我有点力不从心。如果有人能帮我一把，我将非常感激。我想我应该能够运行float16，因为数字并不复杂。此外，@vectorize似乎很重要。但是，老实说，我在踩水。
为什么cuGraphAddMemCopyNode已经获得了两个上下文，却需要额外的上下文？

考虑CUDA图形API函数在此描述。它采用的CUDA_MEMCPY3D结构是一组非常广泛的参数。实际上，它包含两个上下文句柄字段：srcContext和dstContext，用于定义源和目标内存区域或数组的上下文。然而，该函数需要额外的第三个上下文句柄。但是，这意味着什么？节点是一个图，它通过具有上下文的流启动。除此之外，为什么这很重要？两个端点上下文应该足以让CUDA驱动程序执行复制。虽然大多数节点插入API函数都没有？
windows – 未检测到支持CUDA的设备

我是CUDA编程的新手,我完全陷入困境.当我尝试运行提供的deviceQuery实用程序或其中一个示例应用程序时,我收到以下错误：我使用的是Windows7,64位.我安装了VisualStudio2012,然后安装了CUDA5.064位.我的显卡是NVIDIAGeForceGTS250.今天我去了NVIDIA网站并重新安装了该卡的最新驱动程序.除了“确保安装了正在运行的驱动程序”之外,我在Win
windows – 安装Tensorflow的问题 – 不是CUDA / CuDNN问题

我最近开始进入Tensorflow,但我遇到了安装问题.每次我尝试导入它时,我都会收到以下错误我查看了与我有同样问题的其他堆栈溢出帖子,他们建议从NVIDIA获取CUDA库.问题是,我既没有NVIDIA显卡也没有GPU版本的张量流,所以我不认为这是问题所在.还有一些建议可以确保安装VisualStudio的Microsoft可再发行组件.如果这是一个基于系统变量的问题,我很感激帮助改变系统变量,因为我是新手.谢谢！
如何在Windows上模拟CUDA

有没有什么方法可以从没有NVIDIA显卡的电脑上测试CUDA样品和代码？
Windows – 编译没有Visual Studio的CUDA – “在路径中找不到编译器cl.exe”

我刚刚在CUDA开始了一个小项目.我需要知道如下：是否可以编译CUDA代码而不使用/购买MicrosoftVisualStudio？使用Nvcc.exe我得到错误“找不到编译器cl.exe在路径”.我试图为NetBeans安装一个CUDAplugin,但它不起作用.(使用当前版本的NetBeans)平台：Windows7提前致谢.更新如评论中所述,Windows7之后的SDK版本不包括构建工具.如
在Ubuntu 12.10中安装cuda 5样本

我正在安装cuda5样本：但是我收到这个错误：但：nvidia安装程序正在寻找什么？Ubuntu12.10中没有/usr/lib64：我也在运行Ubuntu12.10,我发现这个库在文件夹/usr/lib/x86_64-linux-gnu/之后安装freeglut3包.我也做了一个softlink,我已经能够安装CUDA5.0的例子：我还没有检查样品是否可以编辑.
Ubuntu18+cuda9.0+cudnn+tensorflow+GPU1080Ti+protobuf-3.6.0

环境：ubuntu18.04LTS，python3.6.5目标环境：cuda9.0cuDNN7.0.5_for_cuda9.0tensorflow任意依照https://blog.csdn.net/ShellDawn/article/details/80274534我也安装了一些依赖项：sudoapt-getinstallfreeglut3-devbuild-essentiallibx11libxmulibxilibgl1-mesa-glxlibglu1-mesalibfreeimage3libfreei

随机推荐

从C到C#的zlib(如何将byte []转换为流并将流转换为byte [])

我的任务是使用zlib解压缩数据包(已接收),然后使用算法从数据中生成图片好消息是我在C中有代码,但任务是在C#中完成C我正在尝试使用zlib.NET,但所有演示都有该代码进行解压缩(C#)我的问题：我不想在解压缩后保存文件,因为我必须使用C代码中显示的算法.如何将byte[]数组转换为类似于C#zlib代码中的流来解压缩数据然后如何将流转换回字节数组？
为什么C标准使用不确定的变量未定义？

垃圾价值存储在哪里,为什么目的？解决方法由于效率原因,C选择不将变量初始化为某些自动值.为了初始化这些数据,必须添加指令.以下是一个例子：产生：虽然这段代码：产生：你可以看到,一个完整的额外的指令用来移动1到x.这对于嵌入式系统来说至关重要.
如何使用命名管道从c调用WCF方法？

更新：通过协议here,我无法弄清楚未知的信封记录.我在网上找不到任何例子.原版的：我有以下WCF服务我输出添加5行,所以我知道服务器是否处理了请求与否.我有一个.NET客户端,我曾经测试这一切,一切正常工作预期.现在我想为这个做一个非托管的C客户端.我想出了如何得到管道的名称,并写信给它.我从here下载了协议我可以写信给管道,但我看不懂.每当我尝试读取它,我得到一个ERROR_broKEN_P
“这”是否保证指向C中的对象的开始？

我想使用fwrite将一个对象写入顺序文件.班级就像当我将一个对象写入文件时.我正在游荡,我可以使用fwrite(this,sizeof(int),2,fo)写入前两个整数.问题是：这是否保证指向对象数据的开始,即使对象的最开始可能存在虚拟表.所以上面的操作是安全的.解决方法这提供了对象的地址,这不一定是第一个成员的地址.唯一的例外是所谓的标准布局类型.从C11标准：(9.2/20)Apointe
c – 编译单元之间共享的全局const对象

当我声明并初始化一个const对象时.两个cpp文件包含此标头.和当我构建解决方案时,没有链接错误,你会得到什么如果g_Const是一个非const基本类型！PrintInUnit1()和PrintInUnit2()表明在两个编译单元中有两个独立的“g_Const”具有不同的地址,为什么？
什么是C名称查找在这里？ (&GCC对吗？)

为什么在第三个变体找到func,但是在实例化的时候,原始变体中不合格查找找不到func？解决方法一般规则是,任何不在模板定义上下文中的内容只能通过ADL来获取.换句话说,正常的不合格查找仅在模板定义上下文中执行.因为在定义中间语句时没有声明func,并且func不在与ns::type相关联的命名空间中,所以代码形式不正确.
c – 在输出参数中使用auto

有没有办法在这种情况下使用auto关键字：当然,不可能知道什么类型的.因此,解决方案应该是以某种方式将它们合并为一个句子.这可用吗？解决方法看起来您希望默认初始化给定函数期望作为参数的类型的对象.您无法使用auto执行此操作,但您可以编写一个特征来提取函数所需的类型,然后使用它来声明您的变量：然后你就像这样使用它：当然,只要你重载函数,这一切都会失败.
在C中说“推动一切浮动”的确定性方式

鉴于我更喜欢将程序中的数字保留为int或任何内容,那么使用这些数字的浮点数等效的任意算术最方便的方法是什么？说,我有我想写通过将转换放在解析的运算符树叶中,无需将表达式转化为混乱是否可以使用C风格的宏？应该用新的类和重载操作符完成吗？解决方法这是一个非常复杂的表达.更好地给它一个名字：现在当您使用整数参数调用它时,由于参数的类型为double,因此使用常规的算术转换将参数转换为double用C11lambda……
objective-c – 如何获取未知大小的NSArray的第一个X元素？

在objectiveC中,我有一个NSArray,我们称之为NSArray*largeArray,我想要获得一个新的NSArray*smallArray,只有第一个x对象…
c – Setprecision是混乱

我只是想问一下setprecision,因为我有点困惑.这里是代码：其中x=以下：方程的左边是x的值.1.105=1.10应为1.111.115=1.11应为1.121.125=1.12应为1.131.135=1.14是正确的1.145=1.15也正确但如果x是：2.115=2.12是正确的2.125=2.12应为2.13所以为什么在一定的价值是正确的,但有时是错误的？请启发我谢谢解决方法没有理由期望使用浮点系统可以正确地表示您的帖子中的任何常量.因此,一旦将它们存储在一个双变量中,那么你所拥有的确切的一