c – 并行任务通过boost :: thread获得比ppl或OpenMP更好的性能

2020-01-16 原文

我有一个C程序可以并行化.我使用Visual Studio 2010,32位编译.

简而言之,程序的结构如下

#define num_iterations 64 //some number

struct result
{ 
    //some stuff
}

result best_result=initial_bad_result;

for(i=0; i<many_times; i++)
{ 
    result *results[num_iterations];


    for(j=0; j<num_iterations; j++)
    {
        some_computations(results+j);
    }

    // update best_result; 
}

由于每个some_computations()是独立的(一些全局变量被读取,但没有全局变量被修改)我并行内部for循环.

我的第一个尝试是使用boost :: thread,

thread_group group;
 for(j=0; j<num_iterations; j++)
 {
     group.create_thread(boost::bind(&some_computation,this,result+j));
 } 
 group.join_all();

结果是好的,但我决定尝试更多.

我试过OpenMP库

#pragma omp parallel for
 for(j=0; j<num_iterations; j++)
 {
     some_computations(results+j);
 }

结果比boost :: thread的更差.

然后我尝试了ppl库并使用parallel_for()：

Concurrency::parallel_for(0,num_iterations,[=](int j) { 
     some_computations(results+j);
 })

结果是最糟糕的.

我发现这个行为挺令人惊讶的.由于OpenMP和ppl是为了并行化而设计的,所以我会期望比boost :: thread更好的结果.我错了吗？

为什么boost :: thread给我更好的结果？

解决方法

OpenMP或PPL不要这么悲观.他们只是按照他们被告知的做法,但是当你试图让paralellize循环有一些事情你应该考虑到.

没有看到你如何实现这些事情,很难说出真正的原因是什么.

另外,如果每个迭代中的操作对同一循环中的任何其他迭代有一些依赖关系,那么这将产生争用,这将减慢事情的发生.你没有显示你的some_operation功能实际上是什么,所以很难判断是否有数据依赖.

可以真正并行化的循环必须能够使每个迭代完全独立于所有其他迭代,在任何迭代中都不会访问共享内存.所以最好你会写东西到局部变量,然后在最后复制.

并不是所有的循环都可以并行化,它非常依赖于正在完成的工作类型.

例如,适用于并行化的功能正在屏幕缓冲区的每个像素上进行.每个像素完全独立于所有其他像素,因此,线程可以进行一个循环的迭代,并且不需要等待循环内的共享存储器或数据依赖关系就可以进行工作.

另外,如果你有一个连续的数组,这个数组可能部分地在缓存行中,如果你正在编辑线程A中的元素5,然后在线程B中修改元素6,你可能会获得缓存争用,这也会减慢事情,因为它们将驻留在同一个高速缓存行中.一种被称为虚假共享的现象.

进行循环并行处理时,需要考虑很多方面.

c – 并行任务通过boost :: thread获得比ppl或OpenMP更好的性能的更多相关文章

xcode – OpenMP for Snow Leopard的链接库？

或者我应该说,openMP的链接库的名称是什么？它是dylib,框架还是什么？或者我是否需要先从某个地方获取它？解决方法如果有人想知道如何在XCode4中编译它,我也必须启用OpenMP支持.我通过单击项目启用了OpenMP支持,然后在“构建选项”下,我将“启用OpenMP支持”从“否”更改为“是”.此外,我不得不将编译器版本从“LLVM2.0”更改为“GCC4.2”或“LLVMGCC4.2”.否则,编译器找不到“omp.h”.
“反序列化错误” – 带SOCK的foreach / doSNOW / snow(windows)

我正在使用SOCK集群和本地计算机上的工作程序运行并行操作.如果我限制我正在迭代的集合(在一次测试中使用70而不是完整的135个任务)那么一切正常.如果我去全套,我得到错误“反序列化错误(socklist[[n]])：从连接读取错误”.>我已取消阻止Windows防火墙中的端口(进/出)并允许Rscript/R的所有访问.>它不能是超时问题,因为套接字超时设置为365天.>它不是任何特定任务的问题
ubuntu14.04安装afni

撰写时间：2018.3.8内容概述：本博客主要介绍在ubuntu14.04的环境下如何安装afni。在官网上的该页面下介绍了好几种安装方式。本文采用的是1.2.3.To:downloadcurrentprecompiledAFNIbinaries，使用预编译好的安装包，解压即能使用的这种。系统环境：ubuntu14.041.下载预编译好的安装包ubuntu14.04。
使用PHP并行下载页面

>另外,如果有人有更好的计划,请指导我.当我听到有人使用curl_multi_exec时,通常会发现他们只是用100个网址加载它,然后在完成后等待,然后全部处理它们,然后用接下来的100个网址重新开始…而且它并不是真正的并行处理.但我仍然希望它有所帮助.总结以上是DEVMAX为你收集整理的使用PHP并行下载页面全部内容。如果觉得DEVMAX网站内容还不错，欢迎将DEVMAX网站推荐给好友。
ubuntu OpenMP parallel for

要改成普通的int遍历。
ubuntu14.04下的openmp支持

ubuntu14.04下的openmp支持2017/8/2911:321、经典源码：HelloWorld!
windows – 并行端口阻塞

我有一个遗留Java程序,通过将二进制数据发送到LPT1端口来处理特殊的卡片打印机.该程序与客户端的旧计算机正常工作.Java程序将所有字节发送到打印机,并在发送最后一个字节后,程序未被阻止.完成卡片打印还需要一分钟,但用户可以继续使用该程序.更改客户端的计算机后,程序无法完成任务,直到卡准备就绪,它被阻止直到最后一秒.在我看来,LPT1现在有不同的行为.是否可以在Windows中更改此设置？
windows – 是否可以从许多计算机创建更快的计算机？

下面我的帖子在StackOverflow上关闭,因此我在这里重新发布.原始问题：如何使用多台计算机创建更快的环境？
centOS release 6.3 下安装gcc编译器分在线和rpm包安装

刚拿到一台操作系统时，会使用GCC编译来编译代码，可是此时可能会提示gcc命令不能用，主要是因为系统没有安装。
在R中创建一组同步的Windows 7 PC并行处理？

我注意到,OpenMPI似乎不支持Windows,而MPICH似乎.你会用哪个？空闲工作人员查询队列.最重要的是,您可以轻松地混合操作系统,所以您的同事的Windows机器符合条件.此外,您可以使用一,二,三,…客户端,因为您认为合适,需要和扩大或缩小.排队不知道或关心,它只是提供工作.博客,doRedis中的小插曲有一个混合的Linux和Windows客户端的工作示例,使一个自举的例子更快.

随机推荐

从C到C#的zlib(如何将byte []转换为流并将流转换为byte [])

我的任务是使用zlib解压缩数据包(已接收),然后使用算法从数据中生成图片好消息是我在C中有代码,但任务是在C#中完成C我正在尝试使用zlib.NET,但所有演示都有该代码进行解压缩(C#)我的问题：我不想在解压缩后保存文件,因为我必须使用C代码中显示的算法.如何将byte[]数组转换为类似于C#zlib代码中的流来解压缩数据然后如何将流转换回字节数组？
为什么C标准使用不确定的变量未定义？

垃圾价值存储在哪里,为什么目的？解决方法由于效率原因,C选择不将变量初始化为某些自动值.为了初始化这些数据,必须添加指令.以下是一个例子：产生：虽然这段代码：产生：你可以看到,一个完整的额外的指令用来移动1到x.这对于嵌入式系统来说至关重要.
如何使用命名管道从c调用WCF方法？

更新：通过协议here,我无法弄清楚未知的信封记录.我在网上找不到任何例子.原版的：我有以下WCF服务我输出添加5行,所以我知道服务器是否处理了请求与否.我有一个.NET客户端,我曾经测试这一切,一切正常工作预期.现在我想为这个做一个非托管的C客户端.我想出了如何得到管道的名称,并写信给它.我从here下载了协议我可以写信给管道,但我看不懂.每当我尝试读取它,我得到一个ERROR_broKEN_P
“这”是否保证指向C中的对象的开始？

我想使用fwrite将一个对象写入顺序文件.班级就像当我将一个对象写入文件时.我正在游荡,我可以使用fwrite(this,sizeof(int),2,fo)写入前两个整数.问题是：这是否保证指向对象数据的开始,即使对象的最开始可能存在虚拟表.所以上面的操作是安全的.解决方法这提供了对象的地址,这不一定是第一个成员的地址.唯一的例外是所谓的标准布局类型.从C11标准：(9.2/20)Apointe
c – 编译单元之间共享的全局const对象

当我声明并初始化一个const对象时.两个cpp文件包含此标头.和当我构建解决方案时,没有链接错误,你会得到什么如果g_Const是一个非const基本类型！PrintInUnit1()和PrintInUnit2()表明在两个编译单元中有两个独立的“g_Const”具有不同的地址,为什么？
什么是C名称查找在这里？ (&GCC对吗？)

为什么在第三个变体找到func,但是在实例化的时候,原始变体中不合格查找找不到func？解决方法一般规则是,任何不在模板定义上下文中的内容只能通过ADL来获取.换句话说,正常的不合格查找仅在模板定义上下文中执行.因为在定义中间语句时没有声明func,并且func不在与ns::type相关联的命名空间中,所以代码形式不正确.
c – 在输出参数中使用auto

有没有办法在这种情况下使用auto关键字：当然,不可能知道什么类型的.因此,解决方案应该是以某种方式将它们合并为一个句子.这可用吗？解决方法看起来您希望默认初始化给定函数期望作为参数的类型的对象.您无法使用auto执行此操作,但您可以编写一个特征来提取函数所需的类型,然后使用它来声明您的变量：然后你就像这样使用它：当然,只要你重载函数,这一切都会失败.
在C中说“推动一切浮动”的确定性方式

鉴于我更喜欢将程序中的数字保留为int或任何内容,那么使用这些数字的浮点数等效的任意算术最方便的方法是什么？说,我有我想写通过将转换放在解析的运算符树叶中,无需将表达式转化为混乱是否可以使用C风格的宏？应该用新的类和重载操作符完成吗？解决方法这是一个非常复杂的表达.更好地给它一个名字：现在当您使用整数参数调用它时,由于参数的类型为double,因此使用常规的算术转换将参数转换为double用C11lambda……
objective-c – 如何获取未知大小的NSArray的第一个X元素？

在objectiveC中,我有一个NSArray,我们称之为NSArray*largeArray,我想要获得一个新的NSArray*smallArray,只有第一个x对象…
c – Setprecision是混乱

我只是想问一下setprecision,因为我有点困惑.这里是代码：其中x=以下：方程的左边是x的值.1.105=1.10应为1.111.115=1.11应为1.121.125=1.12应为1.131.135=1.14是正确的1.145=1.15也正确但如果x是：2.115=2.12是正确的2.125=2.12应为2.13所以为什么在一定的价值是正确的,但有时是错误的？请启发我谢谢解决方法没有理由期望使用浮点系统可以正确地表示您的帖子中的任何常量.因此,一旦将它们存储在一个双变量中,那么你所拥有的确切的一