多线程 – 与每个物理核心绑定的线程并行的memset

2020-02-04 原文

我一直在 In an OpenMP parallel code,would there be any benefit for memset to be run in parallel?测试代码,我正在观察一些意想不到的事情.

我的系统是一个单插槽Xeon E5-1620,它是一个Ivy Bridge处理器,有4个物理内核和8个超线程.我使用的是Ubuntu 14.04 LTS,Linux Kernel 3.13,GCC 4.9.0和EGLIBC 2.19.我用gcc -fopenmp -O3 mem.c编译

当我在链接中运行代码时,它默认为八个线程并给出

Touch:   11830.448 MB/s
Rewrite: 18133.428 MB/s

但是,当我绑定线程并将线程数设置为这样的物理核心数

export OMP_NUM_THREADS=4 
export OMP_PROC_BIND=true

我明白了

Touch:   22167.854 MB/s
Rewrite: 18291.134 MB/s

触控率增加了一倍！绑定后运行几次总是比重写更快.我不明白这一点.绑定线程并将其设置为物理核心数后,为什么触摸比重写更快？为什么触控率翻倍？

这是我使用的代码,没有修改Hristo Iliev的答案.

#include <stdio.h>
#include <string.h>
#include <omp.h>

void zero(char *buf,size_t size)
{
    size_t my_start,my_size;

    if (omp_in_parallel())
    {
        int id = omp_get_thread_num();
        int num = omp_get_num_threads();

        my_start = (id*size)/num;
        my_size = ((id+1)*size)/num - my_start;
    }
    else
    {
        my_start = 0;
        my_size = size;
    }

    memset(buf + my_start,my_size);
}

int main (void)
{
    char *buf;
    size_t size = 1L << 31; // 2 GiB
    double tmr;

    buf = malloc(size);

    // Touch
    tmr = -omp_get_wtime();
    #pragma omp parallel
    {
        zero(buf,size);
    }
    tmr += omp_get_wtime();
    printf("Touch:   %.3f MB/s\n",size/(1.e+6*tmr));

    // Rewrite
    tmr = -omp_get_wtime();
    #pragma omp parallel
    {
        zero(buf,size);
    }
    tmr += omp_get_wtime();
    printf("Rewrite: %.3f MB/s\n",size/(1.e+6*tmr));

    free(buf);

    return 0;
}

编辑：
没有胎面装订,但使用四个螺纹,结果运行八次.

Touch:   14723.115 MB/s,Rewrite: 16382.292 MB/s
Touch:   14433.322 MB/s,Rewrite: 16475.091 MB/s 
Touch:   14354.741 MB/s,Rewrite: 16451.255 MB/s  
Touch:   21681.973 MB/s,Rewrite: 18212.101 MB/s 
Touch:   21004.233 MB/s,Rewrite: 17819.072 MB/s 
Touch:   20889.179 MB/s,Rewrite: 18111.317 MB/s 
Touch:   14528.656 MB/s,Rewrite: 16495.861 MB/s
Touch:   20958.696 MB/s,Rewrite: 18153.072 MB/s

编辑：

我在其他两个系统上测试了这个代码,我无法重现它们的问题

i5-4250U(Haswell) – 2个物理内核,4个超线程

4 threads unbound
    Touch:   5959.721 MB/s,Rewrite: 9524.160 MB/s
2 threads bound to each physical core
    Touch:   7263.175 MB/s,Rewrite: 9246.911 MB/s

四个插座E7- 4850 – 10个物理内核,每个插槽20个超线程

80 threads unbound
    Touch:   10177.932 MB/s,Rewrite: 25883.520 MB/s
40 threads bound
    Touch:   10254.678 MB/s,Rewrite: 30665.935 MB/s

这表明将线程绑定到物理内核确实改善了触摸和重写,但触摸比在这两个系统上重写要慢.

我还测试了memset的三种不同变体：my_memset,my_memset_stream和A_memset.
函数my_memset和my_memset_stream定义如下.功能A_memset来自Agner Fog的asmlib.

my_memset结果：

Touch:   22463.186 MB/s
Rewrite: 18797.297 MB/s

我认为这表明问题不在EGLIBC的memset函数中.

A_memset结果：

Touch:   18235.732 MB/s
Rewrite: 44848.717 MB/s

my_memset_stream：

Touch:   18678.841 MB/s
Rewrite: 44627.270 MB/s

看一下asmlib的源代码,我看到了用于编写非时间存储的大块内存.这就是my_memset_stream获得与Agner Fog的asmlib相同的带宽的原因. maximum throughput of this system is 51.2 GB/s.所以这表明A_memset和my_memset_stream获得了大约85％的最大吞吐量.

void my_memset(int *s,int c,size_t n) {
    int i;
    for(i=0; i<n/4; i++) {
        s[i] = c;
    }
}

void my_memset_stream(int *s,size_t n) {
    int i;
    __m128i v = _mm_set1_epi32(c);

    for(i=0; i<n/4; i+=4) {
        _mm_stream_si128((__m128i*)&s[i],v);
    }
}

解决方法

从您的数字可以看出,您的4个绑定线程在2个物理内核上运行,而不是预期的4个物理内核.你能证实一下吗？它可以解释Touch时间加倍.我不确定在系统上使用超线程时如何强制线程到物理核心. {我尝试将其添加为一个问题,但没有足够的“声誉”}

多线程 – 与每个物理核心绑定的线程并行的memset的更多相关文章

iOS：核心图像和多线程应用程序

我试图以最有效的方式运行一些核心图像过滤器.试图避免内存警告和崩溃,这是我在渲染大图像时得到的.我正在看Apple的核心图像编程指南.关于多线程,它说：“每个线程必须创建自己的CIFilter对象.否则,你的应用程序可能会出现意外行为.”这是什么意思？我实际上是试图在后台线程上运行我的过滤器,所以我可以在主线程上运行HUD(见下文).这在coreImage的上下文中是否有意义？
ios – 多个NSPersistentStoreCoordinator实例可以连接到同一个底层SQLite持久性存储吗？

我读过的关于在多个线程上使用CoreData的所有内容都讨论了使用共享单个NSPersistentStoreCoordinator的多个NSManagedobjectContext实例.这是理解的,我已经使它在一个应用程序中工作,该应用程序在主线程上使用CoreData来支持UI,并且具有可能需要一段时间才能运行的后台获取操作.问题是NSPersistentStoreCoordinator会对基础
ios – XCode断点应该只挂起当前线程

我需要调试多线程错误.因此,为了获得生成崩溃的条件,我需要在代码中的特定点停止一个线程,并等待另一个线程到达第二个断点.我现在遇到的问题是,如果一个线程遇到断点,则所有其他线程都被挂起.有没有办法只停止一个线程,让其他线程运行,直到它们到达第二个断点？)其他更有趣的选择：当你点击第一个断点时,你可以进入控制台并写入这应该在该断点处暂停当前上下文中的线程一小时.然后在Xcode中恢复执行.
ios – 在后台线程中写入Realm后,主线程看不到更新的数据

>清除数据库.>进行API调用以获取新数据.>将从API检索到的数据写入后台线程中的数据库中.>从主线程上的数据库中读取数据并渲染UI.在步骤4中,数据应该是最新数据,但我们没有看到任何数据.解决方法具有runloops的线程上的Realm实例,例如主线程,updatetothelatestversionofthedataintheRealmfile,因为通知被发布到其线程的runloop.在后台
ios – NSURLConnectionLoader线程中的奇怪崩溃

我们开始看到我们的应用启动时发生的崩溃.我无法重现它,它只发生在少数用户身上.例外情况是：异常类型：EXC_BAD_ACCESS代码：KERN_INVALID_ADDRESS位于0x3250974659崩溃发生在名为com.apple.NSURLConnectionLoader的线程中在调用时–[NSBlockOperationmain]这是该线程的堆栈跟踪：非常感谢任何帮助,以了解可能导致这种崩
ios – 合并子上下文时的NSObjectInaccessbileExceptions

我尝试手动重现,但失败了.是否有其他可能发生这种情况的情况,是否有处理此类问题的提示？解决方法在创建子上下文时,您可以尝试使用以下行：
ios – 从后台线程调用UIKit时发出警告

你如何处理项目中的这个问题？
ios – 在SpriteKit中,touchesBegan在与SKScene更新方法相同的线程中运行吗？

在这里的Apple文档AdvancedSceneProcessing中,它描述了更新方法以及场景的呈现方式,但没有提到何时处理输入.目前尚不清楚它是否与渲染循环位于同一个线程中,或者它是否与它并发.如果我有一个对象,我从SKScene更新方法和touchesBegan方法(在这种情况下是SKSpriteNode)更新,我是否要担心同步对我的对象的两次访问？解决方法所以几天后没有回答我设置了一些实验
ios – 在后台获取中加载UIWebView

)那么,有一种方法可以在后台加载UIWebView吗？解决方法如果要从用户界面更新元素,则必须在应用程序的主队列(或线程)中访问它们.我建议您在后台继续获取所需的数据,但是当需要更新UIWebView时,请在主线程中进行.你可以这样做：或者您可以创建一个方法来更新UIWebView上的数据,并使用以下方法从后台线程调用它：这将确保您从正确的线程访问UIWebView.希望这可以帮助.
ios – 何时使用Semaphore而不是Dispatch Group？

我会假设我知道如何使用DispatchGroup,为了解问题,我尝试过：结果–预期–是：为了使用信号量,我实现了：并在viewDidLoad方法中调用它.结果是：从概念上讲,dispachGroup和Semaphore都有同样的目的.老实说,我不熟悉：什么时候使用信号量,尤其是在与dispachGroup合作时–可能–处理问题.我错过了什么部分？

随机推荐

基于EJB技术的商务预订系统的开发

用EJB结构开发的应用程序是可伸缩的、事务型的、多用户安全的。总的来说，EJB是一个组件事务监控的标准服务器端的组件模型。基于EJB技术的系统结构模型EJB结构是一个服务端组件结构，是一个层次性结构，其结构模型如图1所示。图2：商务预订系统的构架EntityBean是为了现实世界的对象建造的模型，这些对象通常是数据库的一些持久记录。
Java利用POI实现导入导出Excel表格

这篇文章主要为大家详细介绍了Java利用POI实现导入导出Excel表格，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
Mybatis分页插件PageHelper手写实现示例

这篇文章主要为大家介绍了Mybatis分页插件PageHelper手写实现示例，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
(jsp/html)网页上嵌入播放器(常用播放器代码整理)

网页上嵌入播放器，只要在HTML上添加以上代码就OK了，下面整理了一些常用的播放器代码，总有一款适合你，感兴趣的朋友可以参考下哈，希望对你有所帮助
Java 阻塞队列BlockingQueue详解

本文详细介绍了BlockingQueue家庭中的所有成员，包括他们各自的功能以及常见使用场景,通过实例代码介绍了Java 阻塞队列BlockingQueue的相关知识，需要的朋友可以参考下
Java异常Exception详细讲解

异常就是不正常，比如当我们身体出现了异常我们会根据身体情况选择喝开水、吃药、看病、等异常处理方法。 java异常处理机制是我们java语言使用异常处理机制为程序提供了错误处理的能力，程序出现的错误，程序可以安全的退出，以保证程序正常的运行等
Java Bean 作用域及它的几种类型介绍

这篇文章主要介绍了Java Bean作用域及它的几种类型介绍，Spring框架作为一个管理Bean的IoC容器，那么Bean自然是Spring中的重要资源了，那Bean的作用域又是什么，接下来我们一起进入文章详细学习吧
面试突击之跨域问题的解决方案详解

跨域问题本质是浏览器的一种保护机制，它的初衷是为了保证用户的安全，防止恶意网站窃取数据。那怎么解决这个问题呢？接下来我们一起来看
Mybatis-Plus接口BaseMapper与Services使用详解

这篇文章主要为大家介绍了Mybatis-Plus接口BaseMapper与Services使用详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
mybatis-plus雪花算法增强idworker的实现

今天聊聊在mybatis-plus中引入分布式ID生成框架idworker，进一步增强实现生成分布式唯一ID,具有一定的参考价值，感兴趣的小伙伴们可以参考一下