c – 加速一次短暂的浮动投射？

2019-12-10 原文

我有一个简短的浮动投射在C中是瓶颈我的代码.

该代码从硬件设备缓冲区转换,该缓冲区本身是短路的,这代表来自花式光子计数器的输入.

float factor=  1.0f/value;
for (int i = 0; i < W*H; i++)//25% of time is spent doing this
{
    int value = source[i];//ushort -> int
    destination[i] = value*factor;//int*float->float
}

一些细节

>值应从0到2 ^ 16-1,它表示高灵敏度相机的像素值
>我在配备i7处理器(i7 960,SSE 4.2和4.1)的多核x86机器上.
>源与8位边界对齐(硬件设备的要求)
> W * H总是可被8整除,大部分时间W和H可被8整除

这让我感到难过,有什么我可以做的吗？

我正在使用Visual Studios 2012 …

解决方法

这是一个基本的SSE4.1实现：

__m128 factor = _mm_set1_ps(1.0f / value);
for (int i = 0; i < W*H; i += 8)
{
    //  Load 8 16-bit ushorts.
    //  vi = {a,b,c,d,e,f,g,h}
    __m128i vi = _mm_load_si128((const __m128i*)(source + i));

    //  Convert to 32-bit integers
    //  vi0 = {a,0}
    //  vi1 = {e,h,0}
    __m128i vi0 = _mm_cvtepu16_epi32(vi);
    __m128i vi1 = _mm_cvtepu16_epi32(_mm_unpackhi_epi64(vi,vi));

    //  Convert to float
    __m128 vf0 = _mm_cvtepi32_ps(vi0);
    __m128 vf1 = _mm_cvtepi32_ps(vi1);

    //  Multiply
    vf0 = _mm_mul_ps(vf0,factor);
    vf1 = _mm_mul_ps(vf1,factor);

    //  Store
    _mm_store_ps(destination + i + 0,vf0);
    _mm_store_ps(destination + i + 4,vf1);
}

这假定：

>源和目标都与16个字节对齐.
> W * H是8的倍数.

通过进一步展开此循环可以做得更好. (见下文)

这里的想法如下：

>将8个短路装入单个SSE寄存器.
>将寄存器拆分为两个：一个是底部4个短裤,另一个是前4个短裤.
>将两个寄存器零扩展为32位整数.
>将它们转换为浮点数.
>乘以因子.
>将它们存放到目的地.

编辑：

我做了这种类型的优化已经有一段时间了,所以我继续展开循环.

酷睿i7 920 @ 3.5 GHz
Visual Studio 2012 – 发布x64：

Original Loop      : 4.374 seconds
Vectorize no unroll: 1.665
Vectorize unroll 2 : 1.416

进一步展开导致收益递减.

这是测试代码：

#include <smmintrin.h>
#include <time.h>
#include <iostream>
#include <malloc.h>
using namespace std;


void default_loop(float *destination,const short* source,float value,int size){
    float factor = 1.0f / value; 
    for (int i = 0; i < size; i++)
    {
        int value = source[i];
        destination[i] = value*factor;
    }
}
void vectorize8_unroll1(float *destination,int size){
    __m128 factor = _mm_set1_ps(1.0f / value);
    for (int i = 0; i < size; i += 8)
    {
        //  Load 8 16-bit ushorts.
        __m128i vi = _mm_load_si128((const __m128i*)(source + i));

        //  Convert to 32-bit integers
        __m128i vi0 = _mm_cvtepu16_epi32(vi);
        __m128i vi1 = _mm_cvtepu16_epi32(_mm_unpackhi_epi64(vi,vi));

        //  Convert to float
        __m128 vf0 = _mm_cvtepi32_ps(vi0);
        __m128 vf1 = _mm_cvtepi32_ps(vi1);

        //  Multiply
        vf0 = _mm_mul_ps(vf0,factor);
        vf1 = _mm_mul_ps(vf1,factor);

        //  Store
        _mm_store_ps(destination + i + 0,vf0);
        _mm_store_ps(destination + i + 4,vf1);
    }
}
void vectorize8_unroll2(float *destination,int size){
    __m128 factor = _mm_set1_ps(1.0f / value);
    for (int i = 0; i < size; i += 16)
    {
        __m128i a0 = _mm_load_si128((const __m128i*)(source + i + 0));
        __m128i a1 = _mm_load_si128((const __m128i*)(source + i + 8));

        //  Split into two registers
        __m128i b0 = _mm_unpackhi_epi64(a0,a0);
        __m128i b1 = _mm_unpackhi_epi64(a1,a1);

        //  Convert to 32-bit integers
        a0 = _mm_cvtepu16_epi32(a0);
        b0 = _mm_cvtepu16_epi32(b0);
        a1 = _mm_cvtepu16_epi32(a1);
        b1 = _mm_cvtepu16_epi32(b1);

        //  Convert to float
        __m128 c0 = _mm_cvtepi32_ps(a0);
        __m128 d0 = _mm_cvtepi32_ps(b0);
        __m128 c1 = _mm_cvtepi32_ps(a1);
        __m128 d1 = _mm_cvtepi32_ps(b1);

        //  Multiply
        c0 = _mm_mul_ps(c0,factor);
        d0 = _mm_mul_ps(d0,factor);
        c1 = _mm_mul_ps(c1,factor);
        d1 = _mm_mul_ps(d1,factor);

        //  Store
        _mm_store_ps(destination + i +  0,c0);
        _mm_store_ps(destination + i +  4,d0);
        _mm_store_ps(destination + i +  8,c1);
        _mm_store_ps(destination + i + 12,d1);
    }
}
void print_sum(const float *destination,int size){
    float sum = 0;
    for (int i = 0; i < size; i++){
        sum += destination[i];
    }
    cout << sum << endl;
}

int main(){

    int size = 8000;

    short *source       = (short*)_mm_malloc(size * sizeof(short),16);
    float *destination  = (float*)_mm_malloc(size * sizeof(float),16);

    for (int i = 0; i < size; i++){
        source[i] = i;
    }

    float value = 1.1;

    int iterations = 1000000;
    clock_t start;

    //  Default Loop
    start = clock();
    for (int it = 0; it < iterations; it++){
        default_loop(destination,source,value,size);
    }
    cout << (double)(clock() - start) / CLOCKS_PER_SEC << endl;
    print_sum(destination,size);

    //  Vectorize 8,no unroll
    start = clock();
    for (int it = 0; it < iterations; it++){
        vectorize8_unroll1(destination,unroll 2
    start = clock();
    for (int it = 0; it < iterations; it++){
        vectorize8_unroll2(destination,size);

    _mm_free(source);
    _mm_free(destination);

    system("pause");
}

c – 加速一次短暂的浮动投射？的更多相关文章

JSP/Servlet 中的汉字编码问题

这篇文章主要介绍了JSP/Servlet 中的汉字编码问题
PHPShop存在多个安全漏洞

phpShop存在多个安全问题，远程攻击者可以利用这些漏洞攻击数据库，获得敏感信息，执行任意脚本代码。目前厂商还没有提供补丁或者升级程序。
Eclipse中使用ANT

另外，使用ant的过程实际上对构建进行了文档化，它是无关于IDE的，想象一下，你的同事中可能三分之一在用JbuilderX,三分之一用eclipse，还有一些是别的。本人使用eclipse3.0.1，以前的构建和发布工作都由myeclipse插件作了，趁周末实践了一下手动构建，记此备忘。dlist-输出的jar或war当然，我们要建一个build.xml，eclipse中会出现一个蚂蚁的小图标，一般这个文件建立后，下一个项目简单的copy过去，稍加改动就可以了。
JSP/Servlet应用程序优化八法

本文讲述了开发高性能、高弹性的JSP页面和Servlet的性能优化技术。技术1：在HttpServletinit()方法中缓存数据服务器会在创建servlet实例之后和servlet处理任何请求之前调用servlet的init()方法。该方法在servlet的生命周期中仅调用一次。因此，在运行环境中为了得到更好的性能，关闭servlet/JSP的自动装载功能。为了支持必须维护状态的应用，Javaservlet技术提供了管理session和允许多种机制实现session的API。无论何时HttpSessio
Php+SqlServer实现分页显示
JAVA/JSP学习系列之四(Orion App Server的安装)

下载完，解压到一个目录，我这里用E:\Orion作为例子。到现在，其实已经成功了缺省的配置了，如果你的80端口没有被占用，而且你也想用80作为端口的话，你到这里已经完成了，否则，请继续下面的配置。配置端口在E:\orion\config目录下有个default-web-site.xml文件，找到文件中下面行：将这行改为：
PHP SOCKET 技术研究

今天试着写一个PHP与C语言通过socket通讯的程序，看过PHP手册，发现有好几种方式可以建立socket客户端.1、通过fsockopen()建立socket连接，然后用用fputs()发送消息，用fgets()接收消息。该模块的行为，包括其函数的名称以及其它任何关于此模块的文档可能会在没有通知的情况下随PHP以后的发布而改变。我们提醒您在使用本扩展模块的同时自担风险。"看来php4.0socket通讯还不是完全稳定。
apache+mysql+php+ssl服务器之完全安装攻略

为了这个任务所需的工具是：Apache－一个网站服务器Mod_SSL－一个安全套接字层的模块OpenSSL－开放源代码工具箱RSARef－仅对美国用户MySQL－一个数据库服务器PHP－一种脚本语言。为了彼此方便地与Apache集成，我选择了PHP和MySQL。Apache得到对test.php的请求，它知道.php文件应由PHP预处理器处理，因此它通知PHP处理它。它知道这些，是因为我们在Apache的配置中指定它。Apache回送该结果到JohnDoe的浏览器，作为对他请求的应答。
JSP由浅入深(9)—— JSP Sessions

为了这个目的，我们可以使用JSP中的"sessions"。Session为不同的用户保存了不同了数据。以下的网页将用户的名字放置于session中，并可以在其它地方来显示它。这个表单的目标是“SaveName.jsp”，它在session保存了用户的名字。
Eclipse开发Hibernate应用程序

我现在把用Hibernate写的例子翻译成JDBC，大家就一目了然了：Connectionconn=...;

随机推荐

从C到C#的zlib(如何将byte []转换为流并将流转换为byte [])

我的任务是使用zlib解压缩数据包(已接收),然后使用算法从数据中生成图片好消息是我在C中有代码,但任务是在C#中完成C我正在尝试使用zlib.NET,但所有演示都有该代码进行解压缩(C#)我的问题：我不想在解压缩后保存文件,因为我必须使用C代码中显示的算法.如何将byte[]数组转换为类似于C#zlib代码中的流来解压缩数据然后如何将流转换回字节数组？
为什么C标准使用不确定的变量未定义？

垃圾价值存储在哪里,为什么目的？解决方法由于效率原因,C选择不将变量初始化为某些自动值.为了初始化这些数据,必须添加指令.以下是一个例子：产生：虽然这段代码：产生：你可以看到,一个完整的额外的指令用来移动1到x.这对于嵌入式系统来说至关重要.
如何使用命名管道从c调用WCF方法？

更新：通过协议here,我无法弄清楚未知的信封记录.我在网上找不到任何例子.原版的：我有以下WCF服务我输出添加5行,所以我知道服务器是否处理了请求与否.我有一个.NET客户端,我曾经测试这一切,一切正常工作预期.现在我想为这个做一个非托管的C客户端.我想出了如何得到管道的名称,并写信给它.我从here下载了协议我可以写信给管道,但我看不懂.每当我尝试读取它,我得到一个ERROR_broKEN_P
“这”是否保证指向C中的对象的开始？

我想使用fwrite将一个对象写入顺序文件.班级就像当我将一个对象写入文件时.我正在游荡,我可以使用fwrite(this,sizeof(int),2,fo)写入前两个整数.问题是：这是否保证指向对象数据的开始,即使对象的最开始可能存在虚拟表.所以上面的操作是安全的.解决方法这提供了对象的地址,这不一定是第一个成员的地址.唯一的例外是所谓的标准布局类型.从C11标准：(9.2/20)Apointe
c – 编译单元之间共享的全局const对象

当我声明并初始化一个const对象时.两个cpp文件包含此标头.和当我构建解决方案时,没有链接错误,你会得到什么如果g_Const是一个非const基本类型！PrintInUnit1()和PrintInUnit2()表明在两个编译单元中有两个独立的“g_Const”具有不同的地址,为什么？
什么是C名称查找在这里？ (&GCC对吗？)

为什么在第三个变体找到func,但是在实例化的时候,原始变体中不合格查找找不到func？解决方法一般规则是,任何不在模板定义上下文中的内容只能通过ADL来获取.换句话说,正常的不合格查找仅在模板定义上下文中执行.因为在定义中间语句时没有声明func,并且func不在与ns::type相关联的命名空间中,所以代码形式不正确.
c – 在输出参数中使用auto

有没有办法在这种情况下使用auto关键字：当然,不可能知道什么类型的.因此,解决方案应该是以某种方式将它们合并为一个句子.这可用吗？解决方法看起来您希望默认初始化给定函数期望作为参数的类型的对象.您无法使用auto执行此操作,但您可以编写一个特征来提取函数所需的类型,然后使用它来声明您的变量：然后你就像这样使用它：当然,只要你重载函数,这一切都会失败.
在C中说“推动一切浮动”的确定性方式

鉴于我更喜欢将程序中的数字保留为int或任何内容,那么使用这些数字的浮点数等效的任意算术最方便的方法是什么？说,我有我想写通过将转换放在解析的运算符树叶中,无需将表达式转化为混乱是否可以使用C风格的宏？应该用新的类和重载操作符完成吗？解决方法这是一个非常复杂的表达.更好地给它一个名字：现在当您使用整数参数调用它时,由于参数的类型为double,因此使用常规的算术转换将参数转换为double用C11lambda……
objective-c – 如何获取未知大小的NSArray的第一个X元素？

在objectiveC中,我有一个NSArray,我们称之为NSArray*largeArray,我想要获得一个新的NSArray*smallArray,只有第一个x对象…
c – Setprecision是混乱

我只是想问一下setprecision,因为我有点困惑.这里是代码：其中x=以下：方程的左边是x的值.1.105=1.10应为1.111.115=1.11应为1.121.125=1.12应为1.131.135=1.14是正确的1.145=1.15也正确但如果x是：2.115=2.12是正确的2.125=2.12应为2.13所以为什么在一定的价值是正确的,但有时是错误的？请启发我谢谢解决方法没有理由期望使用浮点系统可以正确地表示您的帖子中的任何常量.因此,一旦将它们存储在一个双变量中,那么你所拥有的确切的一