c – 使用ARM NEON内在函数的cvtColor的SIMD优化

2019-07-06 原文

我正在使用BGR的SIMD优化来进行灰度转换,相当于 OpenCV’s cvtColor() function.有一个Intel SSE版本的这个功能,我指的是它. (我正在做的是基本上将SSE代码转换为NEON代码.)

我几乎完成了编写代码,可以用g编译它,但是我无法得到正确的输出.有没有人有任何想法可能是什么错误？

我得到什么(不正确)：

我应该得到什么

这是我的代码：

#include <opencv/cv.hpp>
#include <opencv/highgui.h>
#include <arm_neon.h>
//#include <iostream>

using namespace std;
//using namespace cv;

#define int8x16_to_8x8x2(v) ((int8x8x2_t) { vget_low_s8(v),vget_high_s8(v) })

void cvtBGR2GrayNEON(cv::Mat& src,cv::Mat& dest)
{
  const int size = src.size().area()*src.channels();
  uchar* s = src.ptr<uchar>(0);
  uchar* d = dest.ptr<uchar>(0);

  const int8x16_t mask1 = {0,3,6,9,12,15,1,4,7,10,13,2,5,8,11,14};
  const int8x16_t smask1 = {6,14,15};
  const int8x16_t ssmask1 = {11,10};

  const int8x16_t mask2 = {0,13};
  const int8x16_t ssmask2 = {0,10};

  const int8x16_t bmask1 = {255,255,0};
  const int8x16_t bmask2 = {255,0};
  const int8x16_t bmask3 = {255,0};
  const int8x16_t bmask4 = {255,0};

  const int shift = 8;
  const int amp = 1<<shift;

  const int16_t _R_ = (int16_t)(amP*0.299);
  const int16_t _G_ = (int16_t)(amP*0.587);
  const int16_t _B_ = (int16_t)(amP*0.114);
  const int16x8_t R = vdupq_n_s16(_R_);
  const int16x8_t G = vdupq_n_s16(_G_);
  const int16x8_t B = vdupq_n_s16(_B_);
  const int8x16_t zero = vdupq_n_s8(0);

  for(int i = 0; i < size; i += 48)
    {
      int8x16_t a = vld1q_s8((int8_t *) s + i);
      int8x16_t b = vld1q_s8((int8_t *) s + i + 16);
      int8x16_t c = vld1q_s8((int8_t *) s + i + 32);

      a = vcombine_s8(vtbl2_s8(int8x16_to_8x8x2(a),vget_low_s8(mask1)),vtbl2_s8(int8x16_to_8x8x2(a),vget_high_s8(mask1)));
      b = vcombine_s8(vtbl2_s8(int8x16_to_8x8x2(b),vget_low_s8(mask2)),vtbl2_s8(int8x16_to_8x8x2(b),vget_high_s8(mask2)));
      c = vcombine_s8(vtbl2_s8(int8x16_to_8x8x2(c),vtbl2_s8(int8x16_to_8x8x2(c),vget_high_s8(mask2)));

      //BBBBBB
      const int8x16_t aaaa = vbslq_s8(c,vbslq_s8(b,a,bmask1),bmask2);

      a = vcombine_s8(vtbl2_s8(int8x16_to_8x8x2(a),vget_low_s8(smask1)),vget_high_s8(smask1)));
      b = vcombine_s8(vtbl2_s8(int8x16_to_8x8x2(b),vget_high_s8(smask1)));
      c = vcombine_s8(vtbl2_s8(int8x16_to_8x8x2(c),vget_high_s8(smask1)));

      //GGGGGG
      const int8x16_t bbbb = vbslq_s8(c,bmask3),vget_low_s8(ssmask1)),vget_high_s8(ssmask1)));
      c = vcombine_s8(vtbl2_s8(int8x16_to_8x8x2(c),vget_high_s8(ssmask1)));
      b = vcombine_s8(vtbl2_s8(int8x16_to_8x8x2(b),vget_low_s8(ssmask2)),vget_high_s8(ssmask2)));

      //RRRRRR
      const int8x16_t cccc = vbslq_s8(c,bmask4);

      /*
      int8x8x2_t a1 = vzip_s8(vget_high_s8(aaaa),vget_high_s8(zero));
      int8x8x2_t a2 = vzip_s8(vget_low_s8(aaaa),vget_low_s8(zero));
      */

      int8x16_t a1 = aaaa;
      int8x16_t a2 = zero;
      int8x16x2_t temp1 =  vzipq_s8(a1,a2);
      a1 = temp1.val[0];
      a2 = temp1.val[1];
      int16x8_t aa1 = vmulq_s16((int16x8_t)a2,B);
      int16x8_t aa2 = vmulq_s16((int16x8_t)a1,B);

      int8x16_t b1 = bbbb;
      int8x16_t b2 = zero;
      int8x16x2_t temp2 =  vzipq_s8(b1,b2);
      b1 = temp2.val[0];
      b2 = temp2.val[1];
      int16x8_t bb1 = vmulq_s16((int16x8_t)b2,G);
      int16x8_t bb2 = vmulq_s16((int16x8_t)b1,G);

      int8x16_t c1 = cccc;
      int8x16_t c2 = zero;
      int8x16x2_t temp3 =  vzipq_s8(c1,c2);
      c1 = temp3.val[0];
      c2 = temp3.val[1];
      int16x8_t cc1 = vmulq_s16((int16x8_t)c2,R);
      int16x8_t cc2 = vmulq_s16((int16x8_t)c1,R);

      aa1 = vaddq_s16(aa1,bb1);
      aa1 = vaddq_s16(aa1,cc1);
      aa2 = vaddq_s16(aa2,bb2);
      aa2 = vaddq_s16(aa2,cc2);

      const int shift1 = 8;
      aa1 = vshrq_n_s16(aa1,shift1);
      aa2 = vshrq_n_s16(aa2,shift1);

      uint8x8_t aaa1 = vqmovun_s16(aa1);
      uint8x8_t aaa2 = vqmovun_s16(aa2);

      uint8x16_t result = vcombine_u8(aaa1,aaa2);

      vst1q_u8((uint8_t *)(d),result);

      d+=16;
    }    
}

int main() 
{
  cv::Mat src = cv::imread("Lenna.bmp");
  cv::Mat dest(src.rows,src.cols,CV_8UC1);

  cvtBGR2GrayNEON(src,dest);

  cv::imwrite("grey.jpg",dest);

  return 0;
}

这是等效的SSE代码(从here)：

void cvtBGR2GraySSEShort(Mat& src,Mat& dest)
{
    const int size = src.size().area()*src.channels();
    uchar* s = src.ptr<uchar>(0);
    uchar* d = dest.ptr<uchar>(0);

    //data structure
    //BGR BGR BGR BGR BGR B
    //GR BGR BGR BGR BGR BG
    //R BGR BGR BGR BGR BGR
    //shuffle to BBBBBBGGGGGRRRRR
    const __m128i mask1 = _mm_setr_epi8(0,14);
    const __m128i smask1 = _mm_setr_epi8(6,15);
    const __m128i ssmask1 = _mm_setr_epi8(11,10);

    //shuffle to GGGGGGBBBBBRRRRR
    const __m128i mask2 = _mm_setr_epi8(0,13);
    //const __m128i smask2 = _mm_setr_epi8(6,15);same as smask1
    const __m128i ssmask2 = _mm_setr_epi8(0,10);

    //shuffle to RRRRRRGGGGGBBBBB
    //__m128i mask3 = _mm_setr_epi8(0,13);//same as mask2
    //const __m128i smask3 = _mm_setr_epi8(6,10);//same as smask1
    //const __m128i ssmask3 = _mm_setr_epi8(11,10);//same as ssmask1

    //blend mask
    const __m128i bmask1 = _mm_setr_epi8
        (255,0);

    const __m128i bmask2 = _mm_setr_epi8
        (255,0);

    const __m128i bmask3 = _mm_setr_epi8
        (255,0);

    const __m128i bmask4 = _mm_setr_epi8
        (255,0);  

    const int shift = 8;
    const int amp = 1<<shift;
    const int _R_=(int)(amP*0.299);
    const int _G_=(int)(amP*0.587);
    const int _B_=(int)(amP*0.114);
    const __m128i R = _mm_set1_epi16(_R_);
    const __m128i G = _mm_set1_epi16(_G_);
    const __m128i B = _mm_set1_epi16(_B_);
    const __m128i zero = _mm_setzero_si128();   

    for(int i=0;i<size;i+=48)
    {
        __m128i a = _mm_shuffle_epi8(_mm_load_si128((__m128i*)(s+i)),mask1);
        __m128i b = _mm_shuffle_epi8(_mm_load_si128((__m128i*)(s+i+16)),mask2);
        __m128i c = _mm_shuffle_epi8(_mm_load_si128((__m128i*)(s+i+32)),mask2);
        const __m128i aaaa = _mm_blendv_epi8(c,_mm_blendv_epi8(b,bmask2);

        a = _mm_shuffle_epi8(a,smask1);
        b = _mm_shuffle_epi8(b,smask1);
        c = _mm_shuffle_epi8(c,smask1);
        const __m128i bbbb =_mm_blendv_epi8(c,ssmask1);
        c = _mm_shuffle_epi8(c,ssmask1);
        b = _mm_shuffle_epi8(b,ssmask2);
        const __m128i cccc =_mm_blendv_epi8(c,bmask4);

        __m128i a1 = _mm_unpackhi_epi8(aaaa,zero);
        __m128i a2 = _mm_unpacklo_epi8(aaaa,zero);
        a1 = _mm_mullo_epi16(a1,B);
        a2 = _mm_mullo_epi16(a2,B);
        __m128i b1 = _mm_unpackhi_epi8(bbbb,zero);
        __m128i b2 = _mm_unpacklo_epi8(bbbb,zero);
        b1 = _mm_mullo_epi16(b1,G);
        b2 = _mm_mullo_epi16(b2,G);

        __m128i c1 = _mm_unpackhi_epi8(cccc,zero);
        __m128i c2 = _mm_unpacklo_epi8(cccc,zero);
        c1 = _mm_mullo_epi16(c1,R);
        c2 = _mm_mullo_epi16(c2,R);

        a1 = _mm_add_epi16(a1,b1);
        a1 = _mm_add_epi16(a1,c1);
        a2 = _mm_add_epi16(a2,b2);
        a2 = _mm_add_epi16(a2,c2);

        a1 = _mm_srli_epi16(a1,8);
        a2 = _mm_srli_epi16(a2,8);

        a = _mm_packus_epi16(a1,a2);

        _mm_stream_si128((__m128i*)(d),a);
        d+=16;
    } 
}

解决方法

好的,下面是我刚刚写的那个函数的完全优化版本(请注意,如果大小小于32,则此函数只返回)

/*
 *  Created on: 2014. 7. 27.
 *      Author: Jake Lee
 *      Project FANIC - Fastest ARM NEON Implementaion Challenge
 */

// void fanicCvtBGR2GrayNEON(void *pDst,void *pSrc,unsigned int size);
// Y = 0.114*B + 0.587*G + 0.299*R
    .text
    .arm
    .global fanicCvtBGR2GrayNEON

    pDst    .req    r0
    pSrc    .req    r1
    size    .req    r2

    .align 5
    .func
fanicCvtBGR2GrayNEON:
    pld     [pSrc]
    subs    size,size,#32
    pld     [pSrc,#64]
    bxmi    lr
    pld     [pSrc,#64*2]
    vmov.i8     d0,#29
    vmov.i8     d1,#150
    vmov.i8     d2,#77

    .align 5
1:
    vld3.8      {d20,d21,d22},[pSrc]!
    vld3.8      {d23,d24,d25},[pSrc]!
    vld3.8      {d26,d27,d28},[pSrc]!
    vld3.8      {d29,d30,d31},[pSrc]!

    vmull.u8    q8,d20,d0
    vmlal.u8    q8,d1
    vmlal.u8    q8,d22,d2
    vmull.u8    q9,d23,d0
    vmlal.u8    q9,d1
    vmlal.u8    q9,d25,d2
    vmull.u8    q10,d26,d0
    vmlal.u8    q10,d1
    vmlal.u8    q10,d28,d2
    vmull.u8    q11,d29,d0
    vmlal.u8    q11,d1
    vmlal.u8    q11,d31,d2

    vrshrn.u16  d24,q8,#8
    vrshrn.u16  d25,q9,#8
    vrshrn.u16  d26,q10,#8
    vrshrn.u16  d27,q11,#8

    subs    size,#64*3]
    pld     [pSrc,#64*4]

    vst1.8      {q12,q13},[pDst]!
    bpl     1b

    cmp     size,#-32
    add     pSrc,pSrc,size
    bxle    lr
    add     pSrc,lsl #1
    add     pDst,pDst,size
    b       1b

    .endfunc
    .end

正如你所看到的,在组装中编写NEON代码比在内在函数中更容易和更短,尽管重度展开.

玩的开心.

c – 使用ARM NEON内在函数的cvtColor的SIMD优化的更多相关文章

canvas 实现 github404动态效果的示例代码

本篇文章主要介绍了canvas 实现 github404动态效果的示例代码，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
android – 如何为发布和调试版本提供不同的清单文件？

是否可以在AndroidStudio中为我的APK的调试版和发行版提供不同的清单文件？
android – Gradle – 继承产品风味

我有3种产品口味,不包括主要口味：据我了解,这些产品风格继承了main的资源,它看起来像这样：因此,当我构建xxx时,Gradle捆绑来自src/main和src/xxx文件夹的东西.现在,我需要它看起来像这样：换句话说,我希望zzz使用yyy的资源以及main的资源.Gradle可以这样做吗？id=183350创建了功能请求
android-studio – 如何使用Gradle Experimental Plugin设置C/C++包含路径？

当AndroidStudio位于与我的模块的主源文件夹不同的位置时,它无法找到我的头文件.#include“SDL_config.h”语句以红色突出显示.我已经尝试修改下面的cppFlags值,但我开始怀疑这些cppFlag甚至被传递给编译器.有没有人设法以这种方式包含除主要源文件夹以外的文件夹中的文件？我指定cppFlags,或者也许是moduleName甚至是源代码的方式有问题吗？
href和src、link和@import的区别详解

这篇文章主要介绍了href和src、link和@import的区别,解释了名词定义和应用场景,需要的朋友可以参考下
php正则提取html图片(img)src地址与任意属性的方法

下面小编就为大家带来一篇php正则提取html图片(img)src地址与任意属性的方法。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧
img的src地址是一个请求的方式来显示图片方法

下面小编就为大家带来一篇img的src地址是一个请求的方式来显示图片方法。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧
Jquery修改image的src属性,图片不加载问题的解决方法

下面小编就为大家带来一篇Jquery修改image的src属性,图片不加载问题的解决方法。小编觉得挺不错的，现在分享给大家，也给大家做个参考，一起跟随小编过来看看吧
Vue动态设置图片时src不生效的原因及解决方法

这篇文章主要介绍了Vue动态设置图片时src不生效的原因及解决方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
angular中如何绑定iframe中src的方法

这篇文章主要介绍了angular中如何绑定iframe中src的方法，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧

随机推荐

从C到C#的zlib(如何将byte []转换为流并将流转换为byte [])

我的任务是使用zlib解压缩数据包(已接收),然后使用算法从数据中生成图片好消息是我在C中有代码,但任务是在C#中完成C我正在尝试使用zlib.NET,但所有演示都有该代码进行解压缩(C#)我的问题：我不想在解压缩后保存文件,因为我必须使用C代码中显示的算法.如何将byte[]数组转换为类似于C#zlib代码中的流来解压缩数据然后如何将流转换回字节数组？
为什么C标准使用不确定的变量未定义？

垃圾价值存储在哪里,为什么目的？解决方法由于效率原因,C选择不将变量初始化为某些自动值.为了初始化这些数据,必须添加指令.以下是一个例子：产生：虽然这段代码：产生：你可以看到,一个完整的额外的指令用来移动1到x.这对于嵌入式系统来说至关重要.
如何使用命名管道从c调用WCF方法？

更新：通过协议here,我无法弄清楚未知的信封记录.我在网上找不到任何例子.原版的：我有以下WCF服务我输出添加5行,所以我知道服务器是否处理了请求与否.我有一个.NET客户端,我曾经测试这一切,一切正常工作预期.现在我想为这个做一个非托管的C客户端.我想出了如何得到管道的名称,并写信给它.我从here下载了协议我可以写信给管道,但我看不懂.每当我尝试读取它,我得到一个ERROR_broKEN_P
“这”是否保证指向C中的对象的开始？

我想使用fwrite将一个对象写入顺序文件.班级就像当我将一个对象写入文件时.我正在游荡,我可以使用fwrite(this,sizeof(int),2,fo)写入前两个整数.问题是：这是否保证指向对象数据的开始,即使对象的最开始可能存在虚拟表.所以上面的操作是安全的.解决方法这提供了对象的地址,这不一定是第一个成员的地址.唯一的例外是所谓的标准布局类型.从C11标准：(9.2/20)Apointe
c – 编译单元之间共享的全局const对象

当我声明并初始化一个const对象时.两个cpp文件包含此标头.和当我构建解决方案时,没有链接错误,你会得到什么如果g_Const是一个非const基本类型！PrintInUnit1()和PrintInUnit2()表明在两个编译单元中有两个独立的“g_Const”具有不同的地址,为什么？
什么是C名称查找在这里？ (&GCC对吗？)

为什么在第三个变体找到func,但是在实例化的时候,原始变体中不合格查找找不到func？解决方法一般规则是,任何不在模板定义上下文中的内容只能通过ADL来获取.换句话说,正常的不合格查找仅在模板定义上下文中执行.因为在定义中间语句时没有声明func,并且func不在与ns::type相关联的命名空间中,所以代码形式不正确.
c – 在输出参数中使用auto

有没有办法在这种情况下使用auto关键字：当然,不可能知道什么类型的.因此,解决方案应该是以某种方式将它们合并为一个句子.这可用吗？解决方法看起来您希望默认初始化给定函数期望作为参数的类型的对象.您无法使用auto执行此操作,但您可以编写一个特征来提取函数所需的类型,然后使用它来声明您的变量：然后你就像这样使用它：当然,只要你重载函数,这一切都会失败.
在C中说“推动一切浮动”的确定性方式

鉴于我更喜欢将程序中的数字保留为int或任何内容,那么使用这些数字的浮点数等效的任意算术最方便的方法是什么？说,我有我想写通过将转换放在解析的运算符树叶中,无需将表达式转化为混乱是否可以使用C风格的宏？应该用新的类和重载操作符完成吗？解决方法这是一个非常复杂的表达.更好地给它一个名字：现在当您使用整数参数调用它时,由于参数的类型为double,因此使用常规的算术转换将参数转换为double用C11lambda……
objective-c – 如何获取未知大小的NSArray的第一个X元素？

在objectiveC中,我有一个NSArray,我们称之为NSArray*largeArray,我想要获得一个新的NSArray*smallArray,只有第一个x对象…
c – Setprecision是混乱

我只是想问一下setprecision,因为我有点困惑.这里是代码：其中x=以下：方程的左边是x的值.1.105=1.10应为1.111.115=1.11应为1.121.125=1.12应为1.131.135=1.14是正确的1.145=1.15也正确但如果x是：2.115=2.12是正确的2.125=2.12应为2.13所以为什么在一定的价值是正确的,但有时是错误的？请启发我谢谢解决方法没有理由期望使用浮点系统可以正确地表示您的帖子中的任何常量.因此,一旦将它们存储在一个双变量中,那么你所拥有的确切的一