微优化c比较功能

2020-01-09 原文

我有一个Compare()函数,如下所示：

inline bool Compare(bool greater,int p1,int p2) {
  if (greater) return p1>=p2;
  else return p1<=p2;
}

我决定优化以避免分歧：

inline bool Compare2(bool greater,int p2) {
  bool ret[2] = {p1<=p2,p1>=p2};
  return ret[greater];
}

然后我通过这样做测试：

bool x = true;
int M = 100000;
int N = 100;

bool a[N];
int b[N];
int c[N];

for (int i=0;i<N; ++i) {
  a[i] = rand()%2;
  b[i] = rand()%128;
  c[i] = rand()%128;
}

// Timed the below loop with both Compare() and Compare2()
for (int j=0; j<M; ++j) {
  for (int i=0; i<N; ++i) {
    x ^= Compare(a[i],b[i],c[i]);
  }
}

结果：

Compare(): 3.14ns avg
Compare2(): 1.61ns avg

我会说个案封闭,避免分支FTW.但为了完整,我换了

a[i] = rand()%2;

有：

a[i] = true;

并得到〜3.14ns的完全相同的测量.大概当时没有分支,编译器实际上是重写Compare()来避免if语句.但是,为什么Compare2()更快？

不幸的是,我是汇编代码文盲,否则我本来会尝试回答这个问题.

编辑：下面是一些程序集：

_Z7Comparebii:
.LFB4:
    .cfi_startproc
    .cfi_personality 0x3,__gxx_personality_v0
    pushq   %rbp
    .cfi_def_cfa_offset 16
    movq    %rsp,%rbp
    .cfi_offset 6,-16
    .cfi_def_cfa_register 6
    movl    %edi,%eax
    movl    %esi,-8(%rbp)
    movl    %edx,-12(%rbp)
    movb    %al,-4(%rbp)
    cmpb    $0,-4(%rbp)
    je      .L2
    movl    -8(%rbp),%eax
    cmpl    -12(%rbp),%eax
    setge   %al
    jmp     .L3
.L2:
    movl    -8(%rbp),%eax
    setle   %al
.L3:
    leave
    ret
    .cfi_endproc
.LFE4:
    .size   _Z7Comparebii,.-_Z7Comparebii
    .section        .text._Z8Compare2bii,"axG",@progbits,_Z8Compare2bii,comdat
    .weak   _Z8Compare2bii
    .type   _Z8Compare2bii,@function
_Z8Compare2bii:
.LFB5:
    .cfi_startproc
    .cfi_personality 0x3,-24(%rbp)
    movl    %edx,-28(%rbp)
    movb    %al,-20(%rbp)
    movw    $0,-16(%rbp)
    movl    -24(%rbp),%eax
    cmpl    -28(%rbp),%eax
    setle   %al
    movb    %al,%eax
    setge   %al
    movb    %al,-15(%rbp)
    movzbl  -20(%rbp),%eax
    cltq
    movzbl  -16(%rbp,%rax),%eax
    leave
    ret
    .cfi_endproc
.LFE5:
    .size   _Z8Compare2bii,.-_Z8Compare2bii
    .text

现在,执行测试的实际代码可能是使用上述两个函数的内联版本,所以有可能这是错误的代码分析.就这样说,我在Compare()中看到一个jmp命令,所以我认为这意味着它是分支.如果是这样,我猜这个问题就变成了：为什么当我将一个[i]从rand()％2更改为true(或者对于该事情是false)时,为什么分支预测器不能提高Compare()的性能？

编辑2：我用“分支”代替“分支预测”,使我的帖子更加明智.

解决方法

我写了一个名为Celero的C库,旨在测试这样的优化和替代方案. (无耻自我推销： https://github.com/DigitalInBlue/Celero)

我使用以下代码运行您的案例：

class StackOverflowFixture : public celero::TestFixture
{
  public:
    StackOverflowFixture()
    {
    }

    inline bool NoOp(bool greater,int p2) 
    {
      return true;
    }

    inline bool Compare(bool greater,int p2) 
    {
      if(greater == true)
      {
        return p1>=p2;
      }

      return p1<=p2;
    }

    inline bool Compare2(bool greater,int p2)
    {
      bool ret[2] = {p1<=p2,p1>=p2};
      return ret[greater];
    }

    inline bool Compare3(bool greater,int p2) 
    {
      return (!greater != !(p1 <= p2)) | (p1 == p2);
    }

    inline bool Compare4(bool greater,int p2) 
    {
      return (greater ^ (p1 <= p2)) | (p1 == p2);
    }
};

BASELINE_F(StackOverflow,Baseline,StackOverflowFixture,100,5000000)
{
  celero::DoNotOptimizeAway(NoOp(rand()%2,rand(),rand()));
}

BENCHMARK_F(StackOverflow,Compare,5000000)
{
  celero::DoNotOptimizeAway(Compare(rand()%2,Compare2,5000000)
{
  celero::DoNotOptimizeAway(Compare2(rand()%2,Compare3,5000000)
{
  celero::DoNotOptimizeAway(Compare3(rand()%2,Compare4,5000000)
{
  celero::DoNotOptimizeAway(Compare4(rand()%2,rand()));
}

结果如下：

[==========]
[  CELERO  ]
[==========]
[ STAGE    ] Baselining
[==========]
[ RUN      ] StackOverflow.Baseline -- 100 samples,5000000 calls per run.
[     DONE ] StackOverflow.Baseline  (0.690499 sec) [5000000 calls in 690499 usec] [0.138100 us/call] [7241140.103027 calls/sec]
[==========]
[ STAGE    ] Benchmarking
[==========]
[ RUN      ] StackOverflow.Compare -- 100 samples,5000000 calls per run.
[     DONE ] StackOverflow.Compare  (0.782818 sec) [5000000 calls in 782818 usec] [0.156564 us/call] [6387180.672902 calls/sec]
[ BASELINE ] StackOverflow.Compare 1.133699
[ RUN      ] StackOverflow.Compare2 -- 100 samples,5000000 calls per run.
[     DONE ] StackOverflow.Compare2  (0.700767 sec) [5000000 calls in 700767 usec] [0.140153 us/call] [7135039.178500 calls/sec]
[ BASELINE ] StackOverflow.Compare2 1.014870
[ RUN      ] StackOverflow.Compare3 -- 100 samples,5000000 calls per run.
[     DONE ] StackOverflow.Compare3  (0.709471 sec) [5000000 calls in 709471 usec] [0.141894 us/call] [7047504.408214 calls/sec]
[ BASELINE ] StackOverflow.Compare3 1.027476
[ RUN      ] StackOverflow.Compare4 -- 100 samples,5000000 calls per run.
[     DONE ] StackOverflow.Compare4  (0.712940 sec) [5000000 calls in 712940 usec] [0.142588 us/call] [7013212.893091 calls/sec]
[ BASELINE ] StackOverflow.Compare4 1.032500
[==========]
[ COMPLETE ]
[==========]

考虑到这个测试,看起来Compare2是这个微型优化的最佳选择.

编辑：

Compare2装配(最好的情况)：

cmp r8d,r9d
movzx   eax,dl
setle   BYTE PTR ret$[rsp]
cmp r8d,r9d
setge   BYTE PTR ret$[rsp+1]
movzx   eax,BYTE PTR ret$[rsp+rax]

比较3装配(最好的情况)：

xor r11d,r11d
cmp r8d,r9d
mov r10d,r11d
setg    r10b
test    dl,dl
mov ecx,r11d
sete    cl
mov eax,r11d
cmp ecx,r10d
setne   al
cmp r8d,r9d
sete    r11b
or  eax,r11d

微优化c比较功能的更多相关文章

ios – Objective-C compareTo：

有没有一个比较Objective-C中的两个对象的标准机制？我知道isEqual方法,但我并不是在寻找完全相同的方式,而是比较少于/多于/等于某种比较.在Java中,我们有compareto：这样做,Objective-C中有什么吗？
Swift3.0语言教程比较、判断字符串

Swift3.0语言教程比较、判断字符串Swift3.0语言教程比较、判断字符串，在一个程序中字符串很多时，常常会做的操作就是对这些字符串进行比较和判断。在Nsstring中使用caseInsensitiveCompare(_:)方法实现这一功能，其语法形式如下：funccaseInsensitiveCompare->ComparisonResult其中，string用来指定一个比较的字符串。importFoundationvara=Nsstringvarb=Nsstringprint//比较字符串运行结
检查xml文件与excel文件

早上好我有一个可编程逻辑控制器配置文件，如下所示：我想编写一个程序，用excel文件购买/检查这个xml文件。在excel文件中，我还有Timers的值考虑到我是初学者，做这件事最合适的语言是什么？最简单的我应该从哪里开始学习/阅读下一步将是写入这些数字输入/输出和计时器该文件有17128行代码，这是问题吗我已经读到了C:XmlDiff和Java:XMLUnit的库但是比较XML文件，我需要检查属性的名称和值。
Ubuntu 15.04安装Beyond Compare并添加右键对比菜单

在Ubuntu13.10以前的系统，安装32位兼容库很方便：但在Ubuntu13.10以及后续版本已经废弃了ia32-libs。
ubuntu 命令安装 beyond compare

安装beyondcompare：卸载beyondcompare
Ubuntu小技巧10——Ubuntu 1410 64位安装Beyond Compare 4

ubuntu版本还没有找到合适的注册码，望注册成功的分享一下方法，谢谢！
检测iOS 7.1版本

我用这个代码查找应用程序是否在iOS7上运行.但我现在需要知道它是否在iOS7.1上运行,但是没有任何NSFoundationVersionNumber_iOS_7_0和NSFoundationVersionNumber_iOS_7_1我知道的定义所以也许我可以比较高于993的数字,但我不知道.有人得到安全可靠的解决方案吗？解决方法有几种方法可以做到这一点,你可以在SO上的几个答案中轻松找到它们.
ios – 对NSDictionary进行排序,降序.如何使用`compare：options：`选择器发送选项？

start=0&tstart=0解决方法选项1：使用比较器调用-compare：反过来:(感谢DanShelly！
navigationbar – 如何在qlpreviewcontroller中自定义导航栏的颜色

我可以自定义QlPreviewController控制器中导航栏的颜色吗？我试过跟随但它不起作用.谢谢.解决方法是的,如果你通过presentViewController显示它,那么在iOS11的QLPreviewController上有一个barTintColor的错误：animated：这是我的解决方案,使用setBackgroundImage：使用1×1图像而不是setBarTintColo
javascript – Eclipse Mars – 一个特定的文件无法在比较编辑器中打开？

上周突然间,单个javascript文件将不再在比较编辑器中打开.>我正在运行最新的MarsEclipse>我正在运行最新的Subclipse>我与repo同步,并查看更改的文件>当我双击或选择比较时,我会看到一个空白的白页,其中包含“正在初始化…”或空白的灰色页面>它只有一个特定的文本.js文件…它是node.js项目的主文件.它过去常常很好,上周突然间这个文件将不再差异并抛出此异常.当我查看日志时,我看到以下异常：!

随机推荐

从C到C#的zlib(如何将byte []转换为流并将流转换为byte [])

我的任务是使用zlib解压缩数据包(已接收),然后使用算法从数据中生成图片好消息是我在C中有代码,但任务是在C#中完成C我正在尝试使用zlib.NET,但所有演示都有该代码进行解压缩(C#)我的问题：我不想在解压缩后保存文件,因为我必须使用C代码中显示的算法.如何将byte[]数组转换为类似于C#zlib代码中的流来解压缩数据然后如何将流转换回字节数组？
为什么C标准使用不确定的变量未定义？

垃圾价值存储在哪里,为什么目的？解决方法由于效率原因,C选择不将变量初始化为某些自动值.为了初始化这些数据,必须添加指令.以下是一个例子：产生：虽然这段代码：产生：你可以看到,一个完整的额外的指令用来移动1到x.这对于嵌入式系统来说至关重要.
如何使用命名管道从c调用WCF方法？

更新：通过协议here,我无法弄清楚未知的信封记录.我在网上找不到任何例子.原版的：我有以下WCF服务我输出添加5行,所以我知道服务器是否处理了请求与否.我有一个.NET客户端,我曾经测试这一切,一切正常工作预期.现在我想为这个做一个非托管的C客户端.我想出了如何得到管道的名称,并写信给它.我从here下载了协议我可以写信给管道,但我看不懂.每当我尝试读取它,我得到一个ERROR_broKEN_P
“这”是否保证指向C中的对象的开始？

我想使用fwrite将一个对象写入顺序文件.班级就像当我将一个对象写入文件时.我正在游荡,我可以使用fwrite(this,sizeof(int),2,fo)写入前两个整数.问题是：这是否保证指向对象数据的开始,即使对象的最开始可能存在虚拟表.所以上面的操作是安全的.解决方法这提供了对象的地址,这不一定是第一个成员的地址.唯一的例外是所谓的标准布局类型.从C11标准：(9.2/20)Apointe
c – 编译单元之间共享的全局const对象

当我声明并初始化一个const对象时.两个cpp文件包含此标头.和当我构建解决方案时,没有链接错误,你会得到什么如果g_Const是一个非const基本类型！PrintInUnit1()和PrintInUnit2()表明在两个编译单元中有两个独立的“g_Const”具有不同的地址,为什么？
什么是C名称查找在这里？ (&GCC对吗？)

为什么在第三个变体找到func,但是在实例化的时候,原始变体中不合格查找找不到func？解决方法一般规则是,任何不在模板定义上下文中的内容只能通过ADL来获取.换句话说,正常的不合格查找仅在模板定义上下文中执行.因为在定义中间语句时没有声明func,并且func不在与ns::type相关联的命名空间中,所以代码形式不正确.
c – 在输出参数中使用auto

有没有办法在这种情况下使用auto关键字：当然,不可能知道什么类型的.因此,解决方案应该是以某种方式将它们合并为一个句子.这可用吗？解决方法看起来您希望默认初始化给定函数期望作为参数的类型的对象.您无法使用auto执行此操作,但您可以编写一个特征来提取函数所需的类型,然后使用它来声明您的变量：然后你就像这样使用它：当然,只要你重载函数,这一切都会失败.
在C中说“推动一切浮动”的确定性方式

鉴于我更喜欢将程序中的数字保留为int或任何内容,那么使用这些数字的浮点数等效的任意算术最方便的方法是什么？说,我有我想写通过将转换放在解析的运算符树叶中,无需将表达式转化为混乱是否可以使用C风格的宏？应该用新的类和重载操作符完成吗？解决方法这是一个非常复杂的表达.更好地给它一个名字：现在当您使用整数参数调用它时,由于参数的类型为double,因此使用常规的算术转换将参数转换为double用C11lambda……
objective-c – 如何获取未知大小的NSArray的第一个X元素？

在objectiveC中,我有一个NSArray,我们称之为NSArray*largeArray,我想要获得一个新的NSArray*smallArray,只有第一个x对象…
c – Setprecision是混乱

我只是想问一下setprecision,因为我有点困惑.这里是代码：其中x=以下：方程的左边是x的值.1.105=1.10应为1.111.115=1.11应为1.121.125=1.12应为1.131.135=1.14是正确的1.145=1.15也正确但如果x是：2.115=2.12是正确的2.125=2.12应为2.13所以为什么在一定的价值是正确的,但有时是错误的？请启发我谢谢解决方法没有理由期望使用浮点系统可以正确地表示您的帖子中的任何常量.因此,一旦将它们存储在一个双变量中,那么你所拥有的确切的一