迭代C中的链表慢于Go

2019-09-19 原文

编辑：在得到一些反馈后,我创建了一个 new example,它应该更具可重复性.

我一直在用C编写一个涉及大量链表迭代的项目.为了获得基准,我在Go中重写了代码.令人惊讶的是,我发现即使将-O标志传递给clang之后,Go实现仍然以大约10％的速度运行.可能我只是在C中错过了一些明显的优化,但是我一直在用一些调整来敲打墙壁一段时间.

这是一个简化版本,在C和Go中具有相同的实现,其中Go程序运行得更快.它所做的只是创建一个包含3000个节点的链表,然后计算在此列表上迭代1,000,000次所需的时间(C为7.5秒,Go为6.8).

C ：

#include <iostream>
#include <chrono>

using namespace std;
using ms = chrono::milliseconds;

struct Node {
    Node *next;
    double age;
};

// Global linked list of nodes
Node *nodes = nullptr;

void iterateAndplace(double age) {
    Node *node = nodes;
    Node *prev = nullptr;

    while (node != nullptr) {
        // Just to make sure that age field is accessed
        if (node->age > 99999) {
            break;
        }

        prev = node;
        node = node->next;
    }

    // Arbitrary action to make sure the compiler
    // doesn't optimize away this function
    prev->age = age;
}

int main() {
    Node x = {};
    std::cout << "Size of struct: " << sizeof(x) << "\n"; // 16 bytes

    // Fill in global linked list with 3000 dummy nodes
    for (int i=0; i<3000; i++) {
        Node* newNode = new Node;
        newNode->age = 0.0;
        newNode->next = nodes;
        nodes = newNode;
    }

    auto start = chrono::steady_clock::Now();
    for (int i=0; i<1000000; i++) {
        iterateAndplace(100.1);
    }

    auto end = chrono::steady_clock::Now();
    auto diff = end - start;
    std::cout << "Elapsed time is :  "<< chrono::duration_cast<ms>(diff).count()<<" ms "<<endl;
}

走：

package main
import (
    "time"
    "fmt"
    "unsafe"
)

type Node struct {
    next *Node
    age float64
}

var nodes *Node = nil

func iterateAndplace(age float64) {
    node := nodes
    var prev *Node = nil

    for node != nil {
        if node.age > 99999 {
            break
        }
        prev = node
        node = node.next
    }

    prev.age = age
}

func main() {
    x := Node{}
    fmt.Printf("Size of struct: %d\n",unsafe.Sizeof(x)) // 16 bytes

    for i := 0; i < 3000; i++ {
        newNode := new(Node)
        newNode.next = nodes
        nodes = newNode
    }

    start := time.Now()
    for i := 0; i < 1000000; i++ {
        iterateAndplace(100.1)
    }
    fmt.Printf("Time elapsed: %s\n",time.Since(start))
}

我的Mac输出：

$go run minimal.go
Size of struct: 16
Time elapsed: 6.865176895s

$clang++ -std=c++11 -stdlib=libc++ minimal.cpp -O3; ./a.out
Size of struct: 16
Elapsed time is :  7524 ms

铿锵版：

$clang++ --version
Apple LLVM version 8.0.0 (clang-800.0.42.1)
Target: x86_64-apple-darwin15.6.0
Thread model: posix

编辑：
UKMonkey提出了这样一个事实,即节点可以在Go中连续分配,但不能在C中分配.为了测试这个,我在C中用向量连续分配,这并没有改变运行时：

// Fill in global linked list with 3000 contiguous dummy nodes
vector<Node> vec;
vec.reserve(3000);
for (int i=0; i<3000; i++) {
    vec.push_back(Node());
}

nodes = &vec[0];
Node *curr = &vec[0];
for (int i=1; i<3000; i++) {
    curr->next = &vec[i];
    curr = curr->next;
    curr->age = 0.0;
}

我检查了生成的链表确实是连续的：

std::cout << &nodes << " " << &nodes->next << " " << &nodes->next->next << " " << &nodes->next->next->next << "\n";
0x1032de0e0 0x7fb934001000 0x7fb934001010 0x7fb934001020

解决方法

前言：我不是C专家或装配专家.但我知道它们中的一小部分,或许是危险的.

所以我被激发了,并决定看一下为Go生成的汇编程序,然后跟着它查看clang的输出.

高级别摘要

稍后,我将在x86-64汇编程序中查看两种语言的汇编输出.本例中代码的基本“关键部分”是一个非常紧凑的循环.因此,它是该计划花费时间的最大贡献者.

为什么紧密循环很重要的是现代cpu可以执行指令通常比从内存加载要引用的代码(比如用于比较)的相关值更快.为了实现他们实现的超快速度,cpu执行了许多技巧,包括流水线操作,分支预测等.紧密循环通常是流水线操作的祸根,如果值之间存在依赖关系,则实际上分支预测可能只是略微有用.

从根本上说,遍历循环有四个主要块：

1. If `node` is null,exit the loop.
2. If `node.age` > 999999,exit the loop.
3a. set prev = node
3b. set node = node.next

其中每个都由几个汇编程序指令表示,但Go和C输出的块的顺序不同. C有效地按顺序3a,1,2,3b进行. Go版本按顺序3,1执行.(它在段2上启动第一个循环以避免在空检查之前发生分配)

实际上,clang输出的指令比Go少一些,并且应该执行更少的RAM访问(以另外一个浮点寄存器为代价).可以想象,仅在不同的顺序中执行几乎相同的指令应该花费相同的时间,但是这没有考虑流水线和分支预测.

Takeaways One可能会试图手动优化此代码并编写汇编,如果它是一个关键但很小的循环.忽略了显而易见的原因(它更危险/更复杂/更容易出现错误)还要考虑到,虽然Go生成的代码对于我测试过的两个Intel x86-64处理器来说速度更快,但有可能是AMD处理器你会得到相反的结果.使用N第1代英特尔也可能会得到不同的结果.

我的全面调查如下：

调查

注意我已尽可能缩短示例,包括截断文件名,并从汇编列表中删除多余的绒毛,因此您的输出可能与我的略有不同.但无论如何,我继续.

所以我跑去构建-gcflags -S main.go来获得这个汇编列表,我只是真的在看iterateAndplace.

"".iterateAndplace STEXT nosplit size=56 args=0x8 locals=0x0
    00000 (main.go:16)   TEXT    "".iterateAndplace(SB),NOSPLIT,$0-8
    00000 (main.go:16)   FUNCDATA    $0,gclocals·2a5305abe05176240e61b8620e19a815(SB)
    00000 (main.go:16)   FUNCDATA    $1,gclocals·33cdeccccebe80329f1fdbee7f5874cb(SB)
    00000 (main.go:17)   MOVQ    "".nodes(SB),AX
    00007 (main.go:17)   MOVL    $0,CX
    00009 (main.go:20)   JMP 20
    00011 (main.go:25)   MOVQ    (AX),DX
    00014 (main.go:25)   MOVQ    AX,CX
    00017 (main.go:25)   MOVQ    DX,AX
    00020 (main.go:20)   TESTQ   AX,AX
    00023 (main.go:20)   JEQ 44
    00025 (main.go:21)   MOVSD   8(AX),X0
    00030 (main.go:21)   MOVSD   $f64.40f869f000000000(SB),X1
    00038 (main.go:21)   UCOMISD X1,X0
    00042 (main.go:21)   JLS 11
    00044 (main.go:21)   MOVSD   "".age+8(SP),X0
    00050 (main.go:28)   MOVSD   X0,8(CX)
    00055 (main.go:29)   RET

如果您丢失了上下文,我会将原始列表与行号粘贴在一起：

16  func iterateAndplace(age float64) {
17      node := nodes
18      var prev *Node = nil
19
20      for node != nil {
21          if node.age > 99999 {
22              break
23          }
24          prev = node
25          node = node.next
26      }
27
28      prev.age = age
29  }

我立即注意到一些有趣的事情：

>它没有为第24行生成任何代码,prev = node.这是因为它意识到赋值可以被欺骗：在遍历获取node.next时它使用CX寄存器,即prev的值.这可能是一个很好的优化,SSA编译器可以实现冗余.
>对node.age的if语句检查被重新排序为在node = node.nextstuff之后,在第一次迭代时被跳过.在这种情况下,您可以将此视为更像do..while循环.整体较小,因为它只是真正改变了第一次迭代.但也许这就足够了？

所以让我们跳转到C程序集,你可以从clang -S -mllvm –x86-asm-Syntax = intel -O3 minimal.cpp获得.

.quad   4681608292164698112     ## double 99999
# note I snipped some stuff here
__Z15iterateAndplaced:                  ## @_Z15iterateAndplaced
## BB#0:
    push    rbp
Lcfi0:
    .cfi_def_cfa_offset 16
Lcfi1:
    .cfi_offset rbp,-16
    mov rbp,rsp
Lcfi2:
    .cfi_def_cfa_register rbp
    mov rcx,qword ptr [rip + _nodes]
    xor eax,eax
    movsd   xmm1,qword ptr [rip + LCPI0_0] ## xmm1 = mem[0],zero
    .p2align    4,0x90
LBB0_2:                                 ## =>This Inner Loop Header: Depth=1
    mov rdx,rax
    mov rax,rcx
    movsd   xmm2,qword ptr [rax + 8] ## xmm2 = mem[0],zero
    ucomisd xmm2,xmm1
    ja  LBB0_3
## BB#1:                                ##   in Loop: Header=BB0_2 Depth=1
    mov rcx,qword ptr [rax]
    test    rcx,rcx
    mov rdx,rax
    jne LBB0_2
LBB0_3:
    movsd   qword ptr [rdx + 8],xmm0
    pop rbp
    ret

这真的很有趣.生成的程序集总体上非常相似(忽略汇编程序列出语法的细微差别) – 它进行了类似的优化,不分配prev.此外,C似乎已经消除了每次比较完成时加载99999的需要(Go版本在每次比较之前加载它).

出于复制目的,我使用的东西版本(在OSX High Sierra上的x86-64 darwin mac上)

$go version
go version go1.9.3 darwin/amd64

$clang++ --version
Apple LLVM version 9.0.0 (clang-900.0.39.2)
Target: x86_64-apple-darwin17.4.0

迭代C中的链表慢于Go的更多相关文章

深度解析swift中的String

String是我们最常用到的语言元素，swift中的String初看起来相当简洁、易用，真正大量使用时，却有点摸不着头脑。直到看完了这篇文章，才算真正的明白了String的奥妙之处。每个Character所占用的内存空间不定，注定了String不能用普通的数组来存储内容，实际用的是双向链表。String.Index既然String是个双向链表，那么，访问其中的某个元素，或者substring，就要用指针了。NSRange和RangeNsstring中对于字符串区间，可以用NSRange来表示,而Strin
Swift - 流程控制

switch分支语句switch语句由一个控制表达式和多个case标签组成。不存在隐式贯穿与C语言和Objective-C中的switch语句不同，在Swift中，当匹配的case分支中的代码执行完毕后，程序会终止switch语句，而不会继续执行下一个case分支。For循环Swift提供两种for循环形式以来按照指定的次数多次执行一系列语句:for-in循环对一个集合里面的每个元素执行一系列语句。Swift有四种控制转移语句：continue、break、fallthrough、return、throw
Swift 中数组和链表的性能

尽管如此，我觉得链表的例子非常有意思，而且值得实现和把玩，它有可能会提升数组reduce方法的性能。同时我认为Swift的一些额外特性很有趣：比如它的枚举可以灵活的在对象和具体方法中自由选择，以及“默认安全”。这本书未来的版本可能就会用Swift作为实现语言。拷贝数组消耗的时间是线性的。使用链表还有其他的代价——统计链表节点的个数所需要的时间是统计数组元素个数时间的两倍，因为遍历链表时的间接寻址方式是需要消耗时间的。
Swift流程控制

Swift提供了所有c类语言的控制流结构。包括for和while循环来执行一个任务多次；if和switch语句来执行确定的条件下不同的分支的代码；break和continue关键字能将运行流程转到你代码的另一个点上。Swift的switch语句也比C语言的要强大很多。Swift中switch语句的case语句不会“掉入”下一个case，避免了c语言忘记写break语句产生的错误。然而与C不同的是，Swift不需要用括号把“初始化;条件;增量”的代码块包起来。
swift算法手记-10

所有操作都以对数随机化的时间进行。每个更高层都充当下面列表的"快速跑道"，这里在层i中的元素按某个固定的概率p出现在层i+1中。1------4---61---3-4---6------91-2-3-4-5-6-7-8-9-10结构实例要查找一个目标元素，起步于头元素和顶层列表，并沿着每个链表搜索，直到到达小于或的等于目标的最后一个元素。通过跟踪起自目标直到到达在更高列表中出现的元素的反向查找路径，在每个链表中预期的步数显而易见是1/p。通过选择不同p值，就可以在查找代价和存储代价之间作出权衡。
Swift学习：2.5 控制流

Swift的switch语句比C语言中更加强大。在C语言中，如果某个case不小心漏写了break，这个case就会贯穿至下一个case，Swift无需写break，所以不会发生这种贯穿的情况。Swift提供两种for循环形式：for-in用来遍历一个区间，序列，集合，系列里面所有的元素执行一系列语句。注意index在循环结束后最终的值是3而不是2。Swift提供两种while循环形式：while循环，每次在循环开始时计算条件是否符合；do-while循环，每次在循环结束时计算条件是否符合。
Java链表超详细讲解(通俗易懂,含源码)

链表是一种物理存储结构上非连续存储结构,数据元素的逻辑顺序是通过链表中的引用链接次序实现的,下面这篇文章主要给大家介绍了关于Java链表超详细讲解的相关资料,本文讲解的内容通俗易懂,含源码,需要的朋友可以参考下
PHP实现合并两个排序链表的方法

这篇文章主要介绍了PHP实现合并两个排序链表的方法,涉及php针对链表的遍历、判断、排序等相关操作技巧,需要的朋友可以参考下
Java链表数据结构及其简单使用方法解析

这篇文章主要介绍了Java链表数据结构及其简单使用方法解析，文章围绕主题展开详细的内容介绍，具有一定的参考价值，需要的小伙伴可以参考一下
JavaScript实现双向链表过程解析

这篇文章主要介绍了利用JavaScript实现双向链表以及它的封装和常用操作，文中的示例代码讲解详细，对日常的学习和工作都有一定的价值，快来和小编一起学习吧

随机推荐

从C到C#的zlib(如何将byte []转换为流并将流转换为byte [])

我的任务是使用zlib解压缩数据包(已接收),然后使用算法从数据中生成图片好消息是我在C中有代码,但任务是在C#中完成C我正在尝试使用zlib.NET,但所有演示都有该代码进行解压缩(C#)我的问题：我不想在解压缩后保存文件,因为我必须使用C代码中显示的算法.如何将byte[]数组转换为类似于C#zlib代码中的流来解压缩数据然后如何将流转换回字节数组？
为什么C标准使用不确定的变量未定义？

垃圾价值存储在哪里,为什么目的？解决方法由于效率原因,C选择不将变量初始化为某些自动值.为了初始化这些数据,必须添加指令.以下是一个例子：产生：虽然这段代码：产生：你可以看到,一个完整的额外的指令用来移动1到x.这对于嵌入式系统来说至关重要.
如何使用命名管道从c调用WCF方法？

更新：通过协议here,我无法弄清楚未知的信封记录.我在网上找不到任何例子.原版的：我有以下WCF服务我输出添加5行,所以我知道服务器是否处理了请求与否.我有一个.NET客户端,我曾经测试这一切,一切正常工作预期.现在我想为这个做一个非托管的C客户端.我想出了如何得到管道的名称,并写信给它.我从here下载了协议我可以写信给管道,但我看不懂.每当我尝试读取它,我得到一个ERROR_broKEN_P
“这”是否保证指向C中的对象的开始？

我想使用fwrite将一个对象写入顺序文件.班级就像当我将一个对象写入文件时.我正在游荡,我可以使用fwrite(this,sizeof(int),2,fo)写入前两个整数.问题是：这是否保证指向对象数据的开始,即使对象的最开始可能存在虚拟表.所以上面的操作是安全的.解决方法这提供了对象的地址,这不一定是第一个成员的地址.唯一的例外是所谓的标准布局类型.从C11标准：(9.2/20)Apointe
c – 编译单元之间共享的全局const对象

当我声明并初始化一个const对象时.两个cpp文件包含此标头.和当我构建解决方案时,没有链接错误,你会得到什么如果g_Const是一个非const基本类型！PrintInUnit1()和PrintInUnit2()表明在两个编译单元中有两个独立的“g_Const”具有不同的地址,为什么？
什么是C名称查找在这里？ (&GCC对吗？)

为什么在第三个变体找到func,但是在实例化的时候,原始变体中不合格查找找不到func？解决方法一般规则是,任何不在模板定义上下文中的内容只能通过ADL来获取.换句话说,正常的不合格查找仅在模板定义上下文中执行.因为在定义中间语句时没有声明func,并且func不在与ns::type相关联的命名空间中,所以代码形式不正确.
c – 在输出参数中使用auto

有没有办法在这种情况下使用auto关键字：当然,不可能知道什么类型的.因此,解决方案应该是以某种方式将它们合并为一个句子.这可用吗？解决方法看起来您希望默认初始化给定函数期望作为参数的类型的对象.您无法使用auto执行此操作,但您可以编写一个特征来提取函数所需的类型,然后使用它来声明您的变量：然后你就像这样使用它：当然,只要你重载函数,这一切都会失败.
在C中说“推动一切浮动”的确定性方式

鉴于我更喜欢将程序中的数字保留为int或任何内容,那么使用这些数字的浮点数等效的任意算术最方便的方法是什么？说,我有我想写通过将转换放在解析的运算符树叶中,无需将表达式转化为混乱是否可以使用C风格的宏？应该用新的类和重载操作符完成吗？解决方法这是一个非常复杂的表达.更好地给它一个名字：现在当您使用整数参数调用它时,由于参数的类型为double,因此使用常规的算术转换将参数转换为double用C11lambda……
objective-c – 如何获取未知大小的NSArray的第一个X元素？

在objectiveC中,我有一个NSArray,我们称之为NSArray*largeArray,我想要获得一个新的NSArray*smallArray,只有第一个x对象…
c – Setprecision是混乱

我只是想问一下setprecision,因为我有点困惑.这里是代码：其中x=以下：方程的左边是x的值.1.105=1.10应为1.111.115=1.11应为1.121.125=1.12应为1.131.135=1.14是正确的1.145=1.15也正确但如果x是：2.115=2.12是正确的2.125=2.12应为2.13所以为什么在一定的价值是正确的,但有时是错误的？请启发我谢谢解决方法没有理由期望使用浮点系统可以正确地表示您的帖子中的任何常量.因此,一旦将它们存储在一个双变量中,那么你所拥有的确切的一