迭代C中的链表慢于Go

前端之家收集整理的这篇文章主要介绍了迭代C中的链表慢于Go前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
编辑:在得到一些反馈后,我创建了一个 new example,它应该更具可重复性.

我一直在用C编写一个涉及大量链表迭代的项目.为了获得基准,我在Go中重写了代码.令人惊讶的是,我发现即使将-O标志传递给clang之后,Go实现仍然以大约10%的速度运行.可能我只是在C中错过了一些明显的优化,但是我一直在用一些调整来敲打墙壁一段时间.

这是一个简化版本,在C和Go中具有相同的实现,其中Go程序运行得更快.它所做的只是创建一个包含3000个节点的链表,然后计算在此列表上迭代1,000,000次所需的时间(C为7.5秒,Go为6.8).

C :

  1. #include <iostream>
  2. #include <chrono>
  3.  
  4. using namespace std;
  5. using ms = chrono::milliseconds;
  6.  
  7. struct Node {
  8. Node *next;
  9. double age;
  10. };
  11.  
  12. // Global linked list of nodes
  13. Node *nodes = nullptr;
  14.  
  15. void iterateAndPlace(double age) {
  16. Node *node = nodes;
  17. Node *prev = nullptr;
  18.  
  19. while (node != nullptr) {
  20. // Just to make sure that age field is accessed
  21. if (node->age > 99999) {
  22. break;
  23. }
  24.  
  25. prev = node;
  26. node = node->next;
  27. }
  28.  
  29. // Arbitrary action to make sure the compiler
  30. // doesn't optimize away this function
  31. prev->age = age;
  32. }
  33.  
  34. int main() {
  35. Node x = {};
  36. std::cout << "Size of struct: " << sizeof(x) << "\n"; // 16 bytes
  37.  
  38. // Fill in global linked list with 3000 dummy nodes
  39. for (int i=0; i<3000; i++) {
  40. Node* newNode = new Node;
  41. newNode->age = 0.0;
  42. newNode->next = nodes;
  43. nodes = newNode;
  44. }
  45.  
  46. auto start = chrono::steady_clock::now();
  47. for (int i=0; i<1000000; i++) {
  48. iterateAndPlace(100.1);
  49. }
  50.  
  51. auto end = chrono::steady_clock::now();
  52. auto diff = end - start;
  53. std::cout << "Elapsed time is : "<< chrono::duration_cast<ms>(diff).count()<<" ms "<<endl;
  54. }

走:

  1. package main
  2. import (
  3. "time"
  4. "fmt"
  5. "unsafe"
  6. )
  7.  
  8. type Node struct {
  9. next *Node
  10. age float64
  11. }
  12.  
  13. var nodes *Node = nil
  14.  
  15. func iterateAndPlace(age float64) {
  16. node := nodes
  17. var prev *Node = nil
  18.  
  19. for node != nil {
  20. if node.age > 99999 {
  21. break
  22. }
  23. prev = node
  24. node = node.next
  25. }
  26.  
  27. prev.age = age
  28. }
  29.  
  30. func main() {
  31. x := Node{}
  32. fmt.Printf("Size of struct: %d\n",unsafe.Sizeof(x)) // 16 bytes
  33.  
  34. for i := 0; i < 3000; i++ {
  35. newNode := new(Node)
  36. newNode.next = nodes
  37. nodes = newNode
  38. }
  39.  
  40. start := time.Now()
  41. for i := 0; i < 1000000; i++ {
  42. iterateAndPlace(100.1)
  43. }
  44. fmt.Printf("Time elapsed: %s\n",time.Since(start))
  45. }

我的Mac输出

  1. $go run minimal.go
  2. Size of struct: 16
  3. Time elapsed: 6.865176895s
  4.  
  5. $clang++ -std=c++11 -stdlib=libc++ minimal.cpp -O3; ./a.out
  6. Size of struct: 16
  7. Elapsed time is : 7524 ms

铿锵版:

  1. $clang++ --version
  2. Apple LLVM version 8.0.0 (clang-800.0.42.1)
  3. Target: x86_64-apple-darwin15.6.0
  4. Thread model: posix

编辑:
UKMonkey提出了这样一个事实,即节点可以在Go中连续分配,但不能在C中分配.为了测试这个,我在C中用向量连续分配,这并没有改变运行时:

  1. // Fill in global linked list with 3000 contiguous dummy nodes
  2. vector<Node> vec;
  3. vec.reserve(3000);
  4. for (int i=0; i<3000; i++) {
  5. vec.push_back(Node());
  6. }
  7.  
  8. nodes = &vec[0];
  9. Node *curr = &vec[0];
  10. for (int i=1; i<3000; i++) {
  11. curr->next = &vec[i];
  12. curr = curr->next;
  13. curr->age = 0.0;
  14. }

我检查了生成的链表确实是连续的:

  1. std::cout << &nodes << " " << &nodes->next << " " << &nodes->next->next << " " << &nodes->next->next->next << "\n";
  2. 0x1032de0e0 0x7fb934001000 0x7fb934001010 0x7fb934001020

解决方法

前言:我不是C专家或装配专家.但我知道它们中的一小部分,或许是危险的.

所以我被激发了,并决定看一下为Go生成的汇编程序,然后跟着它查看clang的输出.

高级别摘要

稍后,我将在x86-64汇编程序中查看两种语言的汇编输出.本例中代码的基本“关键部分”是一个非常紧凑的循环.因此,它是该计划花费时间的最大贡献者.

为什么紧密循环很重要的是现代cpu可以执行指令通常比从内存加载要引用的代码(比如用于比较)的相关值更快.为了实现他们实现的超快速度,cpu执行了许多技巧,包括流水线操作,分支预测等.紧密循环通常是流水线操作的祸根,如果值之间存在依赖关系,则实际上分支预测可能只是略微有用.

从根本上说,遍历循环有四个主要块:

  1. 1. If `node` is null,exit the loop.
  2. 2. If `node.age` > 999999,exit the loop.
  3. 3a. set prev = node
  4. 3b. set node = node.next

其中每个都由几个汇编程序指令表示,但Go和C输出的块的顺序不同. C有效地按顺序3a,1,2,3b进行. Go版本按顺序3,1执行.(它在段2上启动第一个循环以避免在空检查之前发生分配)

实际上,clang输出的指令比Go少一些,并且应该执行更少的RAM访问(以另外一个浮点寄存器为代价).可以想象,仅在不同的顺序中执行几乎相同的指令应该花费相同的时间,但是这没有考虑流水线和分支预测.

Takeaways One可能会试图手动优化此代码并编写汇编,如果它是一个关键但很小的循环.忽略了显而易见的原因(它更危险/更复杂/更容易出现错误)还要考虑到,虽然Go生成代码对于我测试过的两个Intel x86-64处理器来说速度更快,但有可能是AMD处理器你会得到相反的结果.使用N第1代英特尔也可能会得到不同的结果.

我的全面调查如下:

调查

注意我已尽可能缩短示例,包括截断文件名,并从汇编列表中删除多余的绒毛,因此您的输出可能与我的略有不同.但无论如何,我继续.

所以我跑去构建-gcflags -S main.go来获得这个汇编列表,我只是真的在看iterateAndPlace.

  1. "".iterateAndPlace STEXT nosplit size=56 args=0x8 locals=0x0
  2. 00000 (main.go:16) TEXT "".iterateAndPlace(SB),NOSPLIT,$0-8
  3. 00000 (main.go:16) FUNCDATA $0,gclocals·2a5305abe05176240e61b8620e19a815(SB)
  4. 00000 (main.go:16) FUNCDATA $1,gclocals·33cdeccccebe80329f1fdbee7f5874cb(SB)
  5. 00000 (main.go:17) MOVQ "".nodes(SB),AX
  6. 00007 (main.go:17) MOVL $0,CX
  7. 00009 (main.go:20) JMP 20
  8. 00011 (main.go:25) MOVQ (AX),DX
  9. 00014 (main.go:25) MOVQ AX,CX
  10. 00017 (main.go:25) MOVQ DX,AX
  11. 00020 (main.go:20) TESTQ AX,AX
  12. 00023 (main.go:20) JEQ 44
  13. 00025 (main.go:21) MOVSD 8(AX),X0
  14. 00030 (main.go:21) MOVSD $f64.40f869f000000000(SB),X1
  15. 00038 (main.go:21) UCOMISD X1,X0
  16. 00042 (main.go:21) JLS 11
  17. 00044 (main.go:21) MOVSD "".age+8(SP),X0
  18. 00050 (main.go:28) MOVSD X0,8(CX)
  19. 00055 (main.go:29) RET

如果您丢失了上下文,我会将原始列表与行号粘贴在一起:

  1. 16 func iterateAndPlace(age float64) {
  2. 17 node := nodes
  3. 18 var prev *Node = nil
  4. 19
  5. 20 for node != nil {
  6. 21 if node.age > 99999 {
  7. 22 break
  8. 23 }
  9. 24 prev = node
  10. 25 node = node.next
  11. 26 }
  12. 27
  13. 28 prev.age = age
  14. 29 }

我立即注意到一些有趣的事情:

>它没有为第24行生成任何代码,prev = node.这是因为它意识到赋值可以被欺骗:在遍历获取node.next时它使用CX寄存器,即prev的值.这可能是一个很好的优化,SSA编译器可以实现冗余.
>对node.age的if语句检查被重新排序为在node = node.nextstuff之后,在第一次迭代时被跳过.在这种情况下,您可以将此视为更像do..while循环.整体较小,因为它只是真正改变了第一次迭代.但也许这就足够了?

所以让我们跳转到C程序集,你可以从clang -S -mllvm –x86-asm-Syntax = intel -O3 minimal.cpp获得.

  1. .quad 4681608292164698112 ## double 99999
  2. # note I snipped some stuff here
  3. __Z15iterateAndPlaced: ## @_Z15iterateAndPlaced
  4. ## BB#0:
  5. push rbp
  6. Lcfi0:
  7. .cfi_def_cfa_offset 16
  8. Lcfi1:
  9. .cfi_offset rbp,-16
  10. mov rbp,rsp
  11. Lcfi2:
  12. .cfi_def_cfa_register rbp
  13. mov rcx,qword ptr [rip + _nodes]
  14. xor eax,eax
  15. movsd xmm1,qword ptr [rip + LCPI0_0] ## xmm1 = mem[0],zero
  16. .p2align 4,0x90
  17. LBB0_2: ## =>This Inner Loop Header: Depth=1
  18. mov rdx,rax
  19. mov rax,rcx
  20. movsd xmm2,qword ptr [rax + 8] ## xmm2 = mem[0],zero
  21. ucomisd xmm2,xmm1
  22. ja LBB0_3
  23. ## BB#1: ## in Loop: Header=BB0_2 Depth=1
  24. mov rcx,qword ptr [rax]
  25. test rcx,rcx
  26. mov rdx,rax
  27. jne LBB0_2
  28. LBB0_3:
  29. movsd qword ptr [rdx + 8],xmm0
  30. pop rbp
  31. ret

这真的很有趣.生成的程序集总体上非常相似(忽略汇编程序列出语法的细微差别) – 它进行了类似的优化,不分配prev.此外,C似乎已经消除了每次比较完成时加载99999的需要(Go版本在每次比较之前加载它).

出于复制目的,我使用的东西版本(在OSX High Sierra上的x86-64 darwin mac上)

  1. $go version
  2. go version go1.9.3 darwin/amd64
  3.  
  4. $clang++ --version
  5. Apple LLVM version 9.0.0 (clang-900.0.39.2)
  6. Target: x86_64-apple-darwin17.4.0

猜你在找的C&C++相关文章