关于for循环的执行效率问题（转）_jasmine

http://blog.sina.com.cn/u/1419329995

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

关于for循环的执行效率问题（转）

(2012-05-14 17:58:59)

标签：

for循环

效率

it

分类： Java

关于for循环的执行效率问题

先提出这样一个问题，是我昨天去一家公司面试时遇到的问题，
模块一：

1  for（int i= 0；i<N; i++）
2  {
3      A;
4      B;
5      C;
6  }
7

模块二：

1  for（int i= 0；i<N; i++）
2  {
3      A;
4  }
5  for（int i= 0；i<N; i++）
6  {
7      B;
8  }
9
10  for（int i= 0；i<N; i++）
11  {
12      C;
13  }

举出3个例子说明模块一比模块二执行效率高，同样举出3个例子证明模块二比模块一执行效率高。
头一次遇到这种问题，很棘手，我当时的思路是从cpu执行效率、内存使用效率这两个方面来考虑，列举了一些可能的情况，应付了过去。
回来仔细想了一下，查了一些相关的帖子好像都有提过，但都不是很全面，先把问题抛在这个地方等搞清楚了在写。

我以前遇到的问题大概都是这种类型的：

1 for(int i = 0;i<100;i++)
2 {
3    for(int j = 0;j<10000;j++)
4    {
5       //balabalahttp://www.cppblog.com/Images/dot.gif
6    }
7 }
8 和
9 for(int i = 0;i<10000;i++)
10 {
11    for(int j = 0;j<100;j++)
12    {
13       //balabalahttp://www.cppblog.com/Images/dot.gif
14    }
15 }

这两个程序那个执行效率高，如果是以前我会毫不犹豫的说是第一个效率高，这是由于cpu切换的次数比较多导致性能下降，知道这句话不理解什么原理。我比较赞同下面的说法，

1. 最长循环放到内部可以提高I cache的效率,降低因为循环跳转造成cache的miss以及流水线flush造成的延时
2. 多次相同循环后也能提高跳转预测的成功率，提高流水线效率
3. 编译器会自动展开循环提高效率, 这个不一定是必然有效的
但不是绝对正确的，比如: 1 int x[1000][100];

2 for(i=0;i<1000;i++)
3   for(j=0;j<100;j++)
4 {
5   //access x[i][j]
6 }
7
8 int x[1000][100];
9 for(j=0;j<100;j++)
10   for(i=0;i=1000;i++)
11 {
12   //access x[i][j]
13 }
14

这时候第一个的效率就比第二个的高，原因嘛和硬件也有一些关系，CPU对于内存的访问都是通过数据缓存(cache)来进行的。比如一个通用CPU,一级缓存(L1-Cache)的大小为16K,而其组织结构为每32个字节一组(cache line size=32byte),
也就是每次从二级缓存或内存取数据到一级缓存，都是一次性取32个字节。
对于上面的第一段代码，每次取数据到一级缓存，都有连续8次内存访问可以共享一条缓存。
而对于第二段代码，每次取数据到一级缓存后，访问一次后，基本上就没有机会被再次使用了；
上面这两段代码的区别在于第一段代码，每次内存访问后，地址值需要加常数4，而第二段代码，每次访问后，地址值加400。
如果没有对于缓存访问的区别，那么这时我们的确可以将长的循环放在里层，短的放在外层。但是而其主要原因不是一般人所想象的指令数目的区别的问题，
而主要由于分支预测错误会引起的流水线中断从而导致性能的降低。

-------------
观点2（重点在数组）

在多重循环中，如果有可能，应当将最长的循环放在最内层，最短的循环放在最外层，以减少CPU跨切 ...
这种说法是错误的。譬如，对数组操作的两层循环，如果数组的物理存储是行优先的（现在的数组都是如此），则应该外层对行，内层对列，才有高效率。这样才能充分发挥Cache的效果，即提高Cache的命中率。如果反过来做，特别是当列数很多、元素很大时，Cache的命中率会非常低。世界级的大牛，比如写《深入C++对象模型》，或者C++之父BS，遇到效率问题，一般都会说：理论上可能如何如何，但是真正的结果一定要在具体的环境中实际测试。优化除了有良好的算法结构以外，还涉及到很多的方面，硬件的处理方式必须有所了解

除了cache以外，现代CPU会对代码进行分支预测和预读取等优化执行效率的处理
如果代码编译后生成的机器语言更适合CPU的优化执行，执行效率也会高出不少

不过了解太多的底层实现来优化程序，成本太高。
大部分情况下，一般的设计人员只要有良好的代码结构就足够了。我估计林博士应该和我的观点是一样的^_^

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：Oracle中ROWNUM的使用技巧（转）

后一篇：Oracle多表连接效率（转）

新浪BLOG意见反馈留言板　欢迎批评指正