关于for循环的执行效率问题(转)
标签:
for循环效率it |
分类: Java |
关于for循环的执行效率问题
先提出这样一个问题,是我昨天去一家公司面试时遇到的问题,模块一:
1 for(int i= 0;i<N; i++)
2 {
3 A;
4 B;
5 C;
6 }
7
模块二:2
3
4
5
6
7
10
11
12
13
头一次遇到这种问题,很棘手,我当时的思路是从cpu执行效率、内存使用效率这两个方面来考虑,列举了一些可能的情况,应付了过去。
回来仔细想了一下,查了一些相关的帖子好像都有提过,但都不是很全面,先把问题抛在这个地方等搞清楚了在写。
我以前遇到的问题大概都是这种类型的:
10
11
12
13
14
15
1. 最长循环放到内部可以提高I
cache的效率,降低因为循环跳转造成cache的miss以及流水线flush造成的延时
2. 多次相同循环后也能提高跳转预测的成功率,提高流水线效率
3. 编译器会自动展开循环提高效率, 这个不一定是必然有效的
但不是绝对正确的,比如:1 int x[ 1000][100];
2. 多次相同循环后也能提高跳转预测的成功率,提高流水线效率
3. 编译器会自动展开循环提高效率, 这个不一定是必然有效的
但不是绝对正确的,比如:
10
11
12
13
14
也就是每次从二级缓存或内存取数据到一级缓存,都是一次性取32个字节。
对于上面的第一段代码,每次取数据到一级缓存,都有连续8次内存访问可以共享一条缓存。
而对于第二段代码,每次取数据到一级缓存后,访问一次后,基本上就没有机会被再次使用了;
上面这两段代码的区别在于第一段代码,每次内存访问后,地址值需要加常数4,而第二段代码,每次访问后,地址值加400。
如果没有对于缓存访问的区别,那么这时我们的确可以将长的循环放在里层,短的放在外层。但是而其主要原因不是一般人所想象的指令数目的区别的问题,
而主要由于分支预测错误会引起的流水线中断从而导致性能的降低。
-------------
观点2(重点在数组)
在多重循环中,如果有可能,应当将最长的循环放在最内层,最短的循环放在最外层,以减少CPU跨切 ...
这种说法是错误的。譬如,对数组操作的两层循环,如果数组的物理存储是行优先的(现在的数组都是如此),则应该外层对行,内层对列,才有高效率。这样才能 充分发挥Cache的效果,即提高Cache的命中率。如果反过来做,特别是当列数很多、元素很大时,Cache的命中率会非常低。世界级的大牛,比如写 《深入C++对象模型》,或者C++之父BS,遇到效率问题,一般都会说:理论上可能如何如何,但是真正的结果一定要在具体的环境中实际测试。优化除了有 良好的算法结构以外,还涉及到很多的方面,硬件的处理方式必须有所了解
除了cache以外,现代CPU会对代码进行分支预测和预读取等优化执行效率的处理
如果代码编译后生成的机器语言更适合CPU的优化执行,执行效率也会高出不少
不过了解太多的底层实现来优化程序,成本太高。
大部分情况下,一般的设计人员只要有良好的代码结构就足够了。我估计林博士应该和我的观点是一样的^_^

加载中…