加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

小谈酷睿 i7 处理器的游戏性能

(2009-01-21 14:19:05)
标签:

杂谈

作者:赵军 2008年12月11日

11月18日 酷睿 i7处理器发布上市了,业界对Nehalem微架构设计中一些猜想和传言也一一明确了。不过,对于Nehalem微架构和用于高端台式机市场的酷睿i7处理器还有不少热点问题,大部分都符合实际,但是还有一些存在误解和片面的理解。今天,我就这些热点问题,陆续用几篇博文和大家一一探讨一下。

一.”酷睿 i7 处理器的游戏性能不佳”,真是这样吗?

在酷睿 i7 处理器发布之前和之后,我听到不少这样说法,而且有这么几条理由: 1.游戏性能不升反降是因为酷睿 i7 的二级高速缓存(cache)太小造成一次命中率低,而读取三级高速缓存的巨大延迟就造成了游戏性能的下降。

2.Nehalem微架构的创新设计对游戏的贡献不大,所以酷睿 i7在主流游戏中的性能提升幅度不大。

3.浮点性能没有提升,所以游戏性能没有提高。

现在,我们来逐一看看这里说法的偏颇。

误解之一:”新的二级和三级高速缓存设计造成的”

酷睿 i7 (Nehalem微架构) 采用了更加先进的高速缓存层级结构,更加优秀的数据更新淘汰算法和数据一致性算法,高速缓存的全新设计是新架构的亮点之一。这样的设计更多是面向将来应用的计算特点而生的,如多任务,多线程并发/并行运算,数据密集型运算,单指令多数据流的运算等等。一些开发较早的游戏出现性能提升不多或者稍稍下降的原因是它们不能够正确识别和运用Nehalem高度并行的微架构以及新的指令集等等——4核心8线程,SSE 4.1和SSE4.2指令集。

现在来具体看看酷睿 i7 (Nehalem微架构)的高速缓存的设计。酷睿 i7 (Nehalem微架构)一级高速缓存(L1 Cache)和前一代酷睿2(酷睿微架构)的变化不大,还是每个内核都有自己的32KB 一级指令高速缓存和32KB 一级数据高速缓存。和酷睿微架构相比,Nehalem 微架构中每个内核拥有了自己专用的256KB 二级高速缓存(L2 cache),而且新设计的高速缓存的延迟大幅度减少,也就是读写速度大幅度提高。另外,二级高速缓存中加入了含有512个 表项的 TLB (Translation Lookaside buffer,翻译后援缓冲器) ,并且还加入了4个内核共享 的8MB 三级高速缓存(L3 Cache) 设计。一,二,三级高速缓存的设计紧凑,数据更新和淘汰算法先进,保持了非常高的数据访问命中率,所以”巨大延迟”的断言是不正确的。

和其他厂商的高速缓存设计最大的不同是,Nehalem 采用内含式(inclusive) 设计而非内含式(Exclusive)设计,这样几乎可以非常完美地处理各个内核、各级高速缓存的数据一致性问题以及提高命中率(cache hit rate)。就是说,Nehalem中每个内核一级和二级高速缓存中的数据在三级高速缓存中都有备份,在8MB 三级高速缓存中有 1.256 MB (一级 64KB x 4 + 二级 256KB x 4)容量的数据和一级+二级高速缓存中的数据相同。因此,如果三级高速缓存不命中,所需要读写的数据也不会在其他内核的一级和二级高速缓存中,也就不需要查询其他内核及其它们的一级+二级高速缓存。

另外,Nehalem还采用了高速缓存一致性协议来确定L3 Cache中的数据块在哪些内核及其L1/L2 cache中,每个数据块采用一组4 bit来标识,例如,0001表示数据不在前3个内核中使用,而在第4个内核中使用,需要侦听第四个内核对这个数据块的处理情况——是读还是写操作,避免发生数据不一致的问题。这种方式使多个内核的并行协同运算非常高效和精准。

所以说有了三级高速缓存和较小的二级高速缓存造成了游戏的性能下降是不正确的。对于造成部分游戏的性能影响,可能是不支持超线程,我们有过这样的经验,对于不支持超线程的游戏,把超线程关闭,性能反而提升了。这些游戏要充分利用到超线程的优势,只能等它们的新版本了。

对于能够代表将来游戏发展方向的一些游戏,如: Brothers In Arms: Hell’s Highway(《战火兄弟连:地狱公路》) Call of Duty 4(《使命召唤4》) Far Cry 2 (《孤岛惊魂》) Crysis Warhead (《孤岛危机:弹头》) 在这些实际游戏的测试中,酷睿 i7 (Nehalem微架构)的性能贡献是非常显著的。对于可以测试将来游戏性能趋势的 3DMark Vantage 基准测试,结果也是有目共睹的,这个网站上的测试可见一斑: http://www.guru3d.com/article/core-i7-multigpu-sli-crossfire-game-performance-review/19

误解之二:”Nehalem微架构的创新设计对游戏的贡献不大,所以酷睿 i7在主流游戏中的性能提升幅度不大。”

基于Nehalem微架构的酷睿 i7处理器是专门针对高端台式机的用户设计的,面向的主要用户群就是顶级的游戏玩家,追求极致性能的高端硬件DIY发烧友,多媒体数字内容创作者。

现在的高端游戏综合了视频,动画,图像,图形,实时生成二维/三维图形图像,以及物理特效模拟和人工智能的能力,除了三维部分的工作主要以显卡为主,其他部分都依赖于处理器的性能,Nehalem的微架构是为应对这些挑战开发的。对于已经上市的游戏不能够充分发挥Nehalem新架构的巨大威力,就说它的创新设计对游戏的贡献不大,不免有误导的嫌疑。

创新的游戏需要更加逼真的物理模拟(爆炸效果,物体飞行/粒子扩散/烟尘效果等等)和让游戏更加好玩的人工智能,它们都需要强大的处理器来支持。对于采用支持多核并行计算的物理模拟引擎和人工智能引擎开发的游戏,酷睿 i7 处理器的表现让人瞠目。与前一代顶级的处理器——至尊版的酷睿 2 四核QX9770相比,酷睿 i7-965 在3DMark Vantage的CPU子项中表现优异: 3DMark* Vantage* CPU - Physics Test 提高44% 物理模拟测试 3DMark* Vantage* CPU - AI 提高55% 人工智能——电脑指挥的”敌人更聪明”

买高端电脑的玩家不是用这样的”宝贝疙瘩”来玩主流游戏的,都是觉得在玩最新最酷的高端游戏或者是需要体验游戏中的”全体验”(各种效果全开)时处理器不够用,才决定买高端电脑的。而且希望酷睿 i7 处理器在两三年内能够应对新型的创新游戏。

目前很多游戏不能够充分发挥酷睿 i7 处理器威力的原因有: 1.目前已上市的游戏在开发时采用的引擎对多核心的支持并不好,甚至没有采用需要多核运算能力的物理模拟引擎和人工智能引擎,有的可能只能支持到双核,不能支持到四核心,更不用说支持到8个线程,毕竟在酷睿 i7 处理器上市前,能够支持到8线程运算的游戏引擎很少。 2.游戏开发商在之前更加注重游戏的情节、高分辨率、画质,对于游戏的逼真和更加智能游戏重视度不够。多线程开发有一定的难度,需要技术积累。 3.对于很多玩家来讲,高端的物理模拟和人工智能体验还是个新鲜事物,在很多现有的游戏中体验不到。

误解之三:”浮点性能没有提升,所以游戏性能没有提高” 新的台式机处理器浮点运算的世界纪录是酷睿 i7-965 至尊版处理器创造的,SPECfpratebase2006 分数为82.9,而前一代的高端的酷睿 2 四核 Q9650等分为52.8。浮点运算能力提升高达57%之多。详细资料来源,可以查2008年11月13日在 http://www.spec.org/cpu2006/results/ 上发布的结果。

所以这种说法也是似是而非的。

酷睿 i7 处理器能达到这么高的浮点运算能力,得益于Nehalem先进微架构的设计,主要贡献来自于: (1) 支持超线程——第三代超线程技术,,四核心时多达八个线程。

(2) 英特尔® 智能加速技术——内核运行动态加速(Turbo Mode),按需供电,按需加速性能

(3) Cache的设计——采用三级全内含式Cache设计,L1的设计和Core 微架构一样;L2采用超低延迟的设计,每个内核256KB;L3采用共享式设计,被片上所有内核共享。

(4) 集成了内存控制器(IMC)——从芯片组上移到CPU片上,支持多通道DDR3内存,内存读取的延迟大幅度减少,内存带宽大幅提升,最多可达三倍。

(5) QPI(Quick Path Interconnect)——”快速智能互连”,取代前端总线(FSB)的一种点到点连接技术,20位宽的QPI连接其带宽可达惊人的每秒25.6GB,远非FSB可比。QPI最初能够发放异彩的是支持多个处理器的服务器平台,QPI可以用于多处理器之间的互联。

如果您需要发表评论,请点击此处。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有