“天河”的中国芯
(2015-09-15 21:17:30)
标签:
天河2号超级计算机火星matric2000飞腾 |
分类: IT |
今年4月美国商务部发布报告,决定拒绝英特尔公司向中国的国家超级计算广州中心出售至强芯片用于天河二号系统升级的申请。包括美国的一些有识之士在内的舆论普遍认为这不但不能遏制中国在全球超算竞争中的势头,反而将加速中国自主发展超算芯片的步伐。人们期望不久将有我国自主的超算芯片用于天河2-A。但是谁都没有料到的是这一天来得这么快!7月在德国召开的2015 ISC国际超算大会上中国国防科技大学发布了基于自主研发的Matric2000 GPDSP加速器芯片的天河2-A研发计划,8在美国展开2015 HotChip 上飞腾公司发布的64核64位ARM CPU芯片在全球业界产生巨大反响。
此次天河2号(峰值速率55 Petaflops)升级到天河2-A(峰值速率100 Petaflops)从16000个节点升级到18000个节点所需要的Xeon E5 2692 已经交付,这次被拒绝的申请是新一代的Xeon Phi。没有Intel的配合,也就没有必要采用Intel MIC 的同构计算模式,自主研发加速器将采用异构计算模式。目前异构加速器主要有三种模式,GPU、FPGA和DSP三种。使用最多最成熟的是GPU(天河1号使用的就是NAVIDA GPU)。DSP加速器是近年来才兴起,其优势是能效比较高,主要用于一些小系统,尚未用于大型系统。国防科技大学过去几年在DSP加速器有一定积累,此次在天河2-A中采用DSP加速器是顺理成章,期望在能效方面取得突破。
http://s9/mw690/001kqfc0zy6VsoRsp3W48&690
Matric 2000 GPDSP 突破传统DSP 32比特的限制,可以支持64比特,今后可支持单和双精度.。单块DSP加速卡的单/双精度的速率为4.8/2.4TFLOPS,功耗200W。双精度能效达12GFLOPS/W。支持HBM存储器及PCIe 3.0.正是由于DSP加速器的高能效使得天河2-A的性能比天河2号提高一倍(100PFLOPS)而能耗基本保持不变(18MW)。
http://s5/mw690/001kqfc0zy6VsoVwh5Gb4&690
一个超级节点集成多个GDDSP核。每一个优化的核具有标量和矢量单元已及专门的矢量存储器和VLIW能力。高速非块状芯片上网络连接这些超级节点,速率4Fb/S。
http://s1/mw690/001kqfc0zy6Vsp5yzCg70&690
在CPU方面同样出现了骄人的进展。在Hotchips 2015大会上,飞腾公司介绍了他们的”火星”(Mars),一颗兼容ARMv8指令集,四发射乱序执行,拥有多达64个核心,主频达到2GHZ的服务器CPU。在标准测试集Spec 2006中,”火星”的多核整数分数高达672,浮点分数585。相比之下,Intel目前最强的处理器Xeon E7-8890v3和Xeon E5-2699v3的整数、浮点成绩分别是680和460,"火星”的性能足以与它们媲美。飞腾信息技术有限公司是国家超级计算中心投资的企业,其开发团队是中国国防科技大学高性能处理器研究团队。该团队此前开发了基于SPARC指令集的飞腾FT-1500,在天河2号中,使用了4096颗该处理器用作前端节点处理器。后改为发展基于ARM指令集的CPU芯片。2015年3月推出FT-1500A系列處理器,这是一款64位通用CPU﹐采用ARMv8指令集﹐使用用國際先進的28nm工藝流片﹐具有高性能﹑低功耗等特點。目前该系列包括4核和16核兩款產品。估计“火星”应该是该系列的64核产品。
http://s7/mw690/001kqfc0zy6Vsp8PwCq16&690
“火星”的核代号为”小米”,是典型的现代高性能处理器微架构设计,四发射、两个浮点单元,不长的流水线和三级缓存方案。它并不是为密集浮点运算设计的产物,单周期双精度浮点输出只有4Flop。但是"小米"核心的访存结构设计很激进,192个寄存器、单核心512K L2、2M L3的设计非常像Intel的Haswell微架构。”火星”采用二维mesh多核互联结构,每8颗”小米”核心组成一个阵列,每个阵列有一个双通道DDR3-1600内存控制器;8个阵列组成”火星”芯片,总共64个核心、32M二级缓存、128M三级缓存和16通道内存,205G/s理论内存带宽。芯片上还有32个PCIe 3.0通道。
http://s14/mw690/001kqfc0zy6VspcXt4Ved&690
“火星”的理论浮点计算能力是双精度512GFlOPS,采用28nm制造工艺,主频2GHZ,核心运行电压不足1v。芯片面积640平方毫米,满载功耗只有120w,低于使用22nm先进工艺,性能相当的Xeon E5-2699v3、E7-8890v3,体现了ARM架构高能效的优势。
http://s1/mw690/001kqfc0zy6VspgqrUka0&690
据说“火星”的量产版本预计会在2016年推出,可能会首先用在国防科大下一代超级计算机(天河3 ?)上。使用”火星”和Matrix 2000的组合来搭建。
下图给出MARS及Matric 2000和一些现有和在研超级计算的芯片的性能比较。MARS及Matric 2000的性能已经优于现有XeonE5/phi和NVIDIA K80。Matric 2000的能效有较大幅度的提升,但CPU的能效与E计算要求(1EFLOPS/20MW)相比还有较大的差距。图中采用新型结构和开源指令集的在研的REX的Neo芯片是唯一能耗能够达到指标的芯片。REX认为目前计算机中的缓存Cash和虚拟储存器是能耗大户,为此采用暂时存储器的新架构以降低能耗。REX 通过开放计算计划OCP将其Neo 64 指令集开源。采用美国加州大学伯克利分校开源指令集RISC-V的开源chisel硬件设计系统方便高效地设计芯片。计划中的REX Neo256核芯片的单精度速率达512GFLOPS,功耗4W,能效达128GFLOPS/W(双精度能效64GFLOPS/W)。创业公司REX的颠覆性创新得到了DARPA 10万美元的赞助。http://s12/mw690/001kqfc0zy6VsplG2V53b&690
从可持续发展看,要满足2022年实现1EFLOPS/20MW的E计算需求关键是提高CPU的能效。一种可能的路径是:突破现有指令集架构的约束,基于开源指令集,按照HPC与数据中心计算融合及能效限制的需求,设计RISC多核SoC芯片用于超级计算机节点。这种CPU还可用于数据中心的服务器。我国在使用先进芯片产品架构超级计算机,设计生产服务器方面已经有了较强的实力。目前的短板是芯片,有了自己的先进芯片,就能建立安全,可持续发展的产业链。中芯国际已经具备了28nm的生产能力,关键是芯片设计。开源指令集是一个机会REX敢做的事我们也能做,而且可以做得更好。天河超级计算机的辉煌不但可以持续下去,而且可以更加灿烂辉煌。