黑科技变为现实!揭秘NVIDIA DGX-1超算背后的故事

标签:
股票nvda |
分类: 公司 |
来源:2016-07-21
强力胶带、树脂玻璃、塑料扎带、耳塞、创可贴……当这些毫无关联的东西凑在一起,你很难想象到,它们竟然与NVIDIA首款超级计算机——DGX-1有关。今天给大家讲述的,正是DGX-1诞生背后的故事。
NVIDIA DGX-1是什么?
DGX-1是NVIDIA亲自打造的用于深度学习的超级计算机,它只有一个小型机架服务器大小,内嵌八颗采用NVIDIA最新Pascal架构Tesla
P100 GPU加速器,可提供高达170 TFLOPS的超强计算性能,只需一台,就足以匹敌250台X86
CPU服务器节点。如果只用一个词来衡量DGX-1,那就是疯狂!
http://mmbiz.qpic.cn/mmbiz/VRC6xWXCPvU97fafYK8NwXYk1wYUQPFan0dRANpHLZlwomT8JuyfZfIBOWQTt5ibLIJKARRwj1cISu4XK90edwA/640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1DGX-1超算背后的故事" TITLE="黑科技变为现实!揭秘NVIDIA
为什么要打造DGX-1?
如今,全球数以万计的科研人员通过深度学习技术与GPU,来实现语音语意识别、影像识别、自动驾驶等方面的探索,而深度学习技术也在不断延伸到更多领域,为越来越多的应用带来变革。这需要开发者花费大量的人力与财力,去部署大量的GPU及其配套的软件环境。而DGX-1的出现,则将帮助这些科研人员,直接跳过这一步。
在2015年3月举办的GTC 2015大会上,NVIDIA联合创始人兼首席执行官黄仁勋先生宣布,将在一年后,也就是2016年初,推出基于Pascal架构的全新GPU,它将为深度学习任务带来10倍的性能提升!
但问题也接踵而来:当时,新的GPU(Tesla P100)还没有发布,并且配备四张TITAN X的DIGITS DevBox性能已经极为强悍,要在短短一年时间里,做出一台尺寸相当,性能是它的10倍的机器,谈何容易!
http://mmbiz.qpic.cn/mmbiz/VRC6xWXCPvU97fafYK8NwXYk1wYUQPFa4ibAUSky2NSeDwLhWnEoLdMZ7YQz4PxNEyy80HUJnP0Q8gC1diazl4UA/640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1DGX-1超算背后的故事" TITLE="黑科技变为现实!揭秘NVIDIA
在 GTC 2016 上,黄仁勋揭晓 NVIDIA DGX-1:全球首款单机箱深度学习超级计算机
DGX-1诞生背后:一场争分夺秒的竞赛
参与项目的一位主工程师表示:“DGX-1绝不仅仅是一款硬件或者一款软件那么简单,它需要足够容易使用,用户只需要通过三个UI按钮,便使用到所有的新功能。”
而在随后的一场公司高层会议上,黄仁勋要求NVIDIA的工程团队展开攻坚战,基于Pascal架构打造出一款服务器产品,以便在第二年的GTC大会上发布。这款服务器需要足够完善,以便让这些研究人员只需要打开电源,便能充分使用到8颗新的GPU带来的全部性能!
http://mmbiz.qpic.cn/mmbiz/VRC6xWXCPvUib8kicAmNIfdSwH9SbFPRTYibmeHGtHHjp4TiaH6AoIXCVWP5Dtc49ibKKgNvCN2hoV27m558fv9kibHA/640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1DGX-1超算背后的故事" TITLE="黑科技变为现实!揭秘NVIDIA
NVIDIA DGX-1
难点一:它需要围绕一颗还没有发布的芯片来设计硬件
难点二:它需要整合科研人员必需的25款单独软件,并能够和谐的一起工作,其中包括Ubuntu操作系统、NVIDIA DIGITS深度学习训练系统、CUDA深度神经网络(cuDNN)GPU加速型基元库以及一系列NVIDIA驱动程序
黄仁勋要求团队用最快的速度将所有软硬件整合到一起,找到系统可能存在的限制,并加以突破。紧接着,十几个独立的工程团队开始展开行动!
NVIDIA产品架构与工程总监John在总结这一项目时表示:“我们最擅长集群作战,其它公司在这方面可比不上我们。在NVIDIA,你只需要找出几名Leader,他们就能组建出一只精英团队,完成这项任务。”
2015年5月,工程师团队制作了一张全新拓扑结构草图,它描述了如何将8颗GPU结合到一起,使其可以全部用于处理深度学习任务。同时,该结构还允许将系统分为两个单独的子系统,来运行传统的高性能计算任务。但是,当时Tesla
P100并没有Ready,首批支持NVLink的样品要在年底才能拿到,工程师团队完全无法验证其设想是否可行。
http://mmbiz.qpic.cn/mmbiz/VRC6xWXCPvU97fafYK8NwXYk1wYUQPFaZPuibicIerHSGic7PQdeyEW8ZjQYkcbN1luY7jUTevtQEDD2ls533KwPQ/640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1DGX-1超算背后的故事" TITLE="黑科技变为现实!揭秘NVIDIA
DGX-1内部结构
2015年9月,软件工程师团队开始打造名为"NCCL“的系统软件,它需要运行在此前设定好的拓扑结构之上,为Caffe、Theano、Torch、TensorFlow、CNTK等常用深度学习和高性能计算工具的准确运行提供保障。
2015年11月,工程师们终于等到了Tesla P100的首批样品,随即展开了艰苦的研发工作。但这并非普通的研发,因为工程师们所面临的硬件,不仅架构是全新的,甚至制造工艺都有着非常大的改变。16nm到底是多长?相当于人的指甲每分钟生长长度的四分之一,大家感受下。
2015年12月,GPU有了,但用于容纳这些GPU的机箱,还没有制造完成,要等到次年1月底才可以!为此,工程师们不得不使用金属、强力胶带以及树脂玻璃等材料制作了一个临时机箱。但当他们连接到第4颗GPU时,却怎么也连不上,直至后来发现,在一段重要的代码中少了两个括号……
幸运的是,DGX-1的“临时版本”非常成功,和工程师们预期的结果完全一致。
2016年1月,工业设计团队开始使用NVIDIA Iray渲染技术来制作DGX-1机箱的精准数字模型,并加工了铝合金外壳。
2016年3月,他们选用了一种金属化泡沫(一种用于飞机的轻质高强度材料),使机箱吸入冷空气的速度比传统的冲孔金属板更快。
http://mmbiz.qpic.cn/mmbiz/VRC6xWXCPvU97fafYK8NwXYk1wYUQPFajW2UIQicMR4iaRntokLsHmFhuQiaGMGUgKPyjNhyA4cqIOKGR2wibzonZw/640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1DGX-1超算背后的故事" TITLE="黑科技变为现实!揭秘NVIDIA
DGX-1内部的8颗Tesla P100 GPU加速器
2016年3月底,最终的机箱由韩国的一家模型店制作完成。其尺寸小到可以带上飞机,而不必托运。
在距离GTC 2016开幕不到一周的时候,DGX-1才得以最终完工,并在AlexNet深度学习基准测试中实现了10倍性能提升,在2个小时内便完成了之前需要20多个小时才能完成的任务。
2016年4月3日,GTC 2016开幕前一天,DGX-1在AlexNet上实现了12倍的性能提升!至此,黄仁勋先生于一年前许下的愿景,终于得以实现!
http://mmbiz.qpic.cn/mmbiz/VRC6xWXCPvU97fafYK8NwXYk1wYUQPFa55lBRAsBsSC7NU2hBMRDJpVMj1arywjP5iciaUFs204ibBd6WjhIlgkVA/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1DGX-1超算背后的故事" TITLE="黑科技变为现实!揭秘NVIDIA
2016年4月5日,黄仁勋在GTC 2016上向全世界展示首台DGX-1服务器。台下的相机快门响个不停,媒体记者们纷纷猛敲着键盘撰写报道。
2016年5月30日,工程师们已经准备好,为那些已经迫不及待的客户提供首批DGX-1机器。而在GTC 2016上展示的首台DGX-1,现正在NVIDIA硅谷总部服役,处理NVIDIA新泽西自动驾驶团队收集的庞大数据,为完善DRIVE PX自动驾驶平台全速运行。