加载中…
个人资料
时光机
时光机
  • 博客等级:
  • 博客积分:0
  • 博客访问:194,950
  • 关注人气:63
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
正文 字体大小:

关于数据中心的冷却度量指标——测量什么指标,怎么测量,为什么要测量

(2018-08-20 09:54:19)
标签:

数据中心

冷却

         http://www.jifang360.com/news/2018820/n4435106605.html

         当前,企业现代化的数据中心正在继续的快速发展。与此同时,尽管数据中心业界所采用的相关冷却的方法和技术也都在继续的发展进步,但随着时间的推移,数据中心业内的一些运营管理实践已经证明了一些基本的经验仍然没有得到充分的贯彻执行。新兴发展的技巧和技术对于当前数据中心的运营固然是有益的,但如果没有使用基本的气流管理指标,就无法实现先进的冷却方案所带来的全部益处。自数据中心行业诞生以来,基础性的数据中心指标一直是许多业界相关人士所秉承的基本理念,但在过去几年里,由于诸如密封遏制、免费自然冷却和蒸发冷却等冷却方式的进步,逐渐成为了新的亮点,使得人们对于这些基本面的强调和关注度开始有所下降。然而,事实上,在数据中心运营管理过程中,对于相关基本原理灵活熟练的运用对于获得最佳结果恰恰是至关重要的,无论贵公司数据中心所使用的是传统的冷却架构还是最新的高级自然冷却方法。因此,该领域的相关专家们正在呼吁业界重新关注基本面的相关因素,而最近,在业内的许多大型活动上,这些专业人士们都纷纷提出了关注基本面方面的话题。

  简单地说,所谓的数据中心气流管理(AFM)是关于改善数据中心的气流,以便在最高温度的气流供应下,使用最少的空调制冷来有效地冷却IT设备。如下,我们将与广大读者朋友们共同探讨可以有助于帮助您企业数据中心的运营管理人员们确定可以针对哪些基本项目实施改进,从而提高您企业数据中心的冷却能力、IT性能,进而实现更好的节能的相关指标(无论您企业数据中心服务器机房的具体配置如何或使用的冷却方法是怎样的)。

  一、电源使用效率(PUE)

  数据中心的电源使用效率(Power usage effectiveness,PUE)这一指标是由绿色网格组织所创建的,该指标目前已经成为了业界最广泛使用的用以评估数据中心能源效率的度量标准。实际上,PUE的数值揭示了数据中心内部的冷却基础设施是电源功率消耗的最大户(通常约占数据中心总功耗的一半),因此是高PUE值的最大贡献者。作为了解和把握数据中心整体能源效率的最高级别的度量思路,测量PUE值是了解数据中心性能和跟踪数据中心随时间变化/改进的一个很好的起点。其计算公式如下:

  PUE = 数据中心总设备能耗/IT设备能耗

  PUE值是数据中心所消耗的所有能源与由其IT设备所消耗的能源之比,是DCIE(data center inftructure efficiency )的反比。

  虽然PUE是一个非常重要的工具,但该值并不能具体告诉您企业数据中心的运营管理人员们如何实施改进,以使数据中心更加节能。此外,PUE值也并不是一个独立的参考点,其在不经常计算时提供有用的信息。尽管近年来的相关调查显示数据中心的平均的PUE值一直在下降,但其实仍有很大的改进空间。此外,业界对于PUE误用的趋势越来越明显。许多数据中心站点正在计算局部PUE (pPUE),该方法并不是将整个数据中心站点的总功率中的所有负载囊括在内,而是将其报告为站点的总PUE。pPUE是一种有价值的度量,但是应该进行适当地报告。

  二、冷却能力系数(CCF)

  在数据中心所有的IT设备中,冷却设备所消耗的能量最多。冷却能力系数(Cooling Capacity Factor,CCF)是由Upsite Technologies, Inc.公司所开发的一种度量指标,用于估计数据中心服务器机房冷却能力的利用率。通过确定冷却基础设施的使用情况,您企业数据中心可以确定通过实施AFM改进和控制调整方案所能够带来的潜在收益。这对于改善整个数据中心(免费冷却、冷水机组等)的冷却是非常重要的,并且对改进PUE值也具有最大的影响力。CCF的计算方法是将总额定冷却能力(kW)除以IT临界负荷(kW)的110%:

  总额定冷却能力是运行的冷却机组额定容量的总和。如果所有冷却装置都在运行,那么这个数值将与总安装额定冷却能力相同。CCF的值大约在1.2左右是最为理想的,虽然1.5到3.0则是最常见的。在后一种情况下,数据中心可能会通过改进AFM来恢复大量的搁置的冷却能力。

  三、冷却效果

  虽然许多企业的数据中心都会通过安置在不同位置的大量传感器实施监控,但很少有人定期检查,以确定在计算机服务器机房内的每个U空间中冷却的有效性。这一点恰恰是非常重要的,因为热点可能发生在非常孤立的位置,传感器经常会漏掉对这些孤立位置的监测。为了避免这种情况的发生,企业数据中心应该采用红外摄像机和红外温度计来识别相关的热点。确定服务器机柜冷点的百分比以及热点的百分比也同样重要,这样您数据中心的运营管理人员们就可以确定哪些区域需要特别关注了。

  在数据中心中,进气温度的范围与冷却基础设施的效率有直接的关系。在理想的情况下,最高进气温度与最低进气温度之间的温差应该为5度或更小。如果超出了该值,则说明还有改进的空间RAE所推荐的数据中心进气温度的范围是在64°F到80.6°F之间。虽然进气温度低于64°F并不会影响到相关设备的可靠性,但有研究表明,这样会消耗过量的能量以便用于冷却服务器机房。热点(入口温度高于数据中心现场站点所需的最大温度)是表明冷却系统无效的一项指标,其可能会危及到IT设备的可靠性——故而需要尽快的纠正这种情况。


图1、热图像显示了机架底部的冷点和机架顶部的热点,表明供应温度过冷,气流管理不好。

  四、高架地板(Raised floor) 旁道开放区域

  对于那些使用了高架地板(Raised floor)的数据中心来说,这是最简单也是最重要的指标之一。其仅仅只是通过评判在 “好”的位置上安装的高架地板上的孔洞的百分比,以及“坏”的位置上安装的高架地板上的孔洞的百分比。“好”的意思是指从高架地板的孔洞中流出的空气直接被IT设备冷却散热所使用。而“坏”的意思是,所供应的冷却空气被输送到了开放空间,而并没有被IT设备的散热冷却所消耗。唯一好的开放区域的类型是直接在IT设备前面的气流供应瓷砖(穿孔瓷砖或格栅)。而两种不好的开放区域则是在机柜下面和机房周围的未密封的电缆开口,以及错误放置的气流供应瓷砖(在开放区域或热通道)。

  例如,如果一处服务器机房内有一台机柜,其前面安装有一个标准的穿孔瓷砖,开放区域为25%(1平方英尺),还有一个未密封的12-12英寸 (1平方英尺)的电缆线在后端,那么总的高架地板的开放区域的面积则为2平方英尺,高架地板旁路开放区域的面积为1平方英尺或旁路开放区域的50%。

  尽管许多数据中心都在努力密封高架地板上的电缆开口和其他潜在的有害孔洞,但很少有企业真正完成了这项工作。这些剩余的开口可以很容易地释放大量的空气流量,进而限制了冷却基础设施的容量和效率。我们的目标是没有旁路开放区域;地板上唯一的开口应该是IT设备前面的气流供应砖。特别重要的是要密封或(根据设计)至少减少电气设备下的开放区域,如配电装置(PDU)或远程电源板(RPP)。

  五、多孔砖的安置

  在服务器计算机房中使用穿孔的地板瓷砖是管理气流最简单、也最容易的方法之一。然而,很少有数据中心在这方面真正做得很好,尽管穿孔的瓷砖可以是一个快速且成本相对便宜的修复改善冷却的方案。即使在管理良好的数据中心站点,也经常存在可以通过改进穿孔瓷砖布局,以提升冷却效率的空间的情况。

  似乎当前不根据计算机房的实际负荷调整穿孔砖的位置的趋势正在变得越来越普遍。在一项针对全球范围内的45处数据中心所进行的一项研究中,只有6处数据中心站点(占比为13%)正确地安置了每一块穿孔的瓷砖。当考虑到使这些数据中心保持适当的冷却所浪费的大量能量时,这一点尤其值得令人警醒。

  适当安置的穿孔地板瓷砖的定义是在IT设备进气口的两个瓷砖位置内。相反,安置不当的穿孔瓷砖通常是机房内热通道或开放区域的任何瓷砖。然而,也有一些重要的例外情况。例如,如果IT设备是向后安装的(从热通道/冷通道的角度),进气口在热通道中,那么在热通道中很可能需要安装一个穿孔的瓷砖,直到设备可以转动。这种情况本来就不应该发生,但现在仍然经常发生。


图2: 在一处热通道内被错误安置的穿孔瓷砖和未密封的电缆布置。

  六、旁路气流(供给气流与流经IT设备的气流之比)

  旁路气流的定义是指任何在返回冷却装置之前没有通过IT设备的调节空气。改善旁路气流的唯一方法是通过冷却装置降低通过服务器机房的空气的总流速。在许多情况下,冷却装置提供的空气的总流速是IT设备所需的总气流速率的两到三倍。这种过多的旁路气流通常是克服不良AFM所必需的。然而,如果你企业数据中心想要改进AFM,可能会减少通过服务器机房的空气总量。要确定房间中有多少旁路气流发生,有必要确定通过IT设备的空气的总流速,并将其与通过所有冷却设备的总流速进行比较。

  历史上,刀片服务器较之传统的机架式服务器(比萨盒服务器,pizza box server)产生了更高的增量 (Ts)。换句话说,供应的冷却空气进入刀片服务器时,输出的空气比进入披萨服务器时的空气要热。这种差异可以用传热方程来描述:

  q = Cp x W x T

  其中,q =传热量;Cp =空气的比热;W =质量流量;ΔT=跨热源的空气温度升高量

  当我们针对这些通常处理的单位的术语进行规范化时,这种关系将被描述为:

  CFM = 3.16 x Watts

  T

  其中,CFM =每分钟通过服务器的气流量(单位:立方英尺);3.16 =海平面的空气密度因子°F;T =通过服务器的空气的温度提升量°F

  基于上述这一计算公式,一款承载了16台服务器的5 kw的刀片式服务器机箱,且T 为35°F,所计算得出的CFM 将为451.4:

  451.4 CFM = 3.16 x 5,000

  35° F

  相比之下,10台500 w的披萨盒服务器,T 为20°F所计算得出的CFM值将为790:

  790 CFM = 3.16 x 5,000

  20° F

  在一处拥有1600刀片服务器(100款机柜)的数据中心,其服务器大约将消耗45140 CFM的冷却空气(100款机柜x 451.4 CFM/机柜= 45140 CFM);较之一处拥有1000台披萨盒服务器的数据中心,后者共计大约将消耗79000 CFM的冷却空气(1000服务器x 79 CFM/服务器= 79000 CFM)。


表1:冷却容量因子

  下表2显示了冷却一千瓦的IT工作负载所需的CFM相对于IT设备的T。


表2:冷却一千瓦的IT工作负载所需的CFM相对于IT设备的T。

  通过估算数据中心服务器机房内相关IT设备的平均T,您可以估计对1 kW的IT工作负载实施冷却所需的平均CFM。然后,您可以通过采用以下公式计算出贵公司数据中心总的IT设备冷却流量的比率:

  UPS负荷(kW) x平均CFM/kW =总的ITCFM值

  通过从总冷却单元流量中减去总IT设备冷却流量,可以简单地确定旁通气流率。总冷却单元流量可以很容易地由冷却单元规格确定。

  例如:

  l 有8台冷却机组,每台冷却机组交付12000 CFM;

  l 总冷却机组流量为96,000 CFM(8×12,000 CFM = 96,000 CFM);

  l 设备平均T为 25°F;

  l IT所需的冷却流量为126 CFM/kW;

  l UPS的负载是325千瓦;

  l 由此,IT设备总冷却流量为40950 CFM (325 kW x 126 CFM/kW = 40950 CFM)

  旁路流量为55050 CFM或57%(冷却流量96000 CFM - IT流量40950 CFM =旁路流量55050 CFM) (55050 CFM / 96000 CFM = 0.57 = 57%)

  结论

  虽然这些度量指标对于经验丰富的数据中心操作运营人员们来说可能是一种补救措施,但它们往往揭示了在追求最新趋势和技术时被忽视的进一步改进的机会。而从基本的步骤开始,比如通过适当地在数据中心服务器机房内安置每一个有孔的瓷砖来改善房间的AFM,可以改善通风散热条件,进而在不需要投资新设备的情况下,可以实现显著的节能。冷却装置风扇速度可以降低,并提供空气温度上升到先前认为不可能的水平,所有这些都不会影响IT设备的进气温度。通过在效率评估或AFM升级开始时使用这些基本指标,数据中心操作运营人员们可以开始对其站点进行准确和必要的更改,并提高服务器机房内的总冷却能力,这通常可以提高设备的可靠性,并节约能源成本。

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有