"中暑"警报
前几日,新浪"任你邮"的几则公告拉响了数据中心的"中暑"警报。然而,我们发现在"中暑"的原因上,新浪与为其提供托管服务的中国网通北京通信数据中心的解释却不尽相同。首先,对机房"温度"的描述并不一致。因为数据中心机房温度有着严格的设定,基本都在20~25摄氏度之间,如果是网通机房温度达到41~43摄氏度,机柜内的温度就不堪想象了。而无论服务器还是存储设备,一般都是进风口的温度略高于20摄氏度,出风口的温度则增加 10余摄氏度,因为气流携带出来了系统运行中产生的热量。因此,网通所称"高密度磁盘阵列组的出风口"似乎更为精确。
其次,导致"温度"过高的原因解释也不同。北京通信公司市场部唐柳明的解释是"码放有些问题"。通常一个机架上只能放100套设备,但是新浪放了260套。而新浪公关部高级经理孟翔鹏的说明是:"整体环境温度不是新浪能够控制的,受国内整体电力控制等各方面问题的影响,机房空调的制冷性能有待提高。目前,新浪正在积极配合网通改善和解决机房空调的制冷性。"为了推迟、缩短服务中断时间,新浪称"己在力所能及的范围内进行了各种努力,包括对设备进行人工降温和物理降温各种手段。事实上,"高温"导致服务中断的现象并非仅此一家。6月30日,重庆电信服务器突然"瘫痪",渝中区、沙坪坝区、江北区电信用户无法打开任何网页。该市一专业人士推测,由于天气高温,机房散热容易出现问题,导致出现设备故障。
那么,现在对于用户来讲,更重要的是如何从技术上避免此类事件的再次发生!
存储散热
都说"和技术无关"
网通的解释引发了一个新的话题,即存储散热。
几位存储技术人员都表示不太了解散热问题,可见这个话题有多新。不过几位在细一琢磨后,陈述的观点又非常一致:存储散热无关(存储)技术,但非常重要。
惠普存储产品经理张建军表示,存储设备大多采取标准散热技术,有专门的散热工艺,一般的存储技术人员并不了解。但他补充说,存储设备对场地环境要求很高,用户对散热和通风问题应该非常重视。和很多存储厂商做法一样,惠普的工程师在设备安装前,就会到机房现场去观察是否有良好的散热、通风条件,并在方案书中给出详细建议;同时惠普还提供机房场地评估服务。
EMC的采访回应则是在经过"二传"之后落到了售后工程师李俊身上,理由是"他经常到用户现场,对于存储散热有实际了解。"
李俊给了记者一些量化的概念:EMC低端存储设备的功率通常是在200~300瓦;而高端存储设备通常是一个机柜,在满配的情况下整个机柜功率在1.5千瓦左右;而EMC最高端的存储设备整个机柜的功率可达到6千瓦。功率越高,单位时间内的散热就越大。用户在购买产品前也可以根据设备的功率核算出散热量,看目前的制冷条件是否可以罩住它。
存储散热主要取决于场地温度、摆放和机器配置三方面因素,但他的经验是:如果空调温度合适的话,一般存储设备不会出现散热问题。 以EMC的存储设备为例,可以承受的温度范围是10~32摄氏度,而理想的工作环境是24~26摄氏度。如果温度过高,就会导致电源、风扇、磁盘故障率提高。厂商在安装前后都会进行确认、巡检,如果发现机柜内的温度不合适,就要求把机房空调调到一个理想值。
APC公司技术支持工程师金东提供的数字,印证了李俊的说法。在目前的机房环境下, 2 千瓦以下机柜在气流通畅的情况下自然散热可以得到基本保证。不过,为提高空间使用率、降低成本,磁盘阵列柜的体积越来越小、密度越来越高,在目前单向对流散热方式的磁盘阵列柜,如果一个机架中装设太多磁盘阵列柜,散热气流不够,就会出现散热问题。有厂商推荐在磁盘阵列柜采用高效率的三相散热(热传导、热辐射、热对流)系统,只需要小量的气流,就可以放心地在机架中高密度地装置磁盘阵列柜,这对大型企业、ISP、IDC来说都有参考价值。
本报存储版记者张峰也表示,在一般存储技术人员眼里,存储散热似乎无关技术,但它在很大程度上影响着存储设备可靠性以及业务连续性。已经出现的故障事件,提醒用户合理地节约空间,尤其是数据中心要严格遵守IT需求的环境标准严格管理和维护,从而保证系统的稳定运行。从网通给出的解释来看,此次就是因为物理空间内码放过多设备,而导致的局部散热问题。
服务器散热
关于"刀片"之争
服务器是数据中心的"发热"大户,当然也就是最容易中暑的成员。新浪的声明也让人的眼光不由自主地盯上它。
在数据中心里,最常见的就是机架式服务器,在机架服务器中,服务器被做成 1U、2U高塞进机箱内,在狭小的空间里有大量的硬件高速运行,且服务器一般要求24小时不间断工作,散发的热量非常大。那么,怎样才能有效降低服务器内部温度呢?
中国惠普工业标准服务器产品部联盟经理王晓琳介绍说,服务器的热量主要来自CPU等系统内硬件和电源两部分。现在单颗服务器 CPU的功率通常都在100多瓦以上,这意味着一个机架内就有几十颗滚热的 "心"在跳动。另外,服务器都要配备从交流电转为直流电的电源,尤其是机架服务器每台服务器上都要配交流电源,甚至配置冗余电源。而交流电转化为直流电的效率一般为60%~65%(惠普ProLiant服务器为70%~75%),此外的能耗显然直接就变成热量散出去了。
她给出的建议是,大数据中心应该考虑采用刀片服务器。有两大好处:一个是节省功耗,刀片服务器比传统机架服务器的功耗可以省30%。她以惠普自己的产品为例:8台 DL360 2路机架式服务器,每台功率是416瓦;而8台BL20P刀片服务器,每台功率是312瓦。一台服务器就省了100多瓦。一个42U机柜里至少可以摆放 30台,一个机柜就至少节省3000多瓦。另外,刀片服务器把电源集中起来了,大大降低了电源散热。她还强调了惠普刀片服务器的几大电源优势:一个是惠普刀片服务器把电源拿出机架外,做成一个电源机箱,里面插5~6电源模块,可以给5个刀片服务器机箱(40/80个刀片服务器)供电;一个是惠普刀片服务器电源把交流电转化为直流电的效率高达90%;一个是如果机房里有48伏直流供电,惠普可以把交流电源都省掉。
但是,刀片服务器密度更高,带来的单位面积内的散热压力更大。王晓琳也提到:如果要采用刀片服务器,一定要先解决功耗、散热等问题。
就实际应用来看,目前用户对刀片服务器散热的顾虑要大于信心。7月4日本报刊登了一篇《让服务器降温》的文章。文章中提到,关注减少数据中心停机时间的企业协会Uptime Institute执行总监Kenneth Brill评价说:"过去几年里,数据中心的平均热密度输出不断增加,今天这一数字为每平方英尺28瓦左右。但当你采用刀片服务器,而且数量比较庞大的话,也许每平方英尺的热密度输出将达到400瓦。" 他还引用一些刀片服务器用户所报告的数字,每机架的热量输出最多达到14千瓦,这与2台家用微波炉发出的热量相同。咨询与外包公司Capgemini基础设施总经理Cees de Kuijer也在接受采访时称:"刀片服务器带来一些问题:其中之一是发热,另一个问题是供电。我们目前在采购上基本上不考虑选择刀片服务器。"
那么,该如何解决刀片服务器的散热矛盾?Gartner去年底发表的研究报告中给出的建议是:企业用户要谨慎考虑部署刀片服务器和密度不断增加的机架式系统。"不经过仔细的规划以及缺少数据中心设备人员与服务器采购人员之间的协调,数据中心将不能增加电功率或冷却能力来适应服务器部署的增加。我们认为,一直到2008年底,服务器对散热和冷却的需要将阻碍90%的企业数据中心取得最大理论服务器密度。"如果从这个角度出发,我们就容易理解为何很多数据中心的服务器机架上方往往都是空着的了。
事实上,服务器的散热压力已经带来了新的市场机遇。比如Liebert公司推出了精确冷却系统,APC 推出了基于机柜的制冷解决方案。有了它们,数据中心等用户可以尽情享受机架服务器、刀片服务器带来的管理方便、节省空间、降低整体功耗,而不用再担心功率密度越来越高的机架内部安装了热弹,随时威胁着系统的整体可靠性、可用性。
数据中心的"空调病"
从新浪两次公告的内容来看,都提到了机房温度过高的问题。在新浪给记者的回复邮件中,也提到:新浪在己所能及的范围内,进行了各种努力,包括对设备进行人工降温和物理降温各种手段。但是整体环境温度不是新浪能够控制的,还需要网通采取有效的手段,从根本上解决这个问题。
记者曾经参观过网通在北京亦庄的数据中心,其方方面面的严格管理给记者留下了深刻印象,本报在做业务连续性专题时,也对此进行了详细的报道。当然,任何一个数据中心都会出现这样或者那样的问题,像网通这样国内顶级数据中心也不能例外,但在温度这个小节上失控还是令人不解。
一位同样做数据中心的人士分析说,可能是相对于该数据中心现有的电力和空调条件下,覆载的设备量太大了,这样一旦外界出现"高温"等状况,就会让散热问题浮上水面。新浪的答复也印证了这一点:受国内整体电力控制等各方面问题的影响,机房空调的制冷性能有待提高,目前,新浪正在积极配合网通改善和解决机房空调的制冷性。APC公司的技术工程师金东还介绍说,由于现在很多企业数据中心都是建立在写字楼中,本身就要受到客观条件的制约,比如无法安装室外机,无法提供 24小时不间断的冷却水,只能使用中央空调等,这样就更需要提前规划出科学合理的散热和通风方案。
如果我们撇开空调问题不谈的话,关键就在于:在现有空调条件下,如何更有效地降低系统自身的温度。对此,APC提出的解决方法是:以机架为单元,控制IT微环境的温度。通过合理设置冷、热通道、引导冷风均匀地送到每个IT设备的进风处,并将热风有效送到回风处,保证将机架内的温度控制到适宜服务器工作的温度。APC公司的技术工程师金东介绍说,传统热量控制方法是降低整个机房温度从而期望达到"冷却"服务器的作用,但事实证明这种方法只能是对整个房间的温度有一个控制,并不能保证机架中服务器的温度。在采用APC的解决方案后,机架的散热能力从过去2千瓦提升到8千瓦。
此外,APC还提出了"热通道"(Hot Aisle)和"冷通道"(Cold Aisle)的概念,改变了以往数据中心机柜面朝同一方向摆放的做法,采用"面对面、背靠背"的机柜摆放方式,这样就符合了服务器等IT设备从正面进风、从后面排风的设计,从而有效地将冷、热空气分区,大大地提高了制冷效率。
同样,Liebert公司的精确冷却系统也值得注意。美国 Blacksburg市维吉尼亚综合州立大学最近部署了大约1100台基于Apple G5的系统组成的超级计算集群,系统花费了大约200万美元,但却使数据中心能够做到在3000平方英尺而不是原来10000平方英尺的空间布置系统,并保证有效冷却系统和未来几年内的需求。这种冷却系统的特点之一是能够从服务器机架吸出热空气,然后再与空调设备进行热量调节。
金东到过不少数据中心,还发现一些影响散热效果的不良细节,比如:高架地板有效高度不足30厘米;过度使用打孔地板,使宝贵的风力分散;线缆没有有效归置,阻碍气流的流动等。他的建议是:在规划新部署前,对冷却能力和电源可用性进行现实的分析;确保机架背部相对,使冷热气流分开;确保机架后面或下面的线缆孔不阻塞气流;不要过度使用打孔地板,把它们集中用在冷却通道中;采取一些精确降温技术等。
记者写到这儿,由衷感叹:细节决定成败,点滴都是学问。而且,用户在机房规划之初,就要充分考虑和规划配电、布线、散热等细节。一旦在初期没有足够重视,总有一天它可能就会影响到整体可用性,并成为棘手难题。
事件回放:
新浪任你邮6月23日发出预警:"由于近日北京地区持续高温,网通机房的温度目前已经到达41度,我们正在配合机房进行降温行动。如果机房温度持续升高,为了保证数据的安全,我们将在温度到达43 度的时候暂时停止用户的服务。"
新浪任你邮7月5日公告:由于网通机房温度过高,为保护用户的数据安全,今晨6:40至7:10我们被迫将部分任你邮服务器暂停30分钟,进行降温维护,造成部分用户不能登陆和收发邮件,此问题已于今晨7:10解决,全面恢复服务。目前我们正在与网通方面协商采取更多的降温办法,保证服务器安全稳定的运行。
北京通信公司市场部回复:7月5日,新浪"任你邮"服务的确中断半小时。但并非机房温度达到了41或者43摄氏度,而是高密度磁盘阵列组的出风口达到了这一数值。主要原因是新浪在机架上码放了过多的磁盘。