数据存储产业服务平台

OCP服务器存储模块振动研究与实践

作者: 浪潮信息技术研发部 王羽茜

硬盘厂商和服务器厂商,常常被一个问题困扰:风扇的噪音会影响硬盘读写性能和可靠性。OCP作为一个影响广泛的开放计算社区,为此召集了全球的相关专家进行了深入、持久的讨论。本篇文章和视频介绍一下近一年多来OCP在这个领域的一些进展,以及浪潮的研究与实践。

OCP China Day 2021 – 分论坛3 – 浪潮信息技术研发部 王羽茜 – OCP服务器存储模块振动研究与实践

一、风扇的振动和噪声使硬盘读写性能下降

CPU和硬盘是计算机中最核心的两个部件,都在不断发展,追求极致。先看两组数据:

 20172021
CPU205W350W
硬盘10TB20TB

2017年,单颗CPU的功耗是205瓦;2021年,达到了350瓦;

2021年,硬盘最大容量是10TB,2021年,达到了20TB。

除了CPU性能变强,系统里其他部件性能也都提高了,功耗随之提高,从下图可以看出,当功耗密度达到5KW/平方厘米时,比火箭的尾焰还热,如下图。因此,提高散热效率成为必需。

为了解决散热问题,风扇的转速和风量也需大幅提升。风扇作为一个经典的旋转机械,它的振动加速度值与转速呈2次方的比例关系,而它的扇叶旋转带来的气动噪声与转速呈6次方的比例关系。

这就引发一个新问题:硬盘将受到风扇振动、噪声的干扰,这干扰达到一定量级之后,硬盘就不能正常读取和写入了。而且,硬盘的单盘容量五年之间就翻倍了,方法之一就是让磁单元变小、让磁道宽度变小,因此对磁头的定位精度要求更高。拿16TB的硬盘来说,磁道的宽度大约是50nm,而磁头的位置偏差需要控制在10nm以内。也就是说,需要把硬盘工作环境内的振动控制到极低的程度,才能保证硬盘的正常读写

我们在近几年的服务器设计中,不管是浪潮最新一代的服务器产品中,还是Facebook 的OCP存储架构中,都看到了在风扇附近出现了吸音泡棉和蜂窝波导网,能缓解风扇的高频噪音对硬盘的影响。在企业中都会有专门的测试项目来验证这个问题,不同的公司测试方法的称呼不同,如RV(Rotational Vibration),RVI(Rotational Vibration Interference),PLV(Performance Loss Verification),ISP(In System Performance)等。

有一个比喻特别形象,就是地震的时候人在黑板上写字,肯定写得歪歪扭扭,别人再去读的时候,也一定读不准确,这块黑板就面目全非、错误连篇了。这个过程发生在硬盘的磁盘上,就会产生坏扇区,坏扇区积累得多了,硬盘会报错,甚至会被系统标记为坏盘。

为了控制磁头的振动,硬盘内部有一套主动控制的机制,来识别并修正位置偏差(PES),简单来说就是尽量让磁头写入磁道中心,如果偏离得远了,作动器就会施加动态的反向作用力把磁头纠正回来。纠正不回来的,就不允许写入,而是要等碟片再转1圈或者N圈,直到磁头能够准确定位到目标位置再执行写入的动作,这个过程我们叫它Retry(重试),Retry的圈数越多,硬盘的写入性能就损失得越多。这就是硬盘受振动干扰而性能下降的原理。

如果大家使用机械硬盘的笔记本,可能遇到过这种场景,用它播放一首歌曲如《青藏高原》,本来硬盘正在有条不紊地向声卡输送数据,音乐播放很流畅,突然歌声变得高亢起来,喇叭释放出巨大的能量,硬盘内部发生共振,不能正常输出数据了,音乐就会开始卡顿,再过一会儿,笔记本就蓝屏了。

现在我们笔记本里用机械硬盘比较少了,但是类似事故可能会发生在数据中心。比如火警报警器、灭火器喷气的声音,还有和硬盘同气连枝的风扇的噪声,都会影响到硬盘。

第一次听说风扇的噪声能影响到硬盘内部工作的人,往往会觉得不可思议。其实这也并不神奇,因为声音就是空气的振动,我们能听到声音也是因为空气的振动传递到耳道内引起骨膜等一系列骨骼的振动。风扇的噪声也一样能引起它附近的硬盘内部零部件的振动。经过调查,硬盘的磁头尺寸竟然和耳蜗的尺寸差不多(1mm左右)。磁头等尺度精密的零部件因为高频噪声激励而发生共振,也属正常。而且风扇的转速越高,它的高频成分就越多,能量越大,因此高转速风扇会对硬盘造成明显的的影响。

二、如何改善硬盘与机箱振动的兼容性?

作为服务器系统的研发,首先我们应该了解到机械硬盘的这种物理上的局限性,其次应想方设法地提高硬盘和我们机箱和风扇的兼容性。

OCP这个平台是全球第一次把这么多公司的振动、噪声专业领域的研发人员聚集在一起,有Facebook, Microsoft, Dell,浪潮,希捷,西部数据,还有类似BOYD的散热风扇、散热器供应商,大家的关系是友商、是供应商与客户、或是产业链的上下游的合作伙伴。

在OCP发起Storage Vibration(也即存储设备振动)项目之前,各个公司在相对隔离的条件下,研发着各自的产品和技术。由于每个公司对存储、服务器发展的目标有差异,花了两年时间迭代出来的产品,如硬盘、主板、风扇、机箱等,组装起来时出现兼容性的问题。麻烦的是,这个兼容性问题不是简单的结构装配或者通讯协议匹配这些可以提前形成规范的东西,而是必须要硬盘、风扇、机箱都有了样品,组装在一起才能试验出问题来;然而,一旦出现了问题就很难补救,除非重新设计。

因此各个公司不约而同的开始思考,如何把振动、噪声、硬盘的性能这些看不着、说不清的抽象概念也形成规范设计?从2020年4月起,OCP Storage – Vibration项目组聚集了行业内的一线研发人员,共同商讨对策,统一测量标准,开放设计经验,以期在硬盘容量、散热风扇并肩发展的趋势中找到新的平衡点。

三、统一的测量系统

OCP Storage – Vibration的目标是:Common Language and Tool。翻译过来就是形成一套在各个公司之间都适用的沟通流程和技术术语,以及定义一个统一的测量系统。

在此之前,各个公司都以不同的方式测量机箱里的振动和噪声,然后再去分析和解决问题。为了能让麦克风安装在硬盘槽位内,一般都是设计一个HDD Acoustic Surrogate(采集噪声的硬盘假体),它的外形与硬盘相同,可以代替硬盘插入机箱内部,由嵌入其中的高精度麦克风采集噪声信号,配合前端数采组成一套测量系统。但是这里面涉及很多细节,每个细节的差异都会导致相同一个机箱的测量结果不同。大家知道,测量系统不统一,数据是没办法进行比较的,更别提在不同的公司制定统一的标准。所以OCP Storage小组里的各个公司把自己正在使用的方法和工具分享出来,然后共同测量一个机箱的噪声信号,进行信号的相关性分析,并进行优劣势的比较和细节整合,最后定义了一个Acoustic Surrogate的设计。

在OCP Storage – Vibration项目中,测量系统按照如下7个方面分别进行讨论:

1、麦克风的选型和安装位置

根据工艺,市面上麦克风可以分为MEMS、ECM和ICP。MEMS和ECM麦克风因其小巧的身材和低廉的成本,常用在手机、助听器、耳机等消费级产品中,但其动态范围一般较窄,频响曲线漂移较大,不能覆盖服务器机箱内的测量需求,而且经实验验证,其测量误差在某些频段高达60dB以上。因此高精度的ICP麦克风成为Acoustic Surrogate中的首推之选。另外,机箱内的空间紧凑,对麦克风的尺寸限制非常严苛,最终选取了Grass 47BX,一颗1/4英寸的平头安装式(flush mount)麦克风。

2、麦克风的数量和方位

在各自设计的Acoustic Surrogate中,有的公司把麦克风放在硬盘SAS/SATA接口的位置(靠近背板);有的把多颗麦克风以阵列的形式布置在硬盘的上表面;有的公司把麦克风安装在硬盘的上表面和下表面。根据不同方位采集到的噪声信号与PES的相关性分析(correlation analysis),最终发现:将麦克风放置在上、下表面对应碟片转轴的位置,采集到的噪声信号与PES的频域相关性最好,也据此定义了麦克风的数量和方位。

备注:Position Error Signal,磁头置位误差,与硬盘性能损失直接相关。

3、Acoustic Surrogate的材料

不同材料的声阻抗不同,对声音信号的测量结果是有影响的。一般来说,声阻抗应不低于10,只要不是过软的或者吸音的材料就可以使用。OCP推荐的材料是铝合金。

4、数据采集硬件

数据采集硬件的选择很多,只要能满足2个通道的ICP信号采集,并且支持24位精度,以及40kHz采样率,就可配合前文提到的麦克风进行服务器内的噪声采集。

5、数据采集参数

为了得到足够的数据可以做有效的分析,在风扇转速平稳后应采集不少于10s的噪声信号,采样率不能低于40kHz。

6、测量信号的统计和分析方法

有的公司习惯于分布很多麦克风然后求其平均值,有的公司则不做平均;有的公司对振动和噪声信号做倍频程分析或者1/3倍频程分析,有的公司则习惯于用窄带FFT来分析。OCP-Storage小组内讨论的结果是,同一个Acoustic Surrogate的2颗麦克风的信号应不计平均,单独进行无计权1/3倍频程分析,并绘制风险识别彩图,作为公司之间技术交流的依据。以下为一个噪声数据的范例。

风险识别彩图的划分方式尚无统一定义,由各个公司分别定义,以上只是OCP给出的一个范例。在划分风险区域时,应使得大多数机箱都落在黄色(中风险)区域。

目前介绍Acoustic Surrogate的规格书已经发布到OCP官网上,可以直接点击链接https://www.opencompute.org/documents/spec-pdf下载,或者在OCP官网进入contribution页面搜索【HDD dynamics】。OCP官网上也同步公开了3D图,供各个公司自由获取并制作、使用。OCP-Storage小组内的公司也基本上都已经按照这个规格加工出一些Acoustic Surrogate,在研发早期阶段就可以开始采集机箱硬盘槽内的噪声,然后与硬盘厂、风扇厂联合进行服务器、存储机箱内的声学设计。下一步OCP Storage项目组将对硬盘安装环境的振动测量工具、方法进行讨论和定义。最终可能会发布一个全新的工具,集噪声、振动采集的功能于一体。

四、浪潮的实践

浪潮始终活跃在OCP等开放计算的社区中,贡献我们的设计经验和数据,也坚持第一时间把OCP最先进的方法带到公司内应用和实践。目前浪潮已经开始使用OCP Acoustic Surrogate,是中国第一家掌握这项技术并按照OCP规范加工自己的Acoustic Surrogate的公司。我们不仅拥有OCP定义的3.5”HDD Acoustic Surrogate,而且自主设计了2.5”HDD Acoustic Surrogate,在HDD Vibration Surrogate(采集振动的硬盘假体)的应用中也积累了一些经验,可以进行各种服务器、存储机箱的噪声和振动信号分析,结合硬盘的敏感度曲线可以在研发早期进行有效的风险评估,并辅助机箱和风扇的声学优化和结构动力学设计。

下面是一个短视频,介绍浪潮在OCP Acoustic Surrogate的实践。

OCP China Day 2021 – 分论坛3 – OCP服务器存储模块振动(Vibration)项目-实验

感谢我的同事叶毓睿、王嵩凯对本篇文章、视频的贡献。

扩展阅读:

1、OCP Storage项目组 Vibration规范

https://www.opencompute.org/documents/spec-pdf

2、OCP China Day 2021 – 分论坛3 – OCP存储设备振动项目【视频】

https://mudu.tv/live/watch/general?id=lj8bke2m&key=9ef192aaae74fbc41b5b6bdcd807f436&type=assign

未经允许不得转载:存储在线-存储专业媒体 » OCP服务器存储模块振动研究与实践