7月27日,由浪潮和OCP基金会联合举办的 OCP China Day 2021在北京举行。
OCP是全球影响力最大的开放计算社区,旨在解决未来数据中心技术的标准化、产业化问题,OCP China Day则是OCP中国社区最具影响力的开放计算峰会。作为OCP组织的资深成员单位,希捷一直在其中贡献力量,也参与了大量的活动,包括领导NVMe HDD项目标准的落地,以及加强对抗振性与减噪方面的研究。
“如果NVMe硬盘标准在OCP里得以建立,那受益的群体不仅仅是互联网企业客户,还有传统企业客户,乃至存储系统供应商。”在当天召开的主论坛上,希捷中国区产品经理刘嘉如是说。
超大规模数据架构的演进方向
在大规模数据架构的演进方向方面,刘嘉针对优化QoS以及性能、存储与计算分离,以及Composable Open Data Center架构进行了探讨以及希捷在这些方面的实践。
针对计算和存储分离这个话题,刘嘉在主题演讲表示,计算存储分离,即把CPU、GPU从存储完全独立出来,这是当下全球CSP应用的一个方向,目的是为了应对硬盘容量越来越大的情况下提升存储密度的问题。
当数据量发展到一定程度,越来越多的用户在做数据湖、数据仓的时候就会考虑把存储单独出来,一方面降低TCO,另一方面,对存储的优化也更有针对性,包括散热、振动。刘嘉认为,超大规模数据架构上将会向着存算分离,以及Composable Data Center这个架构方向去发展。
Composable Open Data Center架构诞生的背景是容器技术不断地普及,对计算和存储资源产生更加细粒化的解耦合要求,与现有硬件基础架构之间产生的矛盾。其技术优势在于可以对所有的计算和存储资源做解耦合,用统一的管理接口与容器的接口去做调度,提升灵活性,其背后有两个连接的技术提供支撑,之一就是为人熟知的NVMe Over Fabric——它能够以100微秒的延迟去连接存储设备。
目前市场上还只是对存储和计算做一些简单的分离,尚无法对CPU、内存、FPGA、GPU做完全的解耦合和颗粒化。未来当PCIe Gen5得到普及后,最新的CXL和Gen-Z技术将通过把连接的延迟从微秒级降到纳秒级,对诸如CPU与内存这样的计算资源做解耦合,朝高性能和高存储方向再迈进。
2020年底,希捷已经交付20TB热辅助磁记录技术(HAMR)硬盘产品给到业内领先的OEM与云计算用户,进行测试与试用。
双碳话题:践行社会责任
碳达峰、碳中和是今年的政府工作报告中提出的年度重要任务之一,也是“十四五”规划和2030/2060应对排放的重要目标。作为一个全球领先的科技企业,希捷正在承担起这样的社会责任。
数据中心的TCO分成采购成本与运维成本两部分,在运维成本中又有一部分跟服务器的功耗,包括数据中心的PUE密切相关。
早在四、五年前,希捷就跟重要的合作伙伴一起探讨和落实进一步降低排放的举措。例如,将之前得到了广泛使用的空气硬盘以功耗比更优秀的氦气硬盘来替代,如一块16TB的氦气硬盘,就会比之前的两块8TB能耗更低,这其实就达成降碳目标的做法。而研发采用双磁臂技术和热辅助磁记录技术的硬盘,当容量可以做到50TB,也就是能够替代三块16TB容量的硬盘,这就意味着在降碳的同时实现性能和容量的兼得。
此外,液冷的技术也得到了越来越多企业的关注,越来越多的厂商正在把这个技术以一种更低的成本落地。
谈到机械硬盘,有两个话题无法回避。
一是与固态盘的市场竞争问题。从存储系统市场的角度,业界的发展方向是从全硬盘的阵列逐渐过渡到混合阵列,并且有向全闪阵列发展过渡的趋势。很多人认为闪存盘因为读写速度等方面的优势会逐渐取代传统磁盘,但实际上二者近年来始终都在高速成长,希捷也同时提供了这两方面的产品。
针对实时分析的场景需求,固态硬盘的确更合适一些。但并不是所有采用固态硬盘的做法就是最优的方案。刘嘉认为,在大部分场合,企业尽量都把数据存下来展开大数据的离线分析等工作,尤其是业务对性能和及时度、有效度要求并不那么高的情况下,机械硬盘其实具备更好的TCO。
那么,机械硬盘与闪存盘优势结合,会不会取得1+1>2的效果呢?答案是否定的。
在超大规模的数据架构方面,90%的数据量仍然还会依托到硬盘上,原因不外乎是硬盘整体的TCO优势与数据耐写度、数据存储寿命的优势。所以很多客户除了在尝试新的闪存技术以外,也在尝试新的硬盘技术,比如上面提到的双磁臂技术就可能大幅度提升硬盘的性能。采用硬盘展开冷存类的业务也是另外一种尝试。
在刘嘉看来,存储市场始终是一个动态发展的过程,短期内市场还将维持以传统机械硬盘应用为主的局面。
系统智能性的优化实践
系统智能性的最佳实践,是希捷在OCP具有引领地位的另一个项目。
希捷正在与浪潮等服务器厂商一起探索在硬盘磁道密度不断增加的同时,化解类似于风扇、机箱等高频噪声和机械振动给硬盘在性能方面带来的影响。据介绍,希捷的对策,除了在初期跟服务器厂商联合对机箱进行设计,还把Surrogate Acoustic Drive等技术置于服务器中,通过驱动麦克风捕捉到噪声的振动,实现对服务器的设计的优化。
优化后的数据显示,硬盘的性能能达到了100%。
对微软数据中心的JBOD部署模式和Facebook数据中心服务器机箱的设计,是OCP落地的两个非常成功案例。包括微软,美国所有大型CSP都通过JBOD/JBOF方式部署磁盘,通过计算和存储分离,确保最大的资源利用率与提供最佳的TCO;而在Facebook,通过对机架和机箱进行优化,实现了最佳的散热管理,降低了噪声和振动的影响,并提升了硬盘性能和存储容量。
此外希捷还提供相关的硬件和测试套件,以提升自己在相关领域的领导能力。