“民航飞机是可靠性最高的交通工具,而有着“空中女皇”美誉的波音747,更是民航飞机中的可靠性标杆。波音747在四个发动机坏掉3个的极端情况下,仍然能够安全着陆。”
“这比波音747都更可靠”看完华为OceanStor存储Dorado系列的远程演示,Interop 评审一位专家开玩笑说道,“波音747能做到”四坏三”,你们的存储可竟然可以实现”八坏七”,业务不中断。
受疫情影响,今年的日本ICT展会Interop从线下转到了线上,华为团队为了借这次展会向世界展示其华为OceanStor存储Dorado系列业界第一的实力,积极准备了线上的远程测试。其中,控制器八坏七,业务不中断的演示获得了评审团专家的一致认可。最终获得Interop Best of Show服务器与存储类别金奖。
今天,我们就一起来探索,华为OceanStor存储Dorado系列极致可靠性背后的技术。
存储比民航飞机更可靠背后的秘密,是SmartMatrix全互联均衡架构
架构是高端存储的灵魂所在,市场上主流的高端存储产品,多年来均未实现大的突破。那么我们先来看看为什么我们认为华为OceanStor存储Dorado系列高端存储重新树立了可靠性新标杆。从如下架构图上可以看出,华为的SmartMatrix全互联均衡架构不仅实现了控制器的全互联,而且还实现了前后端的全共享,为存储系统的八个控制器之间相互冗余打下了基础。使得硬件故障的容忍度极高,带来了极高的业务可靠性。从而实现当出现故障时,上层业务“零”感知。
b图一 SmartMatrix 全互联架构
对比与业界主流的高端存储架构,SmartMatrix全互联均衡架构已从多个方面实现了对市场主流架构的突破和超越,使得华为OceanStor存储Dorado系列高端存储系统成为业界唯一实现控制器容忍8坏7,引擎容忍2坏1,控制器故障,主机业务0感知的高端存储,在可靠性方面树立了新的标杆。
下面我们将介绍华为OceanStor存储Dorado系列高端存储系统如何实现业界唯一控制器容忍8坏7,引擎容忍2坏1,控制器故障,业务0感知的高端存储。
可靠性标杆之一:控制器故障,主机业务0感知
要实现控制器故障主机业务0感知,关键在于前端接口卡。对于传统接口卡,前端业务I/O的下发和分发需要经过控制器预处理,存在不同控制器间的转发,并且在控制器故障场景需要主机多路径进行链路切换,倒换通常需要5~30秒。而华为OceanStor存储Dorado系列高端存储支持前端智能共享卡,智能共享卡对主机的I/O进行智能识别处理,并按特定规则分发,使得主机I/O无需控制器预处理就直接发送给最佳处理控制器,实现了主机I/O直通,避免主机I/O在控制器之间转发。当控制器意外故障时,智能共享卡端口芯片会感知到与控制器之间的PCIe链路断开,配合控制器内的业务倒换,智能共享接口卡把主机的请求重新分发到其他控制器,实现了控制器故障秒级切换,主机业务0感知。
可靠性标杆之二,除了可以容忍控制器8坏7,还可以容忍引擎2坏1
传统高端存储系统,硬盘框不能做到被所有控制器访问,相当于硬盘框对于
控制器来说存在归属关系,这样不仅链路上的可靠性不能得到保证,从控制器向硬盘框下发I/O也始终存在限制,始终存在部分硬盘属于某些控制器的“私人财产”,一旦这些控制器出现问题,这些硬盘就无法访问,整体还是存在可靠性方面的风险。而华为OceanStor存储Dorado系列高端全闪存采用后端智能共享接口卡实现硬盘框与8个控制器全互联。
图二 可靠性标杆效果图
硬盘框实现8控全互联后,结合内双活特性,一方面通过缓存3副本技术,即业界首创的3个缓存副本分布在3个不同的控制器,从而保证两个控制器同时故障,或者一个控制框(引擎)故障情况下,至少还有一份有效的写缓存副本,实现2个引擎任意坏1个引擎,业务0中断;另一方面还能通过业界领先的缓存持续镜像技术,即一个控制器失效,镜像控制器重建缓存镜像,从而实现8个控制器陆续坏7控,业务0中断。
小结
华为OceanStor存储Dorado系列采用的SmartMatrix全互联均衡架构打造了可靠性的新标杆, 引领全闪存发展的新方向,把存储系统的可靠性推向一个新高度。