比“一刹那”快近90倍！曙光存储登顶全球性能巅峰-存储在线-存储专业媒体

前段时间，国际存储性能委员会（SPC）公布SPC-1 基准测试最新成绩，曙光存储集中式全闪FlashNexus凭借32控、超3000万IOPS的性能、0.202ms超低时延刷新纪录，登顶全球榜首。

今天来简单解读榜首的含金量。

首先，SPC-1算是一个存储系统“考试”，主要考察存储设备在大量随机数据请求下的性能，比如能处理多少数据（吞吐量），每秒能完成多少次读写（IOPS）。这些对企业级数据库、邮件系统、在线交易等业务而言十分重要。

测试分三个阶段，第一阶段8小时的高强度耐力测试，FlashNexus要一直保持3000万读写（IOPS）的高性能，不能掉速。

第二阶段是坡度压力测试，先从100%负载开始，逐步降低到10%负载，再逐渐升回100%负载。每个阶段大概跑15分钟。检测系统在不同压力下的稳定性，看当业务量突然减少或增加时，它还能不能稳定运行，也就是看时延的稳定性。

曙光存储的集中式全闪FlashNexus是超低的0.202ms。毫秒概念我们普通人理解就是很快，快到什么程度估计也没人想过。我给大家想过了，日常生活中我们应该听到过这样几个表示速度的名词——刹那，瞬间，弹指。佛门用来划分时间，其中二十刹那为一瞬，二十瞬为一弹指，一刹那是最短的时间，约为18毫秒，也就是说这个0.202毫秒延迟比“一刹那”还要快近90倍。

第三阶段是可重复测试，就是让存储系统瞬间从休息状态（10%负载），直接冲到极限（100%负载），再回到休息状态，多次反复。这个考验系统在突发流量下的反应速度，比如确保我们在双11买买买的时候不会宕机。

除此之外，还有一个极端情况下的可靠性测试，突然插拔电源之后重新开机看数据有没有损坏。现实中，比如银行交易系统如果突然停电，数据必须保证不丢失。

SPC-1测试第一，也就是说用于曙光存储系统适用于银行、航空、互联网、医疗等关键业务场景。比如时延，银行的实时交易数据库（RTDB）需要存储系统能快速处理交易数据，否则转账可能会变慢甚至失败。还有联机事务处理（OLTP）业务，比如电商、计费系统，每天都有大量订单数据，存储系统必须支持高并发访问。

技术方面是怎么实现的？

简单分享两个我关注的FlashNexus采用的技术——NUMA（Non-Uniform Memory Access，非一致性内存访问）技术，是一种多处理器系统的内存组织方式。

基于NUMA技术，单服务器的CPU核数、内存容量、设备规模都有了大幅提升；但CPU核/硬件跨NUMA访问内存，带宽低时延高，导致硬件性能不能随规模而线性增长，甚至多NUMA总性能不及单NUMA性能。

NUMA亲和，是实现硬件性能随规模线性增长的基本方法，追求在本NUMA访问内存，避免跨NUMA访问内存。若CPU核、设备、内存之间仅限于NUMA内访问，不同NUMA间分而自治，则硬件性能可线性增长。

FlashNexus中，物理上，将CPU核、内存、设备按NUMA划分微控制器；逻辑上，将数据空间划分逻辑子空间，并将逻辑子空间映射到微控制器。私有多路径实现始发选路，直达数据归属微控制器，实现系统性能随规模线性增长。

它的优势是处理器访问本地内存的速度更快，扩展性更好，业务拓展之后直接加处理器和内存就好了，还有就是资源分配上不会有偏向性，这样整体性能也得到了提高。

应用场景上，比如天气预报，需要处理海量数据，NUMA能让数据处理更快。还可以提高数据库查询速度，让数据读取更高效。让每个虚拟机都能高效运行，资源利用更合理，以此降低总功耗。当然这么多处理器和内存能管好也是技术活儿。

XIO是一种优化数据传输技术，能给数据开设“快速通道”，把数据分成很多小块，每块都在自己的“通道”里快速传输，避免数据在忙乱的时候形成“交通”拥堵。

还有就是用NVMe和RDMA协议简化流程，减少数据传输的“手续”。采用“QP+轮询”的机制，定时检查各个队列的状态看有没有问题及时解决，减少开销，这样也能提高系统的IOPS性能。

简单理解就是在冯诺依曼体系中，计算和存储是分开的，想要输出结果，就要三步走——存储，计算，还有两者之间的通信，也就是数据搬运。而计算本身使用的功耗实际并不高，基本都花在了读取上，让存储离得更近，让协议更薄就是提速基本法，足以看出曙光存储在很多细节上都花了心思。

AI时代下对存储需求的判断

从前，业务工作负载主要分两种：一种是稳态业务，就像跑马拉松，数据量不大，变化慢，但需要快速响应；另一种是敏态业务，比如互联网业务，就像短跑，数据量变化大，增长快，但对单次响应的要求没那么高。

过去稳态业务用集中式存储，稳定、低延迟；敏态业务用分布式存储或云存储，扩展性强。

现在AI时代来了，AI业务的训练阶段像敏态业务，数据量大，需要高吞吐和高IOPS结合；推理阶段则相反，数据量小，对响应速度（IOPS）要求极高。这就要求一套存储系统同时满足稳态和敏态的需求。

并且AI时代算力需求的暴增也得存储设施做好配套工作，才能让AI的投资回报更高。因此对性能的要求从“够用就行”变成了“越快越好”。也是基于这样的判断，曙光存储推出FlashNexus从极致性能和智能感知（AI性能调度和异常检测的引擎）上适配AI时代。

当然，曙光存储提供的32控，能管理400块硬盘还不是最高配，其扩展还可以是64和128个控制器，在这种扩展能力下，每个控制器平均管理的硬盘不到100块，当扩展到百控级别时，系统可实现亿级IOPS的单集群性能输出，能够满足人工智能、大数据分析和高性能计算等场景对海量数据处理和高并发I/O操作的需求。

比“一刹那”快近90倍！曙光存储登顶全球性能巅峰

崔欢欢

相关推荐

近期文章