浪潮信息如何拿下AI存储基准测试制高点-存储在线-存储专业媒体

对于存储供应商而言，MLCommons协会2023年发布的MLPerf Storage v1.0 AI存储基准性能测试，无疑是一个市场推广的制高点。该测试是由图灵奖得主David Patterson联手顶尖学术机构推动的标准，通过建模机器学习等AI工作负载，对存储系统I/O模式和性能进行评测，为ML/AI模型存储选型提供权威参考依据。

如能在测试中斩获佳绩，一定会帮助厂商拓展市场，创造有利条件。

在最新披露的MLPerf Storage v1.0测试中，浪潮信息AS13000G7分布式存储平台表现出众，在3D-UNet和CosmoFlow两个模型共计8项测试中，斩获5项最佳成绩。

浪潮信息AS13000G7做对了什么？有哪些心得体会分享？

10月18日，浪潮信息存储产品线副总经理刘希猛、浪潮信息分布式存储研发部总经理张在贵、浪潮信息分布式存储产品线副总经理安祥文、浪潮信息分布式存储方案架构师Lance SUN接受媒体采访，分享了MLPerf Storage v1.0测试的经验。

据了解，本次MLPerf存储基准评测（v1.0）吸引了全球13家存储厂商和研究机构参与，围绕医学影像分割、图像分类、宇宙学参数预测垂直领域内的 3D-Unet 、 ResNet50、 CosmoFlow三个典型算法，重点考察与之匹配的存储系统的总带宽/每节点带宽，以及存算配比指标的能力。

这些指标对于AI至关重要，原因很简单，如今承担算力的GPU资源非常昂贵，万卡集群所能提供的算力惊人，资金投入同样惊人，在这种情况下，高效利用GPU资源意义重大。众所周知的“木桶效应”表明，木桶盛水的多寡是由短板而非长版决定的，AI系统也是一样，不论决定模型训练数据加载，还是模型训练过程中断点续训，其加载速度不能拖GPU的后腿，加载时间越短越好，不要让GPU资源出现闲置、等待的状态。

有鉴于此， MLPerf存储基准评测（v1.0）对GPU利用率设置了门槛，其中，3D-UNet的要求是90%以上，Resnet50、CosmoFlow的要求是70%以上，换句话说，留给存储数据加载的时间，最苛刻的只有10%，在满足这个前提下，对于存储系统的吞吐能力，以及所能够支持GPU数量进行考察，也就是上面图标中所说的加速器数量，这里的数据越大越好。

顺带提一句，在这次参加测试产品中，Resnet50始终达不到70%利用率的指标，后来MLCommons协会对MLPerf Storage v1.0软件进行了调整。因此，此次测试，3D-UNet、CosmoFlow更能够说明问题。

要想在MLPerf存储基准评测(v1.0)中取得佳绩，采取NVMe SSD全闪集群架构设计是一定，SATA SSD以及混闪架构设计达不到性能的需要。此外，网络带宽也是必须满足的条件，有专业人士指出，“网络400G连接完全是被GenAI催生出来的需求，其技术本身没有那么成熟，类似性能抖动是必须要解决的工程上的难题。”

刘希猛透露，浪潮信息在这次测试中，采用了InfiniBand网络方案，但浪潮信息也准备了以太网络方案，能够帮助用户更好控制成本。

然而，仅有硬件还是远远不够的，软件的作用更为关键。

对于参测的存储系统而言，必须要一致性分布式管理系统进行组织协调，以浪潮信息的方案为例，其控制层面采用有针对的管理和调度，对节点间流转的数据流进行管控，减少东西向（节点间）数据转发量，因为频繁的节点间数据转发，必然拖累存储系统的整体效能；再有就是频繁的IO中断以及上下文切换，也是需要极力避免的问题。为此，浪潮信息分布式存储平台AS13000G7采用了多路并发透传技术，将多个 I/O 请求进行整合和批处理，使得系统可以一次性处理多个请求，而不是逐个处理，从而减少了上下文切换的次数；该系统允许多个 IO通道同时传输数据，充分利用存储系统的硬件资源和网络带宽。

此外，在数据传输过程中，还要注意减少格式转换、数据校验等中间处理环节，采用数据直通传输的方式。还要注意增强文件系统与计算节点亲和性，确保负载均衡。从浪潮信息存储的实践看，好的设计能够将数据移动与多核CPU之间的访问效率提升400%。

这些先进技术的是AS13000G7斩获佳绩的重要保证。

从表现看，在3D-UNet测试场景中，AS13000G7三节点存储实现了1430个高并发读线程，每个线程单次I/O时延均在0.005秒以内，AI端到端训练I/O占比低于10%，计算节点带宽利用率达到了72%，实现了单存储节点120 GB/s的超高性能。在单客户端2和多客户端2 CosmoFlow宇宙学分析应用的评测任务中，AS13000G7也分别提供了18 GB/s和52 GB/s的带宽最佳成绩。

这是一份令人相当满意的答卷，也帮助浪潮信息在评测中独占鳌头。

刘希猛指出，人工智能赋能千行百业，背后离不开数据这个关键生产要素，数据连接了物理世界和数字世界，而数据存储作为数据的载体，是人工智能落地的关键支撑之一。

如今，舆论的焦点都集中在大模型AI创造的神奇，但是对于创造奇迹的过程缺乏必要的了解。在存储配套方面也存在类似问题，舆论更多关注模型训练的数据加载、过程中的断点续训，青睐TB级、万卡算力等指标，但是忽视了数据归集、清洗的重要性，大模型AI要行业落地，势必牵涉到要将分散在终端、地域，跨协议、跨地域数据进行处理，涉及到大数据组件Spark、以及Clip等工具的使用，这也需要适合的存储系统提供支撑。这也是存储系统选型重要的考察内容。

对此，浪潮信息AS13000G7同样表现出色，凭借非结构化协议融合、富元数据管理等技术支撑，AS13000G7能够实现文件、对象、大数据、视频协议互通，语义无损、性能一致，仅保存一份存储池数据，就可以支撑多种协议访问，避免了数据拷贝，实现最高50%数据存储空间的节省。此外，其系统可靠性以及韧性同样出色。试想，如果存储系统韧性不足，导致训练中断，则任何努力都将付之东流。对此，要求存储系统提供主动管理技术能力，对硬件、网络、系统等进行检测，在系统亚健康就采取措施，进行免数据迁移的快速微重构，而这些都离不开AI技术的加持。

刘希猛指出，无论采用什么样的进阶路线和方法，生成式AI对行业的影响将是史无前例的，其中数据成为智能革命的核心动力。围绕着数据归集、训练和推理，应该构建起强大的算力、存力基础设施，会发挥事半功倍的效果，磨刀不误砍柴工。对于浪潮信息而言，参加MLPerf Storage v1.0 AI存储基准测试也不过是小试牛刀，在展示技术水平和能力的同时，也加深了对于生成式AI技术的适配和了解，将继续全力推动AI产业化和产业AI化进程。

浪潮信息如何拿下AI存储基准测试制高点

songjy

相关推荐

近期文章