数据存储产业服务平台

AIGC年代,生成式AI存储的商机

由ChatGPT引领的AIGC(Artificial Intelligence Generated Content,生成式AI),火遍全球。AIGC带火了大模型,但对其背后存储方案,有关披露甚少。7月6日,在“数智未来”AIGC数据应用创新论坛上,浪潮信息发布了面向生成式AI存储解决方案,让我们得窥AIGC存储的面貌。

浪潮信息生成式AI存储解决方案并非空穴来风,该方案已经被中文语言大模型“源1.0”选用,而它是一个2457亿级参数的大模型应用,规模上甚至超过OpenAI的GPT3.0模型。浪潮信息生成式AI存储解决方案借助浪潮AS13000的多存储协议互通、数据融合、全闪存和高吞吐并行的极致性能,帮助“源1.0”大模型在16天内完成训练,凸显了超高效率表现。

谈到生成式AI存储的特点,浪潮信息分布式存储产品线总经理姜乐果表示:可以用异构数据融合、低延迟与高带宽、EB级大容量加以概括。从目前的情况看,生成式AI大模型预训练主要以算力消耗为主,但是未来,将AIGC应用到各行各业,势必需要其结合多源异构的行业数据,涉及海量数据处理和存储。

以Token、Checkpoint为例,其中,Token 是生成式AI大模型文本处理的最小单位,在英文中,一个 Token 可以是一个单词,也可以是一个标点符号;在中文中,通常以字或词作为 Token。在ChatGPT预训练中,首先将输入文本拆分成一个个 Token,在这个基础上,算法模型对其进行处理、理解。每个Token一般4字节,对于存储而言,这意味着高并发、小IO性能、极低延迟的性能需求。

相比Token,Checkpoint是用于描述在每次训练后所保存的模型参数,这就像在游戏中保存关卡时的存档,通过加载该保存文件,可以随时恢复游戏场景。通过加载Checkpoint保存模型参数,AI大模型可以延续训练和推理。对于存储而言,Checkpoint数据加载就属于典型的高带宽性能需求。

所以对于生成式AI而言,对存储多协议、大容量、高并发、高带宽的需求并存。对此,浪潮信息生成式AI存储解决方案基于AS13000融合存储系统,针对不同阶段的数据存储需求,提供热温冷冰四级存储,实现数据在各级存储间自动流转。

为了应对不同模态多样性需求,浪潮信息提出“协议互通、数据融合”设计理念,一个集群内支持多个存储池,一个存储池内支持文本、图片、音频、视频等多种类型数据存储,一份数据又可以被前端不同业务场景同时以文件、对象、大数据、视频四种存储协议进行并行访问,从而免除了数据跨应用时的复制,实现真正意义上非结构化数据的协议互访互通和数据融合。

通过数控分离架构减少东西向数据量的转发,浪潮信息生成式AI存储解决方案通过GDS、RMDA技术缩短I/O路径,通过SPDK、缓存零拷贝技术减少I/O路径上的数据拷贝,以及基于自研NVMe SSD开发的盘控协同技术,减少I/O访问SSD盘的次数,使存储性能得到进一步释放。

在硬件方面,浪潮信息生成式AI存储解决方案通过优化IO路径通道,均衡IO路径,最大化发挥硬件性能,全闪单节点带宽超过50GB/s,IOPS超过50万;此外,创新性地引入双控全闪节点,带宽超100GB/s,IOPS超100万,真正使系统具备千万级IOPS、EB级带宽,充分满足AIGC场景对存储系统的苛刻要求。

浪潮信息近期最新发布了G7硬件平台,存储专用的液冷服务器涵盖性能型和容量型,且均采用模块化冷板组件设计模式。在系统方案层面,浪潮信息具有风液式、全液式等完善的端到端解决方案,能够为用户全方位打造液冷数据中心交钥匙工程,并且完成了业界首次液冷整机柜批量交付,实现PUE<1.1。

浪潮生成式AI存储方案基于闪存、磁盘、磁带、光盘四种介质提供热温冷冰四种存储资源,通过资源互通实现数据全生命周期管理。

据Gartner预测,到2023年将有20%的内容被AIGC所创建;到2025 年人工智能生成数据占比将达到10%。据分析师预测,到2032年,生成式人工智能市场规模将达到2000亿美元,占据人工智能支出总额的约20%,显著高出当前的5%。换言之,未来十年市场规模可能每两年就会翻一番,而这样的一个发展速度,堪比半导体领域著名的“摩尔定律”。

如此看来,生成式AI的时代,更是生成式AI存储的商机。

未经允许不得转载:存储在线-存储专业媒体 » AIGC年代,生成式AI存储的商机