《三国演义》开篇云:“天下大势,分久必合,合久必分。周末七国分争,并入于秦。及秦灭之后,楚、汉分争,又并入于汉。汉朝自高祖斩白蛇而起义,一统天下,后来光武中兴,传至献帝,遂分为三国。”
纵论存储大势,也是合久必分,分久还没有必合。从直联存储到外部数据存储,外部数据存储从集中式到分布式到对象存储的演变,无不体现了“合久必分”的现象,最终必将走到分久必合,但在这个之前,肯定会有一个“可组合分布式融合存储(CDFS)架构”的阶段。
“可组合分布式融合存储(CDFS)架构”是浪潮信息存储在不久前举办的“CCF中国存储大会”上对外首次披露的概念,在这次会议期间,中国电子技术标准化研究院、存储产业技术创新战略联盟等数十家产学研机构还联合发布了《AIGC数据存储研究报告》。
数据空间更加重要
“可组合分布式融合存储(CDFS)架构”是什么?为什么是“可组合分布式融合存储(CDFS)架构”?又如何落地实现?这是本文重点论述的内容。
“可组合分布式融合存储(CDFS)架构”与数据中心未来的发展和演变息息相关。在浪潮信息存储看来,数据中心未来将呈现智算中心、数据存力中心两大发展趋势,并逐渐由智算中心向数据存力中心转变。
不知道大家是否认同这样的判断?
智算中心是百模大战、千模大战的始作俑者,也是受益者,二者相互成就,相互促进,共同遵守“Scaling LAW”,所谓大模型参数法则,类似摩尔定律,大模型参数规模替代晶体管集成度成为推动经济前进的法则。
智算中心推动了GPU为核心的异构算力的蓬勃发展,涌现了NVDIA这样的明星,但也是GPU的光芒太过耀眼,以至于人们忽略了数据存力中心的重要性。就连大模型的领导者OpenAI也公开表示:大模型训练已经暂告一个阶段,未来的焦点将以AI Agent(AI智能体)为代表的行业落地和应用。
AI Agent的核心就在于数据。行业拥有数据,而数据需要存力中心,也称“数据空间”,如果说智算中心在明,则“数据空间”在暗,没有数据,就没有大模型,没有好的“数据空间”,就没有AI Agent。“数据空间”甚至更为重要。
浪潮信息清楚地判断到了这一点。
可组合分布式融合存储应运而生
针对智算中心对存储的需求,浪潮信息存储将其总结为“六位一体”画像,即需要具备数据流动(富元数据管理)、处理(数控分离、智能缓存优化和多核并行优化)、共享(非结构化融合互通)、容纳(4U60、5U105高密设计、QLC)、安全(故障恢复,系统故障预测)、管理(全局文件系统)六种能力。所有针对AI存储的设计,离不开这6个能力。
针对数据存力中心,或称可信数据空间,它对存储的需求可以概括为数据汇集、数据使用,以及及面向行业的数据服务,其中将涉及数据跨域管理、高效流通共享、数据安全存放和调用、采用节能技术来降低PUE等技术上的挑战。
现有的存储产品,无论是集中式存储、分布式存储,还是对象存储都没有办法同时满足智算中心和数据存力中心的需要,这就是为什么浪潮信息发布“可组合分布式融合存储(CDFS)架构”的重要原因。按照部署形态和场景划分,“可组合分布式融合存储(CDFS)架构”可以分为部署形态分 BoR(单机板或机柜侧)、BoD(数据中心底部存储底座)。
简单说就是能够同时满足智算中心和数据空间的需求。
这就是浪潮信息存储的结论,并据此制定了企业未来技术产品和市场推广策略。
AS13000最为接近未来存储
“可组合分布式融合存储(CDFS)”是未来存储的架构,浪潮信息存储认为最为接近这个架构的应该是AS13000分布式存储产品。
2023年5月,浪潮信息发布为大模型专门优化的分布式全闪存储AS13000G7-N系列。该系列依托自研分布式文件系统,搭载新一代数据加速引擎DataTurbo,通过盘控协同、GPU直访存储、全局一致性缓存等技术,为智算中心AI大模型训练的不同阶段,如数据归集、训练、数据归档与管理等提供支撑。今年6月,又推出基于新一代分布式存储平台AS13000G7的AIGC存储解决方案,通过加持EPAI/AIStation的资源调度能力,从容应对大模型应用对存储性能、容量以及数据管理等的苛刻要求。
浪潮信息尝试性提出了GPU计算集群算力与存储集群聚合带宽的推荐配比,实现了检测点数据(CheckPoint)60秒内写入和读取恢复,提高大模型训练效率。
AS13000是否能够很好满足存力中心(数据空间)的需求呢?
浪潮信息存储首席架构师孙斌在接受采访时表示,核心将体现在可组合、融合能力的表现上。在存力中心最突出的问题体现在数据拷贝上,也就是数据移动。当数据量加大之后,数据移动更是一件费时费力的事情。
“最好的办法,就是一份数据能够满足不同应用的需求。一套存储的架构,支持混合负载的需求,这里的混合负载可以HPC、AI,也可以各种数据处理、分析和应用。” 孙斌说。
未来的数据型中心需要一套心边一体、存算分离、服务融合的新型存储架构,通过机柜级、中心级两种类型的存储底座,实现机柜内、数据中心级的存算分离,提升存算协同效率。具备多协议、多应用的服务融合能力,提升应用间的数据共享、流转效率,能够加速数据流转效率。目前,AS13000具备了协议融合、算力融合、介质融合的能力,通过融合实现了存储资源的协同处理,按需分配。未来在这个基础之上,需要通过增加设备全生命周期管理、元数据统一视图以及数据统一编排等的能力,从而简化数据管理的复杂度,更好为数据空间提供支撑。
孙斌指出,秉持通专结合的思路,需要可组合分布式融合存储(CDFS)具备硬件、软件组合、多层面融合能力,其中,小规模部署追求极致性能,而大规模部署追求极致空间与带宽,这将涉及硬件模块、软件栈,人工智能加持等一系列技术进步,需要引入融入多级 KV Cache 异步加速等技术突破。