此前我们说过,AS13000融合存储系统是浪潮信息应对AIGC存储的答卷,针对Token、也好,Checkpoint也好,AS13000通过数控分离架构,减少东西向数据量的转发;通过GDS、RMDA技术缩短I/O路径,通过SPDK、缓存零拷贝技术减少I/O路径上的数据拷贝,以及基于自研NVMe SSD开发的盘控协同技术,减少I/O访问SSD盘的次数,使存储性能得到进一步释放。AS13000全闪单节点带宽超过50GB/s,IOPS超过50万;此外,创新性地引入双控全闪节点,带宽超100GB/s,IOPS超100万,真正使系统具备千万级IOPS、TB级带宽,充分满足AIGC场景对存储系统的苛刻要求。
在8月末,在杭州举行的2023全球闪存峰会期间,浪潮信息重磅发布了高性能分布式存储平台,AS15000G7将AIGC存储又带到了一个新的台阶,与此同时,浪潮信息发布了数据中心算力、全闪、混闪,1:1:1黄金比例建设的原则。
浪潮信息存储产品线副总经理刘希猛表示:“当前,各个厂商纷纷投资硬件,训练自己的大模型,国内已发布的生成式AI模型超过了100个,‘百模争秀’的格局初现,云厂商和运营商对IT硬件的投资往往是成千上万节点规模,而行业大厂投资在几百节点规模,在建设布局时考虑到AI大模型对高性能AI服务器、高吞吐并行存储系统、低延迟RDMA网络的严苛需求,将数据中心的算力、全闪、混闪按照1:1:1黄金比例建设,可实现用户整体投入最小化。”
“一台8卡最先进GPU服务器后端配置的存储节点写带宽要求20GB/s,读带宽要求40GB/s,通常一台全闪存储节点的写带宽是20GB/s,读带宽接近30GB/s,可得到计算节点与全闪节点的数量比例接近1:1。按着数据使用规律,通常热数据和温冷数据的容量配置约为1:10,即全闪单节点容量为50~100TB,混闪节点容量为500~1000TB,全闪节点与混闪节点的数量比例接近1:1。” 刘希猛说。
“我们建议用户整体规划布局,避免在存储扩容、数据迁移和数据管理方面随着业务的增加而力不从心,因此按照算力、全闪、混闪节点数量配比1:1:1来设计规划和部署是目前的最优方案。” 刘希猛继续补充说。
分布式存储产品线总经理姜乐果表示:AS15000G7是在AS13000基础上的升级迭代,如果说AS13000的特点是极致融合,那么AS15000G7的特点则是极致性能。
AS15000G7采用高吞吐并行存储系统,通过GDS、RDMA技术缩短I/O路径;通过智能元数据管理,提前缓存用户数据和文件系统元数据,显著提升数据访问和检索速度;独有的智能网络优化技术,可实现多个子网与指定目的地通信,每对守护进程之间建立多个TCP连接并通信,显著提升网络端口并发能力,实现传输端口带宽翻数倍,时延缩短50%以上,小文件级传输的时延可降至毫秒级。
以GDS(GPU Direct Storage)为例,能够将GPU和外部数据存储的带宽提升2~8倍,当GPU并发度增加的时候,GDS仍然能够保持稳定的低延迟输出,非常适用于AIGC等AI应用场景的应用。通过对于GDS的支持,GPU直接访问存储,从而避免了传统设计应用中,CPU调度带来的访问延迟。可以说,GDS也好,RDMA也好,对于新的访问协议的支持,已经成为了分布式文件系统的基本功,也是追求极致性能的必由之路。
AS15000G7提供了自动化的数据分层和迁移的功能,从而为满足AIGC场景应用提供了更好的支持,因为除了高速并行访问能力之外,AIGC训练、推理中的中间结果数据需要存储和保留,很多都是以冷数据形式呈现,也更加适合混闪阵列的定位,这也是浪潮信息提出全闪、混闪1;1的原因。AS15000G7在产品设计上充分考虑到了这一点,提供了通用型、容量型和性能型的产品类型。通过基于闪存、磁盘、磁带、光盘的灵活配置,可最大程度降低用户的整体投入。
AS15000G7新品同时搭载了AIStation调度平台和InView数据管理平台,通过对AI服务器、网络、存储的智能运维,提高多租户管理、资源分配、数据管理分析的能力和水平。与此同时,AS15000G7保留了多协议实时互访互通和系统扁平扩展的能力,从而能够实现对于多元异构非结构化数据,如文本、图片、音频、视频等,以及文件、对象、大数据以及视频文件的高效共享。
“1:1:1,也许这样配置比较奢侈,很少有用户能够达到这样的配置,那是因为没有考虑到混合模态、多模态训练的需要。” 刘希猛说。
都说未雨绸缪,这应该是AS15000G7的最好写照。大军未动,粮草先行,1:1:1,应该是AIGC争先的明智选择。