数据存储产业服务平台

绿算孟坤:拥抱Diskless计算架构,加速AI模型训练

关于绿算技术有限公司

绿算(LUI SUAN)取自汉语拼音,也是所致力实现目标英文表达单词首字母的缩写(Loading Under Intelligence、 Storing Under AAA* Nature)。即针对数据存储服务的两种模式——一个是加载,一个是存储,其目标是实现“数据智慧加载,安全存取”。另一方面,“绿”代表节能环保,实践发现闪存技术的使用确实带来了能耗、碳排放的降低。因此,公司命名为绿算技术,旨在提供高性能全闪存储产品和服务的同时,为国家的“双碳”战略作出应有的贡献。

绿算技术成立于2022年,为保证企业具有持续的创新能力,成立之初就设立了信息技术创新研究院——烽烟(ForInN,For information Innovation)研究院,负责战略规划、新技术研发、产品论证、业界合作交流等,与产品线一起形成“一体两翼”的公司架构。公司成立以来,围绕全闪存储发布了款产品和数十种行业解决方案,并开展了大量的适配和测试工作,得到了客户和合作伙伴的高度认可。

2023闪存峰会主论坛上,绿算技术首席科学家、烽烟研究院院长孟坤分享了Diskless存算分离架构的发展以及其如何助力加速AI模型训练。

绿算技术的产品主要特性是支持Diskless存算分离架构的解决方案。事实上,我们身处各种信息技术加持的时代,给我们带来了便利的同时,也面临用户更高的需求,因此,做产品务必围绕应用需求展开。当前信息应用已进入AI时代、数据驱动时代,如何助力其发展是产品人应担负的时代责任。

那么避不开的是实现数据驱动计算,从应用需求角度来看,好的技术务必能够帮助用户解决问题。当前,数据驱动智能已经转化为“计算”,依赖于数据、模型算法及计算基础设施;其中,计算基础设施包括运算资源(算)、存储资源(存)、通信资源(运),三者需要相辅相成,相互协同才能更好地完成计算任务,存储在整个计算环境中的作用不容忽视。

针对现在大规模AI应用的发展,对存储的要求在全面提升,不论是空间上、性能上,还是使用模式上都存在着巨大挑战。一方面,大规模数据需要大容量存储空间,并行(集群)运算需要高效的数据存取和交互,重点体现在吞吐率、IO等服务能力上;另一方面,多样化的计算任务要求所有资源都应具备灵活的伸缩能力,具有灵活的可扩展性。在高速网络支撑下,Diskless存算分离架构具备了满足上述需求的潜质,亟需支撑这些创新架构的技术和实施方法。

Diskless存算分离架构是什么?

Diskless就是存算分离架构,在高速网络加持下,实现运算模块和存储模块的解耦。在讨论Diskless之前,有必要要谈一下Serverless(去服务器),事实上就是云计算。它解决了用户对计算资源所有权和使用权的解耦,用户不用担心设备购置负担,可以通过按需购买服务的方式获取所需计算资源,实现了“计算资源数据化”,便利了资源共享使用。

但是,云计算发展到现在,瓶颈也日益凸显,主要体现为“服务质量难以满足和服务器CPU利用率不足”同时存在的现象,说明了利用服务器集群提供计算资源池的模式存在的管理和数据交互频繁问题难以克服,亟需新的计算架构。Diskless架构旨在实现存算分离,进而实现各种计算资源的完美协同和灵活扩展,满足用户对性能及其它服务质量提升的要求。而从传统基于服务器集群到现在存算分离架构的发展需求中,极速设备成为保证质量的关键。绿算技术基于芯片级卸载RDMA/NVMe-oF的高速协议技术研发了网络化极速存储设备,提供了高性能、高扩展、网络共享的数据存储系统,并在AI训练加速上做了一些实践验证。

在实践方案中,绿算技术提供高速数据存储系统,联合运算模块合作伙伴——GPU厂商思腾合力,重点针对高校或科研院所在做大模型训练场景,搭建了微型存算分离架构超算平台。为科研实验室,提供了一种开箱即用的AI训练平台解决方案平台,较好地适应了用户在设备空间,能源及运维能力相对受限的场景。

整体来看,方案直接简单,上面是应用层,通过虚拟化技术方便用于定制所需计算资源,中间是运算资源池,并通过高速网络与下层的存储资源池互联互通。为满足用户差异化需求,存储资源层又被分为两层:存储系统服务层和存储空间资源池,存储资源池集中式共享使用的模式进行服务。

在上述方案中,应用了绿算技术的两个核心产品,分别体现在软件系统和硬件设备上。硬件是GP超100Gb的新型存储服务器(EBOF),可以完全释放数据存取能力,核心优势包含五个方面:(1)实现网络高速通道的线速匹配,(2)高速存储协议包的芯片级卸载,(3)适当冗余设计保障可靠性,(4)简约模块化实现降低功耗,(5)可视化配置监管提升使用体验。

硬件设备通过采用上述技术,设备实测参数达到了2U设备可以提供到72GB/s的带宽,单机的IOPS达到了1600万,时延和功耗也体现了不俗性能。更重要地,GP设备是可以网络扩展的,如果更高需求,可以简单地通过网络设备直接横向扩展。此外,设备采用标准接口和协议,并提供多样化的应用模式,满足用户需求。

另一方面,绿算技术适应GP设备基础上还开发并行文件系统LinePillar FS,满足了运算模块对数据存储的多样化需求。主要优势体现为大流分级,小流的聚合方式保障性能;采用标准接口适配多种应用系统,此外,多个版本兼容了主流操作系统、处理芯片,能够满足用户各种场景或现有IT资产利旧。

绿算分享两个典型案例

基于上述Diskless超算平台,绿算技术也开展两个应用场景测试,一个是大家常见的AI模型训练场景,这个场景是一个期货公司做回测服务,他们的数据量不大,但交互非常多。训练过程数据非常多,要求高频读写,对IOPS有很高要求。之前他们采用服务器集群的方式进行模型训练,跑十年的期货数据、两百多个模型,往常出份报告需要大概跑一个月;采用上述解决方案后,出报告时间直接降到了八个小时,后来又在数据系统上做了一个调整,模型训练时间压缩到三个小时。之后我们进行了分析总结,发现训练时长的压缩主要得益于数据交互模式的简化和路程的降低。

第二个场景是AI驱动安全的一个场景,该场景需求是实现100Gb带宽网络流量的实时异常检测。该任务的难点主要体现在两个方面:(1)需要把流量完整存下来,(2)流量数据能够高效的供训练模型存取。经历了高端服务器集群无法完成场景需求的情况下,采用Diskless超算平台后,问题得到了很好的解决,实现了100Gb网络流量的线速分析,满足了大规模数据瞬间写入和PB级海量数据秒级查询需求。 事实上,分析发现,成功实践还主要得益于通过建立集中式高速数据共享资源池,减少了数据在服务器之间的横向流动,使得各个运算节点的性能得以充分发挥。

最后

孟坤总结了Diskless架构产品解决方案优势,并强调使用全闪存储方案后,能耗、空间依赖、存储密度等都具有明显优势。展望未来,Diskless存算分离架构方案在云数据中心的基础设施改造中具有巨大优势,不仅体现在“碳达峰、碳中和”绿色数据中心建设方面,还体现在高性能、高性价比服务能力方面。

未经允许不得转载:存储在线-存储专业媒体 » 绿算孟坤:拥抱Diskless计算架构,加速AI模型训练