在大模型百花齐放的背后,是躬身入局的参与者们涌现出来对AI支撑能力体系愈发复杂的需求。究竟要具备怎样的能力,才能够建设好AI时代的算力底座呢?
3月29日,宁畅在2024年度战略新品及方案发布会透露其对策:通过建立起一套全面的AI支撑能力体系来推进大模型的落地,其核心即是“全局智算”,通过以软硬件兼备的体系、业界领先的液冷产品家族,支持不同行业客应用的需求。
六“全”特点构筑“全局智算”战略
据宁畅CEO秦晓宁介绍,“全局智算”战略六“全”特点分别是全体系、全液冷、全服务、全场景、全行业、全阶段。
全体系,是指从通用、A1、边缘计算、整机柜、AI工作站、AI算力栈等硬件软件、平台、应用、发具撑适整的软硬件栈全部具备,并且把服务器和数据中心级别的AI算力带到了桌面。
全场景,宁畅AI全栈能力,全面支持大模型开发适配、部署场景。
全液冷覆盖服务器、机柜、数据中心多形态,支持风冷、冷板式液冷、浸没液冷多方式,秉承“冷静“计算策略,有效化解额外能耗以及成本居高不下的问题。
全行业,满足互联网、金融、科研、自动驾驶等几乎所有重要行业业务需求。
全服务,提供从前期咨询、设计到制造、咨询及后续运维、售后等全时算力服务,一个明显的特征是不只交付硬件,如今有更多的软件交付
全阶段,满足客户从大模型的开发、适配、部署、全场景不同业务发展阶段关键需求,提供最具价比的定制化智算中心方案。
“全局智算”战略:六层逻辑能力
宁畅“全局智算”战略包括六层逻辑能力。
最底层是硬件资源层,包括传统的通用服务器、GPU、机柜、储、络多形态产品
硬件上层是集群设计层。这一层并非海量硬件的简单连接与堆叠。宁畅基于整体业务的运行特征和系统的量化需求,提供从微架构、网络、存储、AI模型特征等一系列的方案化的设计。
集群层之上是软件层。
为什么宁畅要做软件?宁畅CTO赵雷解释说,未来越来多的情况,软件成为进步提升AI的运算能力和产品使用率的最优方案。
在计算能力方面,通过分析出什么样的算力不足,哪个地方的算力存在缺口,从而对网络和系统进行针对性的优化与升级,确定算力的均衡负载并做出最好的选择。其中,在算子优化能力方面,宁畅以硬件资源优势,减少模型执行的时间,降低资源消耗,提高了能效比,以NEX AIOM软件支持Slam,快速部署IaaS、PaaS、SaaS层,实现系统工程能力的优化;在AI中台层,宁畅提供全面支持NVAIE中台系统,实现AI算力栈在软件层面包括基础的操作、运行库以及MPI、NCCL和其他基础框架的快速部署与实现。
在模型优化层,宁畅可集合用户内部即时通信软件的聊天数据,并对数据进行清洗和优化,形成良好的数据集,防止在训练过程中出现过拟合问题。此举一方面方便公司内部员工的检索与问答,另一方面则是检验自己开发的软件系统所构建的AI解决方案能力和服务能力。目前还在不断完善中。
最上层是业务层和场景层。大模型的落地过程中,无论是算法、算力、数据,还是算效、精度和服务,都面临各种变化和需求,“全局智算”战略,以六“全”能力矩阵,既化解了极致算效、精度增强、高效稳定问题,也能够赋能千行百业,让大模型真正成为各行各业的新质生产力。
1)首个“AI算力栈”NEX AI Lab落地桐乡
集成了宁畅在AI计算领域能力,以底层硬件到顶层应用平台系统化方案的AI算力栈”NEX AI Lab(Nettrix AI Open Lab)新在桐乡成。
NEX AI Lab由X640G50组成,搭配GPU及400G网络,以及可支持X680G55液冷服务器与全闪存储节点,可满足大模型落地所需的计算、存储、网络、建设、管理、应用及液冷等全方位需求,以其全面、灵活、深度的支撑能力,为中高端智算中心的构建提供强有力的支持。
值得提的是,X680G55系列冷服务器了单独使用,还可以与风冷CPU结合使用,有地实现传统机房的液冷改造,让性能得到最大程度释放的同时保护客户的投资成本。
目前,NEX AI Lab已先期开放预约免费的算力,支持用户尝试不同的业务组合、不同的网络方案与不同的软件和框架,并进行相应地调整,以便快速做出购买决策。
NEX AI Lab的应用,还有力地证明宁畅具备了从软件到硬件全平台服务的能力。
2)成功打造以全面AI体系支撑的自动驾驶系统
基于“全局智算”战略,宁畅综合某车企客户的各种需求,最终选择预制模块化机房,成功搭建了一个面向自动驾驶领域的算力系统。
在机柜方面,液冷覆盖率超过95%、功率高达100KW每柜的整机柜,电液盲插方式非常便于运维和部署,同时还为特定的硬件平台推荐最优能耗比配置,PUE最低可至1.09。
为满足自动驾驶对实时性和延迟性要求,宁畅基于AI软件栈提供优化的深度学习框架和加速库,充分平衡训练,提升了推理效率;数据预处理自动标注方式,提高了数据的利用效率。
自动驾驶对安全性有更高的要求,车企需要进行大量的模拟测试。宁畅AI智驾中台提供强大的模拟和测试工具,支持虚拟环境的创建与场景的重现,测试运率的自动生成和执行,加速了模型的训练过程,实现模型训练闭环。
通过种种举,宁畅以覆盖数据收集、数据处理、模型训练、参数调优、模型评估、模型发布全流程的技术支持,帮助客户专注业务,提升计算和测试效率,缩短了新产品上市的进程。
与生态伙伴互补融合,构建起“全局智算”能力
秦晓宁表示,“全局智算”仅凭宁畅一己之力难以完成,无论是硬件、集群、中台、内容,还是服务层,都离不开各方面伙伴的通力合作。
“只有通过每一个个体的能力互补与融合,才能够真正构建起‘全局智算’的能力,开拓智算未来的产业发展局面。“秦晓宁希望宁畅够以更强的AI算力,推动大模型在各个行业的实际落地添砖加瓦,加速科技快速展、造福人民,提升人民生活幸福感。