数据存储产业服务平台

优刻得DPU裸金属训练集群,亮相英伟达GTC大会

近日,备受瞩目的AI盛会GTC 2024在美国召开。作为业界领先的云计算科技企业,优刻得受邀参会。在GTC专题会议环节,优刻得研发总监王晓慧发布了基于DPU裸金属的训练集群,演示了集群在大模型场景的应用实践,并与全球开发者共同交流探讨智能算力新风向。

王晓慧分享道,大模型训练需要消耗大量的计算资源和时间,如何高效地搭建和管理训练集群成为加速大模型落地的核心挑战。在NVIDIA的支持下,优刻得率先将DPU应用于裸金属物理云,实现了软件定义的计算、存储和网络,助力集群计算效率提升。她强调,DPU裸金属训练集群为高带宽、低延迟、数据密集的大模型训练场景提供强大的计算引擎,大幅提升了网络处理能力和数据传输速度。

基于DPU裸金属所构建的训练集群在高性能计算、数据和模型并行处理等方面优势突出,可轻松应对的严苛性能要求和工作负载挑战。DPU裸金属集群可以提供训练所需的强大算力,具备千卡规模的模型训练能力;同时以低延迟、高吞吐的特性,充分满足了大规模数据处理和高并发场景的需求,加速模型训练过程。此外,DPU的引入赋予了训练集群更高的灵活性和可扩展性,使得用户能够根据实际业务需求灵活选择适配的硬件和软件堆栈,确保持续优化模型的训练性能和效率。

会上,王晓慧还进一步分了刻孔智平在大模型训练场景中的优势。孔明智算平台是优刻得自主研发的一款智能算力管理平台,能够帮助大模型公司提高训练效率、优化模型性能、降低开发成本。用户可以轻松构建并管理训练集群,并对计算资源的智能调度和优化配置,无需将更多精力关注在底层资源层面,从而实现更加高效的大模型训练。

为应对大模型训练过程中通信异常挑战、及时发现故障所在,优刻得结合英伟达的GPU Direct Storage技术,自主研发了UPFS并行文件存储系统。UPFS显著提升了存储系统的吞吐能力,使得CheckPoint的速度相较于传统存储提升了近10倍,确保提高训练效率和快速恢复训练。优刻得智算平台支持对同构、异构卡的统一调度与管理,以分区的方式提供不同的资源池;同时,支持TCP/IP协议、IB和RoCE等多样化的网络接入方案,拥有断点续训、数据备份、自定义故障恢复等机制,避免训练过程中的意外中断,为大模型训练的安全性和连续性提供保障。

目前,优刻得DPU裸金属训练集群和智算平台已在大模型分布式训练、自动驾驶、生物医药、工业制造等领域落地应用,能够胜任在AI领域内的各类业务需求。在生物医药领域,基于高性能计算能力,研究人员能够更快地进复杂分子拟和真训,加速药物研发和优化过程;在工业制造领域,帮助企业提高工业仿真、工业复核等任务效率,优化生产流程,以实现智能制造。

优刻得智能算力已广泛服务于大模型和人工智能企业,为智谱AI构建超千卡规模推理集群,实现成本效益和服务质量的平衡;为AI绘画平台图蝇AI提升图片生成效率和质量,设计效率提升5倍以上;为出门问问数字人应用研发提供海量算力,5分钟内即可实现数字员工形象定制和上岗。

当下优刻得在GPU、DPU和存等多个领域建立了优势,不仅为用户提供高性能底层算力资源,更凭借丰富的大模型工程化实践,为众多大模型企业提供有力支持。未来,优刻得将更好地为全球用户提供智能高效、稳定可靠的AI智算基础设施,助推更多大模型应用的研发与落地。

未经允许不得转载:存储在线-存储专业媒体 » 优刻得DPU裸金属训练集群,亮相英伟达GTC大会