上海交大吴晨涛：面向大模型应用的内存故障容错技术-存储在线-存储专业媒体

【编者按：2025年3月27日，“2025人工智能基础设施峰会”在上海龙之梦万丽酒店盛大召开。本次峰会以“智能基石创新赋能”为主题，由上海市计算机学会指导，DOIT传媒主办，算力豹、百易存储研究院、CXL技术应用俱乐部、上海市计算机学会存储技术专委会、上海交通大学计算机系支持，汇聚产业链上下游企业、机构及专家学者，共同探讨AI基础设施的前沿趋势、技术创新与应用，推动中国AI产业迈向新高度，会议同期还发布了算力全景图（2025版）分析报告。会场吸引近千名观众参加。

“2025人工智能基础设施峰会”会场

在下午召开的数据智能技术应用论坛上，上海交通大学计算机科学与工程系教授、博士生导师，国家级青年人才、国家重点研发计划首席科学家、CCF体系结构专委会常委，上海市计算机学会存储专委会主任吴晨涛发表主题为“面向大模型应用的内存故障容错技术”的精彩报告，从内存故障预测与检查点等技术入手，介绍他和他的已经研究团队如何通过主被动容错方法，保障大模型系统的可靠性。发表主题为“面向大模型应用的内存故障容错技术”的精彩报告，从内存故障预测与检查点等技术入手，介绍他和他的已经研究团队如何通过主被动容错方法，保障大模型系统的可靠性。

数据智能技术应用分论坛现场

以下内容根据速记整理，未经本人审定。

上海交通大学计算机科学与工程系教授、博士生导师，国家级青年人才、国家重点研发计划首席科学家、CCF体系结构专委会常委，上海市计算机学会存储专委会主任吴晨涛

吴晨涛：

大家好，我是来自上海交通大学的吴晨涛。今天，我将围绕“面向大模型应用的内存故障容错技术”这一主题，与大家分享我们在内存故障预测与容错技术方面的最新研究成果。

研究背景与发现

随着云计算、大数据等系统的快速扩展和规模日益增大，内存系统的可靠性已成为影响整个系统运行的重要因素。京东云的调查表明，内存故障占数据中心硬件故障的37%。在AIGC算力快速部署的当下，内存可靠性面临着更为严峻的挑战。

在大模型训练中，内存故障问题尤为突出。以Meta公司为例，其利用992张A100集群训练175B参数模型，在3个月的训练时长中，系统重启超过100次，最长稳定运行时间仅为2.8天，最长中断达2天，平均中断时长12小时，其中硬件故障占50%。若以ETTR（有效训练时间比率）衡量，GPU越多，ETTR值越低，万卡集群平均有效运行时间仅占正常时间的70%。随着DeepSeek等大模型应用的广泛使用，内存可靠性的挑战只会增多，不会减少。

内存故障预测

内存故障预测是智能运维系统（AIOps）的重要组成部分，谷歌、微软、华为、阿里等公司均致力于发展内存故障预测技术。内存故障模式多样，包括单点错误模式、行错误模式、列错误模式和无序错误模式等。内存一般配有ECC编码，若错误在编码容忍范围内，可纠正回来，称为CE（CorrectableError）；若错误超出编码容错能力，则称为UC/UCE（UncorrectableError）。

内存故障模式种类繁多，故障原因多样，给故障预测带来了很大难度。我们与华为合作，从row、col、bank三个维度进行三维空间分析，针对发生故障的所有内存单元进行跟踪，分析三维模型。以24小时为周期划分每个bank力度上的UE和CE信息，观察其时间规律，并以红、蓝、绿三色进行标注，发现row、column、bank这三个维度的内存故障均呈现非常明显的时间和空间局部性。

影响内存故障的主要因素包括DIMM架构、DRAM光刻叠层工艺、系统负载和平台架构等。内存故障与内存介质、内存访问特性相关度极高，且内存对延迟要求极为敏感，因此对故障预测的要求更高。

基于以上分析，我们与华为合作，针对大规模华为云集群环境中的内存故障预测展开研究。通过对12万台服务器、近200万条内存故障日志的分析，我们发现不同架构平台的内存故障特性存在显著差异。例如，在x86架构的服务器中，只发生UE的内存比例约为11%，而在Arm架构下则仅为4%，约为x86的1/3。进一步研究发现，Arm服务器在ECC编码中保留了更多的奇偶校验位，使得其在4bit位宽时能达到Chipkill级性能，但在8bit位宽时难以应对大量错误，导致错误率急剧上升。

此外，我们还分析了内存故障的可预测性。研究发现，Arm架构在较短提前时间（如6小时）内，可预测UE的生存函数概率值略高于x86服务器，但在较长提前时间（如24小时）内，x86架构表现出更高比例的可预测UE。同时，x86和Arm平台之间CE与UE的关系也存在差异，x86服务器在出现不可纠正错误前，通常会有大量可纠正错误，而Arm服务器则表现不一致，这可能与其风暴抑制功能有关，该功能虽然增强了系统稳定性，却减少了用于故障预测的错误数据量。

针对内存故障成因复杂的特点，我们采用了特征工程方法，兼顾时间局部性、空间局部性等多方面特征，包括静态特征、空间特征、时间特征、类型特征、故障位特征等，构建了统一的针对大规模异构集群的内存故障预测与分级容错架构。该架构从DIMM级、服务器级、页面级、行级分别进行粗粒度和细粒度的故障预测，并针对故障预测结果设计了相应的容错机制：一是针对服务器的虚拟机或容器进行热迁移；二是对对应内存的页面进行软下线；三是对风险区域进行数据保护和降级使用。

实验结果

我们在系统中提供了针对DIMM级以及行级、页级双视角的内存故障预测方法，结合XGBoost等算法，取得了较好的效果。在x86平台，实现了51%的精准率和81%的覆盖率；而在Arm平台，由于其风暴抑制和奇偶校验位等功能导致缺少细粒度故障信息，内存故障预测性能相对较低。

进一步的实验分析了不同提前时间下预测性能的变化，发现无论是提前1秒、5秒、1分钟、5分钟、1小时还是6小时等，均能达到一定的预测效果。这些成果已在华为云中进行了部分落地应用。

针对x86和Arm架构的差异，我们测试了不同因素对这两个平台内存故障预测性能的影响。在x86架构中，bitlevel的CE特征占主导地位，去除该特征会导致性能显著下降；而在Arm架构中，静态特征、局部特征和空间特征等对预测性能均有不同程度的影响，其中空间特征的影响最大。整体而言，在Arm架构上进行内存故障预测更具挑战性。

我们将容错机制在华为云集群中进行了大规模部署，取得了显著收益。部署后，平均降低了上层虚拟机业务故障率27%；采用第二级容错时，可多避免110.6%的内存UE，但开销仅为Linux内存默认方案的92.4%；在集群运行过程中，共有15.6%的内存容量被软下线，通过三级容错策略，重新释放了其中78.65%的容量，剩余11.68%的重复出现UE的区域，皆被TierIII恢复数据，避免了OS进程挂死。

总结与展望

我们针对内存故障预测问题开展了深入研究，特别是针对大规模集群的硬件故障，通过特征工程方法构建了DIMM/行列级分级容错机制，有效降低了上层虚拟机业务的故障率，保障了大规模系统的稳定性，为AIGC技术的发展提供了有力支持。

未来，我们将进一步拓展研究方向。一方面，将故障预测与大模型的Checkpoint机制相结合，构建主被动分级容错技术，以更好地保障AI应用的可靠性；另一方面，深入研究存储子系统容错技术，探讨DRAM、PM、SSD/HDD等设备故障之间的相关性，并进一步探究内存故障对上层应用业务的影响范围。此外，随着CXL等相关技术的实施，我们还将研究针对CXL-DRAM/PM等的故障预测技术，为构建大规模内存池提供技术支持。

以上就是我的报告，谢谢大家！

上海交大吴晨涛：面向大模型应用的内存故障容错技术

谢世诚

相关推荐

近期文章