上海交大吴晨涛:面向大模型应用的内存故障容错技术
【编者按:2025年3月27日,“2025人工智能基础设施峰会”在上海龙之梦万丽酒店盛大召开。本次峰会以“智能基石 创新赋能”为主题,由上海市计算机学会指导,DOIT传媒主办,算力豹、百易存储研究院、CXL技术应用俱乐部、上海市计算机学会存...
【编者按:2025年3月27日,“2025人工智能基础设施峰会”在上海龙之梦万丽酒店盛大召开。本次峰会以“智能基石 创新赋能”为主题,由上海市计算机学会指导,DOIT传媒主办,算力豹、百易存储研究院、CXL技术应用俱乐部、上海市计算机学会存...
尊敬的各位领导、各位专家、各位线上的朋友,大家好!我是来自上海交通大学的吴晨涛。 接下来由我给大家带来报告《分布式学习过程中硬盘故障恢复加速的研究》,报告分为四个部分。 首先介绍分布式学习的故障场景。 在云计算系统中,分布式机器学习的数据集...