2022年12月13日,在第十八届CCF全国高性能计算学术年会上,阿里云弹性高性能计算平台E-HPC产品荣获会议创新大奖。
高性能计算(HPC)是科技界“皇冠上的明珠”,但由于其领域投资建设周期长,设备运维成本比较高,应用接入流程较慢,资源配置方案往往倾向高精尖行业,难以满足多样性的业务尤其是新兴业务的计算需求,越来越多的行业将HPC应用需求的目光转向云端。为顺应市场发展需求,阿里云于2017年推出了云上高性能计算产品,随后与合作伙伴密切合作、参与布局。
此次获奖的弹性高性能计算平台E-HPC,就是阿里云基于自研飞天系统和神龙架构,将HPC与云计算有效相结合并借助遍布全球的多样性计算、存储和网络等资源,以高性能、高弹性与低成本的算力,为企业HPC业务在云上高效、稳定运行提供支持和服务,助力其业务创新加速。
阿里云弹性高性能计算平台E-HPC,让高性能计算不再高不可攀
HPC业务场景对性能有着极高的要求。为确保高性能计算业务在云上高效、稳定、安全的运行,阿里云推出了高性能神龙服务器、高性能网络和高性能数据存储,它们一道组成了阿里云弹性高性能计算平台E-HPC的核心基础设施。
在计算方面,阿里云通过全球率先发布的革命性的CIPU处理器,对存储和网络实现低延的池化与虚拟化,让100%的算力支持企业多元的计算场景需求。
CIPU的性能表现抢眼:仅单个实例就可以提供高达300万IOPS的存储能力、低至30us的延时,以及5000万PPS的网络转发能力和低至16us延时,高弹性和企业级安全的能力支撑百万级服务器高性能、稳定运行,颠覆了传统IT时代的计算架构,带来了一场计算架构的革新。
在网络方面,与传统的RDMA(Remote Direct Memory Access)
组网最多上千台服务器相比,基于阿里云自研的eRDMA,可轻松构建一个超大型RDMA分布式计算网络,网络延迟从16us降低到5us,传输效率提升70%以上。
数据表明,eRDMA可以提升Redis数据库混合读写80%的吞吐量,增强大规模分布式NLP和视觉计算30%的训练性能,Spark场景中的分布式大数据实现30%的计算性能提升。针对诸如新一代天气模拟系统WRF(Weather Research and Forecasting)等HPC应用场景,eRDMA较传统方式提升38%的性能。
存储系统性能是衡量HPC方案中底层基础设施重要的指标之一。阿里云新一代高性能并行存储CPFS(Cloud Parallel File Storage)系统,提供了线上和线下HPC解决方案中的核心数据平台服务。除了支持RDMA高性能网络、提供POSIX兼容的接口,CPFS还提供了通用的NFS接口,与E-HPC以及无影计算生态无缝对接,实现整个生产链条下的数据共享。
CPFS具备高达每秒钟数百GB的吞吐能力,以及每秒钟数百万次IOPS的读写能力;在安全方面,CPFS支持WORM、访问审计等数据安全能力,满足敏感数据存储需求。
在服务触达方面,阿里云布局在全球28个地区和85个云计算可用区所提供的算力服务。此外,阿里云还通过开箱即用的云盒(CloudBox)、专属Region、本地Region等新的产品形态以全方位产品矩阵将公共云的计算、存储、网络等基础设施以软硬一体方式延伸部署企业本地的数据中心,满足用户对数据安全、数据本地处理、低延时等业务需求的全托管云服务。
所有这些产品和服务,借助弹性计算云这个载体,成为阿里云的一个基础服务,为企业的云上应用提供了更好的选择。
让科学与工程计算人员聚焦计算,摆脱来自IT环境的束缚
阿里云弹性计算架构E-HPC覆盖了底层集群的生命周期管理、业务层面的调度器管理与作业管理、应用层面的软件环境、应用性能管理以及最上层的业务使用接口;支持一键式创建云上的超算集群,按照HPC计算的要求编排云上的计算、存储和网络资源,并部署好相关计算软件栈,让企业可以直接开始计算工作。
针对企业最为关注的应用性能,阿里云除了提供各种匹配不同计算场景的实例规则组织外,还在E-HPC服务中加入了完整的英特尔oneAPI能力与相应的技术支持能力,为企业提供优化的编译、调试的工具链、性能数据采集与分析工具,完整的云上HPC应用开发的平台,方便有性能优化思路和需求的企业直接在云上开展HPC应用的验证,应用性能剖析以及优化的工作。
看得出来,E-HPC平台化解了企业在业务上云过程中因为对云环境缺乏了解而难以着手的窘境,以符合企业的使用要求和使用习惯的方式,让科学与工程计算人员将更多的精力聚焦在计算的本身,而不是放在对IT环境的适应上。
丰富的行业实践,让高性能计算普惠更多应用需求
基于性价比、数据安全、部署方便、应用简捷等多方面的优势,阿里云弹性高性能计算平台E-HPC已经取得了大量的成功实践。
深势科技借助阿里云快速地搭建稳定的云上HPC集群,通过科学管理与灵活调度多种云上的资源,有效支持大量生命科学行业相关的应用软件和容器部署,以30%的成本完成日均3万VCPU资源的交付,业务效率提升50%。
阿里云影视渲染的HPC解决方案也参与了《杨戬》、《刺杀小说家》、《你好,李焕英》等多部影视作品的打造。针对渲染行业中云上素材和云上渲染集群之间数据传输,阿里云还根据数据IO的特征专门设计了混合云文件缓存组件,降低了专线的压力。如在与MORE VFX的合作过程中,阿里云针对性的HPC解决方案减少了渲染过程中对线下数据的访问量,提升了影视后期制作工作效率。
无论是工业仿真、生物科学、气象预报、芯片设计还是影视制作,阿里云弹性高性能计算平台E-HPC都能够支持云上云下资源混合模式的统一管理,让企业在短时间内获取新业务和突发业务所需要的计算资源,保障业务能够高效稳定的运行;当作业运行结束之后,立刻释放多余的计算资源。
“云计算本身就是普惠科技的体现。科技的力量,让以前只有在大型超算中心提供的算力,和所支持的应用能够在今天云计算平台上轻松实现。”阿里云智能弹性计算&无影产品线负责人、阿里巴巴集团研究员张献涛博士表示,如果把传统的超算中心比作“珠穆朗玛峰”,那么,阿里云的E-HPC则是将高性能计算作为更为普惠的覆盖,成为高性能计算的“青藏高原”,让更多的行业可以享受到更加普惠、更加安全可靠、成本更低的高性能计算服务。
创新永无止境,第八代实例性能全面提升
在现有成果的基础上,全量搭载CIPU和飞天技术架构的阿里云第八代实例(ECS g8i)即将发布。据悉,八代实例以标配自研eRDMA大规模加速能力,显著提升网络传输效率,支持更多高性能计算业务在云上的部署。
在算力维度,八代实例采用了英特尔即将发布的最新第四代“至强”可扩展处理器(代号Sapphire Rapids),“至强”处理器在通用算力提升的同时原生支持硬件,其中在AI领域训练场景的性能提升2倍以上、深度学习以及加解密、解压缩场景的性能也能够提升4倍以上。
同时,基于第四代至强的八代实例搭载了TPM的可信芯片,在确保云上运行环境完整性的同时配合加密计算能力、内存加密TME的技术,实现云上的原生计算安全。
网络及存储IO也实现了大幅度演进。最新的云盘支持NVMe接口与共享存储;物理网络也全面提升到2×100G。
当前,越来越多的主流高性能计算应用正在向云迁移,与此同时,高性能计算与大数据、人工智能等技术也正在走向融合。张献涛表示,阿里云弹性高性能计算平台E-HPC正在与传统超算中心、智算中心一道,成为驱动技术创新与行业高质量发展的核心引擎。