清华大学是我国著名的高等学府,在众多领域引领着科学和技术的发展。天体物理学作为基础学科之一,近年来被清华列为重点发展方向。高性能计算已经成为现代天体物理学发展和突破的重要工具。清华大学天体物理中心瞄准了早期宇宙、宇宙大尺度结构、星系形成和演化等几个热门研究方向,力图借助高性能计算在未来获得突破性成果。华为针对这一需求量身定制了专门解决方案,助力清华大学的天体物理学学科发展。
天文物理研究对计算平台的要求
天体物理研究试图回答以下一些问题:宇宙是如何产生和发展的、宇宙中的物质构成是什么、他们又是如何演化和相互作用的?除了观测和理论分析,大规模数值模拟成为当今天体物理研究的不可或缺的重要手段和工具。同时,各种巡天计划产生了海量数据,这些数据的存储、共享和分析也成了天文学发展的巨大挑战。
宇宙结构起源是天体物理的前沿问题之一。研究早期宇宙有两个重要工具,一个是宇宙微波背景辐射,另一个是来自宇宙早期的中性氢的辐射。对前者的研究硕果累累,获得了两个诺贝尔奖。相比之下,对宇宙早期中性氢的研究却刚刚起步,一方面是由于观测的困难,另一方面也是理论上的不足。目前,随着国际上一些大的观测设备的建立(比如平方公里阵列SKA),宇宙早期中性氢的观测将变成可能,但与此同时,对理论的需求约越来越迫切。
由于物理对象的复杂性,理论研究早已超出了一支笔和一张纸可以计算的范畴,而必须依赖大规模数值计算。针对中性氢这一热门研究方向,清华大学引进了专门人才进行数值模拟研究,将对宇宙早期的环境进行物理建模,获得有理论指导意义的先进成果。
综上所述,清华大学天体物理中心急需搭建一套高性能计算系统,该系统主要提供两种服务,一方面是大规模数值模拟及结果分析,另一方面将提供海量天文数据的存储、共享、数据分析和建模。这套系统的成功运行,预计会在未来几年内在这一领域产生高显示度的成就,使得清华大学在宇宙早期中性氢等相关研究领域获得国际的一流水平。
通过数值模拟得到的宇宙年龄在7亿年时的中性氢(绿色区域)、电离氢(橙色区域)和作为电离源的第一代星系(蓝色点)的分布图,此时宇宙中平均72%的氢呈电离态。三维模拟空间的边长是约合5亿光年,图示是二维截面。
高性能计算(High performance computing,缩写HPC) 指通常使用很多处理器(作为单个机器的一部分)或者某一集群中组织的几台计算机(作为单个计算资源操作)的计算系统和环境。HPC系统主要由计算、存储、网络、集群软件组成,其中的计算节点分为MPI节点(瘦节点)、胖节点、GPU加速节点。双路节点称为瘦节点,一般是2路服务器组成集群,胖节点配置大容量内存。胖节点主要是相对于普通的双路计算节点而言,按照目前的技术发展,所谓胖节点至少有4 颗物理CPU 以上,内存至少能扩展到512GB以上。胖节点内部一般采用NUMA 架构,所有CPU 能够全局共享系统内存,并保持cache 一致性。胖节点相比双路“瘦”节点,最大的优势在于单机的CPU 核数多、单机计算能力强,内存扩展能力强,另外,胖节点的本地磁盘IO 扩展和PCI-E 板卡扩展能力一般也比双路瘦节点高。
清华大学天体物理研究使用的共享内存并行程序虽然在单节点内并行的效率较高,但跨节点的并行较难实现。相比之下,路胖节点的CPU 核心数多,计算能力强,能够更好的实现共享内存并行程序的需求。通过对计算能力需求的评估,胖节点要具备16个CPU以上的扩展能力,内存至少要达到4TB以上,且必须是开放的、先进的架构,维护要简单。另外,由于系统基本会全时运行,所以要求系统具备超高的可靠性。同时,考虑到院系一般没有专人负责系统维护,所以希望能够提供专业的高性能计算服务,贴身运维保障。
华为联合华算为清华提供最尖端高性能计算系统
华为公司和上海华算为清华提供高性能计算联合解决方案,硬件平台采用华为KunLun开放架构小型机+新一代V3统一存储系统,华算提供软件安装和定制开发、HPC性能优化、运维保障等服务,两者强强联合完美解决了清华天文研究的需求。
华算信息科技有限公司(CHPC),坐落在中国上海,是专业的高性能计算和高性能存储应用解决方案及服务供应商,致力于为科技创新用户提供创新的高性能计算和存储解决方案及专业的IT服务,以帮助用户增强科研和生产业务的技术创新能力。CHPC提供高性能计算解决方案、高性能存储解决方案、创新的软件和专业服务。CHPC的解决方案和服务被科学、技术和商业用户广泛用于解决具有挑战性的数据密集型计算、复杂的数据管理和关键任务问题。业务遍及学术和教育、天气和气候、天文、生命科学、能源、航空航天、建筑设计、商业情报等行业。华算是华为公司在HPC领域的重要合作伙伴,在天文、生命科学等领域都有过很深入的合作。
该平台选择华为KunLun做为计算平台的胖节点,KunLun 开放架构小型机是华为公司推出的以Intel® Xeon® E7 4800/8800处理器为核心、华为自研芯片实现计算互连的x86架构系统,本期初始配置16个处理器共256个计算核心,4TB超大内存,最大可扩展至32个处理器,24TB内存。在这个配置下可以模拟宇宙大尺度的再电离过程(1024的三次方格点,边长3亿光年的立方体模拟空间)。由于华为KunLun使用共享内存的并行化方案,省去了集群运算中的信息传递时间,极大地提高了运算速度。
KunLun植根于开放生态、提供业界领先的高性能和高可靠特性。相比封闭架构小型机,KunLun在灵活性、互通性和经济性等方面具有显著优势,具有稳定可靠、极致性能和生态开放的特点:
l 稳定可靠
创新的RAS 2.0技术,业界唯一支持CPU和内存等核心部件在线更换,保障业务连续性。且KunLun可以基于对应用进程和部件工作状态的实时监控与分析并做出提前预警,对潜在的故障主动识别并及时隔离,达到99.9996%的超高可靠性,年理论计划外宕机时间小于3分钟,全面超越传统小型机,确保关键业务持续运行,为清华天文课题研究保驾护航。
l 极致性能
创新的NC互联芯片实现32颗CPU高速互联,性能相比传统小型机提升40%以上,在最新的SPEC整型和浮点计算能力的两项基准测试中,KunLun双双破纪录,拿下第一。提供硬分区技术,实现多分区特性,灵活满足业务所需,可靠性相比基于虚拟化软件实现的软分区提升5倍以上。
l 生态开放
华为KunLun开放架构小型机拥有目前业界最完整和最成熟的产业链生态环境,目前已通过主流数据库、中间件和OS厂商的兼容性认证,提供端到端解决方案。
此外,华为KunLun率先在业界采用8英寸触摸屏用于本地维护,图形化展现、完善的权限管理机制,轻松帮清华用户实现高效管理体验。
本次选择华为新一代OceanStor V3存储系统实现天文科研数据的统一存储,一套系统支持块、文件,承载多业务,初期配置180TB存储容量,性能和容量可弹性扩展,满足清华用户未来5到10年的业务增长需求;华为V3存储为用户提供最简单的管理平台,初始配置设备只需5步,40秒内即可完成,扩展容量仅需2步操作,15秒内即可完成;提供全局拓扑展示、容量分析、性能分析、故障定位和端到端业务可视等强大功能;用户可使用Pad、手机即时管理存储系统,系统状态信息自动送达,无需专人值守,完全满足清华用户对运维管理的强烈诉求。
华为&华算联合解决方案非常适合天文领域对高性能计算的需求,该系统的上线将为清华天文物理研究提供稳定、可靠、高效的高性能计算平台,并为平台的扩建、更新等提供全方位的服务。
结束语:华为的硬件是华为高性能计算的基石,华为具有多种可以运用于高性能计算的硬件,包括服务器、存储、网络等,通过集成业界专业的集群管理软件和并行计算环境,为客户提供一整套软硬件集成优化的高性能计算平台系统。华为以KunLun高性能服务器构建超级计算系统,自研的互联芯片可以实现单节点最高32路CPU互联和24TB内存容量,能够满足科研高校解决各类顶尖科研问题而带来的海量计算需求。