曙光GPU集群管理全面护航中山大学
it168 发表于:12年09月25日 13:48 [转载] IT168
毗邻香港、澳门的广东,是改革开放的前沿阵地和重要枢纽。随着全国经济的加速发展,广东省迫切需要通过产业转型升级、转变经济增长方式,强化区域核心竞争力。而广东高校正起着“发动机”的关键作用, 中山大学计算科学科研团队与广东产业结合,提高广东IT产品创新力和产业竞争力,为政府与企业提供计算支持与咨询服务,将“广东制造”提升为“广东创造”。
GPU并行化测试应对多任务需求
中山大学计算科学科研团队以建立多核计算机上的高效能计算方法为研究方向,具体研究内容广泛,包括:
1、高性能与多核并行计算;
2、非平稳信号自适应数据分析及其在医学信号处理中的应用;
3、计算机断层重建新算法及其在医疗图像中的应用;
4、企业评估和风险预警的统计学习方法;
5、油气地震勘探巨量复杂数据处理的偏微分方程方法;
6、高维数据的超快速高精度傅立叶变换;
7、基于积分方程模型的高精度快速图像处理方法。
面对冗繁的七项需求,曙光高性能必须根据中山大学GPU集群自编程序、用户众多、应用广泛、需求各不相同的特色提出定制化的解决方案。
针对中山大学的GPU通用计算特点,曙光高性能解决方案小组分析得出,在上面所列的各种应用中,线性方程组的求解占据重要位置。为此,曙光公司针对稠密、稀疏线性方程作GPU并行化测试。稠密线性方程组在NVIDIA Tesla C2050 GPU下加速3倍;对稀疏线性方程组,与INTEL Xeon X5650 CPU相比,NVIDIA Tesla C2050 GPU能获得5-10倍的加速。根据测试结果,决定选用NVIDIA Tesla C2050 GPU。
兼具实用性与高性价比 曙光GPU集群管理全面护航中山大学
为了满足多用户多任务多应用的需求,并考虑到后续扩展性,曙光为该GPU集群作了特殊配置,有如下特色。
曙光拓扑结构图
集群 GPU 计算节点共配置 200 余块 NVIDIA Tesla C2050 GPU 卡,共提供 118.15Tflops 计算能力,助中山大学进入 2011 年中国高性能计算机性能 TOP100 排行榜。
曙光公司自主研发的Parastor并行文件系统,两个IO节点,对计算节点提供80G的IO带宽,可大大提升系统的IO性能。Parastor优势还包括: 基于对象存储,使存储更具智能化;对单个目录下的元数据操作进行优化;数据安全性,可选支持多副本方式,充分保护数据安全性;极佳的可扩展性。基于对象存储的体系结构使系统可以支持几万个客户节点,存储容量支持Petabytes级别;由于Parastor已经部署到多个不同规模大小的实际机群系统中,可满足商业和安全应用对正常运行时间的要求;支持多种主流的网络连接,包括TCP/IP,Myrinet,Infiniband,Qrandrics等;和曙光集群管理软件结合,对文件系统部署、文件系统管理、文件系统快速恢复提供良好支持。