日前,在德国法兰克福会展中心举行的2018国际超算大会(ISC18)上,浪潮分享了面向第三代基因测序组装软件的高性能计算系统优化方案。浪潮的FALCON优化方案使得关键步骤计算性能提升了20%左右,而浪潮并行优化的MECAT相比原单机版本获得了近10倍的性能提升,优异的性能表现引发了国际同行的极大关注。
ISC现场,浪潮AI&HPC Dr.朱红分享第三代基因测序计算优化方案
二代测序和三代测序都属于高通量测序技术,测序数据产出量很大,需要结合高性能计算技术来进行后续的测序数据处理。相较于二代测序技术,以单分子测序技术为代表的三代基因测序带来了更长的测序读长,这使得对更加复杂的物种如各种农作物和植物等的基因研究成为可能,但是相对更高的测序错误率(~15%)需要进行数据纠错,又对高性能计算带来了新的挑战。三代基因测序组装这类应用对于系统的计算性能、网络和磁盘等方案都有很高的要求。很多用户在通常的高性能计算平台来处理测序数据时,性能都不理想。
目前,由Pacbio公司开发的FALCON及中国的中山大学开发的MECAT是第三代基因测序组装领域的两款主流软件。FALCON由于把测序数据(raw data)切割成KB级别的卷来进行纠错,因而需要频繁的磁盘I/O,所以在计算过程中,磁盘I/O经常会成为系统瓶颈。浪潮专家优化FALCON软件的底层参数,优化了软件架构,降低了系统对于硬件I/O依赖,下图为处理同一测试用例时,优化前后磁盘I/O强度对比。
优化FALCON前后磁盘I/O强度对比
优化完成后,FALCON软件的核心部分性能提升了20%,而且软件的集群扩展性也有明显提升。
优化后FALCON核心部分性能提升20%
针对MECAT软件,浪潮完成了该软件从单机环境向集群环境的并行优化工作。经测试,新部署的经过浪潮并行优化的集群版本在12个节点上运行时,可以把人类全基因组组装时间从200多个小时缩短到不足24小时,相比原单节点版本获得近10倍的加速比,这表明集群版本的扩展线性度非常好。下图是MECAT组装过程中各个环节的用时对比:
MECAT组装过程各环节用时对比