HPC China2013:高能物理大数据存储、处理及挖掘
袁绍龙 发表于:13年10月31日 00:54 [原创] 存储在线
2013年10月31日,桂林。HPC China 2013大会进入到第三天。在第三天的会议中,来自中国科学院高能物理研究所的研究员孙功星带来了主题为《从大数据到新发现--高能物理大数据存储、处理及挖掘》的主题报告。孙功星研究员认为在发现希格斯粒子这个过程中计算机的作用非常重要,计算机在未来的高能物理学中将继续发挥重要作用。另外,通过把Hadoop架构引入到高性能物理计算领域,将有助于大幅提升处理与分析的性能。
图一:中国科学院高能物理研究所的研究员孙功星发表演讲
图二:高能物理需要大量的计算资源,并且会产生大量的数据。
孙功星表示,在高能物理领域的大数据处理过程主要包括三个方面:首先是Data Recording,Raw Event从探测器获取,以二进制格式记录的探测器信号,再由计算机产生模拟实验的蒙特卡罗模拟数据,将物理信号数字化;然后是Data Processing,读出Raw/MC Raw,处理产生相关物理信息,如动量、对撞顶点等;最后就是Data Mining,由上千个属性组成的DST Event文件,提供物理学家进行分析,并最后产生物理结果。
图三:高能物理的数据处理过程。
图四:物理分析。
孙功星研究员表示,物理学家通过大数据处理三个过程,在里面找到有兴趣的数据。现在我们开始尝试采用Hadoop本地系统,采用Hadoop方案之后,对于网络、磁盘阵列的需求减少很多。当然在高能物理领域的Hadoop应用跟互联网有所不同,因此我们也有针对性,特别是在IO方面做了一些工作,以适用Hadoop架构。通过Lustre和Hadoop架构的对比,我们进行分析测试后发现,在处理性能和文件重建等方面都有着大幅的性能提升。过去传统的方式就是拿数据过来分析,扔掉不重要的数据,然后再拿数据进行分析,再扔掉不重要的数据,过程比较繁琐。通过Hadoop架构,我们将TAG数据放入到Hbase中,TAG数据则是非常小的,利用Hadoop的确是能大幅提升性能。
图五:在MapReduce下面运行C++
图六:测试对比结果。
图七:将TAG数据放入Hbase。
图八:测试性能结果。
最后,孙功星研究员认为高能物理领域是大数据、数据挖掘的技术,具有完善的数据挖掘软件。未来LHC升级将会产生几倍于现在的数据,给高能物理计算带来更多挑战,因此现在的趋势就是探索新型的计算机体系结构、高性能计算机结合的方案。