日前,中科曙光亮相2015中国大数据技术大会,曙光公司大数据总经理宋怀明、曙光公司大数据研发经理郭庆接受记者采访,就曙光在大数据领域取得的最新进展发表了自己的意见。
曙光公司大数据总经理宋怀明(右一)、曙光公司大数据研发经理郭庆(左一)
内存计算聚焦大数据发展热点
数据是科技领域飞速发展的产物,而大数据正在开启一次重大的时代转型。随着计算机技术和网络技术的快速发展,如今,半结构化、非结构化数据大量涌现,数据的产生已经不受时间和空间的控制。为此,数据的处理需要向着更为高级、智能的方向迈进,大数据处理与高层计算模式的混合成为业界的发展热点。
随着应用互联的开展,传统孤立的数据处理模式变得难以为继,大数据技术的推广将数据处理变成更为综合、全面的混合技术。由于企业对数据关注已经从存储转向更为深入的查询、分析、价值挖掘,企业的数据处理方式得到了更为为深入的运用。例如企业每天不仅要接收大量的流式数据,将其作为历史数据保存后还要利用各种数据库进行查询分析。为了获得更加有效的BI能力,基于机器学习的深度数据挖掘分析成为必须,这就要求大数据处理系统可以提供线下批处理计算模式以及复杂机器学习算法的迭代计算模式。
为了提高各种计算模式处理大数据时的计算性能,大数据处理技术正在倾向依靠于内存计算模式混合,实现高实时性的大数据查询和计算分析。尤其在《国家高技术研究发展计划(863计划)》中,明确提出了“面向大数据的内存计算关键技术与系统”的创新要求,其中包括异构混合内存体系结构研究与开发、内存计算系统软件研究与开发、基于内存计算的并行处理系统研究与开发、基于内存计算的数据管理系统研究与开发四项。
宋怀明介绍,其本人也主持了863的内存计算课题,也联合了一些高校和科研院所一起合作,参与到内存计算中。基于对Spark的研究,中科曙光不仅有了自主研发的内存计算模块,内存计算技术的发展也是紧密关注的。
Hadoop的技术的大量落地
除了内存计算,Hadoop的诞生和所构建成的生态系统给也在大数据的存储、处理和分析利于占据了更为有利的位置。Google、Yahoo!、微软、亚马逊以及BAT等国内外互联网巨头都是Hadoop的拥趸。为此,Hadoop技术早已在曙光立足。“曙光造在2011年成立了Hadoop的研发团队,如今曙光Hadoop已经发展到第三版。” 宋怀明介绍。
郭庆具体介绍了曙光在Hadoop利用方面的情况。“Hadoop的技术发展前期是以离线计算、批处理计算为主,这几年MapReduce开始用于日志的处理,HBase用检索数据库进行查询。已经从实验走向生产系统,曙光参与的项目里都有落地的案例,而且大的规模已经到PB级。”
曙光公司通过XData大数据一体机、XData-Hadoop 大数据处理软件等自主可控的创新产品,从数据收集、数据存储、数据分析、数据应用等方面构建了完整的大数据生态。
即使有完善的大数据解决方案,但曙光公司并不想做到事事亲为。“曙光的专注点就在于数据的存储和处理,市场化主要是跟广大的应有厂商合作,通过标准的数据访问接口支撑多个行业应用开发,推动行业应用落地。” 宋怀明介绍。