近日,国际标准化测试机构TPC公布了大数据处理性能TPCx-BB SF3000的最新排名,阿里云自主研发的神龙大数据加速引擎以2187.42 BBQpm的成绩刷新了世界纪录,领先第二名达40%以上。
TPCx-BB是由国际标准化测试权威组织(TPC)发布的基于零售业场景构建的端到端大数据测试基准,支持主流分布式大数据处理引擎,模拟了整个线上与线下业务流程,有30个查询语句,涉及到描述性过程型查询、数据挖掘以及机器学习的算法。
此次,阿里云参赛的是自研的神龙大数据加速引擎MRACC(ApasaraCompute MapReduce Accelerator)。MRACC针对大数据常用组件,如Spark、Hadoop、Alluxio等,结合自研神龙架构的特性,进行软硬一体化优化,形成独一无二的性能优势,最终,使复杂SQL查询场景性能相比社区版spark提升2-3倍,使用eRDMA加速Spark性能提升30%。
具体来说,针对大数据任务重IO特性,阿里云MRACC在网络和存储方面结合云上的架构优势进行软硬件加速,包括软件的SQL引擎优化,使用缓存、文件裁剪、索引等优化手段,并尝试将压缩等运算卸载到异构器件;还使用eRDMA进行网络加速,将shuffle阶段的数据交换运行在eRDMA网络,使得延时降低、CPU利用率大幅提升。
据悉,TPCx-BB的测试结果,可以全面准确的反映端到端的大数据系统的整体运行性能,涵盖了结构化、半结构化和非结构化数据,能够从客户实际场景角度更全面的评估大数据系统软硬件性能、性价比、服务和功耗等各个方面,对各行业的基础设施选型有着重要参考意义。