EMC今天宣布Hadoop Data Computing Appliance(DCA)设备中增加了一项新功能,允许用户将非结构化与结构化数据分析平台结合起来。
EMC还公布了Greenplum Analytics Workbench——一个针对Apache Hadoop软件集成测试的1000节点测试台。
该测试台为Hadoop开源社区提供了测试资源以快速识别错误、稳定新版本以及优化硬件配置,努力加快Hadoop的创新。所有测试和结果都将返回至Apache Software Foundation和开源社区。EMC的测试将与Apache Hadoop项目相协调。
在Greenplum设备产品方面EMC推出了Modular Data Computing Appliance,允许用户将一个大规模并行处理关系数据库与企业级Apache Hadoop结合到一个统一的设备中,以实现结构化与非结构化数据的处理。
Greenplum在去年10月推出Data Computing Appliance,今年5月发布了一个升级版本DCA,其中包括一款Hadoop设备。
Greenplum HD (Hadoop) DCA构建于英特尔x86服务器之上,采用Greenplum(EMC在去年收购)所搭建的结构化数据库与Apache开源版本的Hadoop。该设备的旧版本是基于Sun Fire x64服务器的。
据EMC数据计算部门产品副总裁、Greenplum共同创始人Scott Yara表示,管理员可以并行地从Greenplum读写文件至HDFS(Hadoop File System),实现快速数据共享。使用Greenplum SQL和高级分析功能在HDFS上读取数据,可以进行跨平台的分析。
新的Modular DCA通过SAS Institute的In-Memory Analytics软件形式,增加了高性能计算模块,可服务于结构化数据(例如数据库)和非结构化数据。
Yara表示:“主要挑战是,它可以利用服务器内存,通过使用来自SAS Institute的业务分析软件执行并行处理。我们希望提供提供一种类似于乐高积木构建块的架构。”
通过使用In-Memory Analytics软件,结构化和非结构化数据可以存在于多个x86主机上,其目的是允许用户在一个集群配置的每个服务器节点的内存上执行计算。
Yara表示:“这款设备的强大之处在于它并行地执行所有这些复杂问题。”新的Modular DCA正在进行产品测试,预计将在今年年底供货。