数据存储产业服务平台

EMC在Isilon上整合Hadoop大数据产品

DOSTOR存储在线 2月1日国际报道:EMC在大数据分析上下了大赌注。该公司将Hadoop文件系统整合到它的Isilon向外扩展产品,并让Greenplum分析产品可以使用Hadoop数据。

Hadoop是一个对象类型的分布式可扩展开源文件系统(HDFS),可以被实施在一个集群的数据节点和单个命名节点上,在更大的集群上用一个二级命名节点来快照主命名节点的数据结构并用作主命名节点故障时的重建来源。命名节点包含了存储在数据节点上的文件的元数据。

HDFS如今在大学中很流行,尤其是在生命科学系,同时在一些Web 2.0应用程序上也很流行。EMC认为命名节点是故障发生的单点并且没有高可用性因而限制了HDFS在企业数据中心中的使用。该公司认为如果HDFS可以在企业意义上使用并由普通存储管理员来管理的话,那么向企业数据中心提供针对大数据分析的Hadoop系统是一个很好的机会。这就是为什么EMC现在为Greenplum HD分析前端提供整合的Isilon-HDFS存储后端的缘故。

随着Isilon OneFS v6.5的发布,EMC已经在提供一站式Apache Hadoop解决方案以及它认为在Hadoop领域中缺乏的一些要素:

共享的而不是专用的存储架构;

命名节点的高可用性;

通过快照(SnapshotIQ)、复制(SyncIQ)和备份(NDMP、备份)所提供的保护功能;

改善的存储效率,从30%多的基本HDFS数据镜像到80%的水平;

分别扩展计算和容量的能力;

通过NDS、CIFS(通用互联网文件系统)、FTP和HTTP实现的自动的数据导入/导出;

Isilon的产品管理总监Nick Kirsch说到命名节点的实施:“这是独一无二的。命名节点现在是我们的分布式元数据的一部分。每个节点现在都是一个命名节点。”

Greenplum已经认证了Apache Hadoop,提供了平台管理和控制以及Greenplum数据库的并行分析访问。EMC同时还提供设计和培训服务,全球24×7服务以及一个开发路线图。

EMC的方法与Oracle和NetApp的不同。EMC表示,Oracle和NetApp都不能在它们的存储阵列上整合Hadoop;不能提供命名节点的高可用性,同样水平的存储效率,多协议访问以及企业水平的保护功能。

Purdue大学已经在它的统计系尝试使用Isilon和Hadoop的组合并且对它赞不绝口,表示现在没有必要实施单独的Hadoop数据孤岛,同时它的用户现在“有了一个单一的共享的数据计算和分析存储资源”。它的统计分析师们可以进行更多的统计工作,花更少的时间在Hadoop架构管理上。

EMC表示这些新增的功能将使Hadoop更易于为企业所使用,同时企业Hadoop用户将会寻找更多的数据科学家来统计分析它们的大数据集以便获取有意义的有价值的信息。毕竟,在茫茫数据中找到有价值的信息就是大数据的意义所在。

用户现在就可以通过EMC及其它的渠道合作伙伴获得Isilon上的EMC Greenplum HD。

未经允许不得转载:存储在线-存储专业媒体 » EMC在Isilon上整合Hadoop大数据产品