数据存储产业服务平台

Hadoop用户是否需要企业级存储?

DOSTOR存储在线 5月17日国际报道:NetApp和EMC都宣布他们正在关注和进入Apache Hadoop市场。Hadoop为许多Web 2.0的实施提供后端存储。虽然我理解Hadoop对这些存储厂商来说很有吸引力–毕竟,一个典型的Hadoop集群有数百GB的数据–但是我还不确定Hadoop用户需要企业级存储。

EMC的Greenplum事业部正在推出自己的Hadoop,包括一个全开源社群版本和一个加强型企业级版本。这些版本将以软件的形式推出,并可以安装在Greenplum HD Data Computing Appliance设备上,后者在JBOD(简单磁盘捆绑)设置下使用SATA驱动器。不过,由于它来自EMC,它肯定会比Supermicro服务器和新蛋西数驱动器来得更贵。

NetApp则致力于推广共享DAS(直连式存储)的概念,也就是通过SAS连接Engenio RAID(独立磁盘冗余阵列)–NetApp刚刚从LSI收购过来的Engenio(现在重命名为E系列)。NetApp正在推广面向Hadoop集群的E2600低端阵列。

Informatica首席执行官James Markarian在EMC World新闻发布厅上一语道出了关键。他说一些公司更愿意采纳Hadoop这样的新技术,只要他们可以从像EMC这样的可靠的供应商购买这些技术的话。

我个人则没这么肯定。要想获得Web 2.0架构的全部好处,用户必须判断好这些应用程序适用在哪里–采用全套的Web 2.0工具集和设计模式。Hadoop的Hadoop Distributed File System(HDFS:Hadoop分布式文件系统)可以在多个节点上分布数据,从而在节点故障的时候也不会损失数据或损失数据可用性。这样,Web 2.0站点的操作员就可以以非常低的单位GB成本利用由廉价节点(配置SATA JBOD)组成的大型集群来存储和处理他们的数据。

另一方面,企业级存储的设定更多的是基于“不能容忍故障”的模式而不是容错模式。企业级存储的控制器、驱动器、甚至驱动器机箱都被设计为拥有很长的平均故障间隔时间。当然,这种高的可靠性会带来更高的价格,因此你在Vplex(甚至是Clarrion)上的每GB成本要高于谷歌在MicroATX主板和SATA驱动器上所花的成本。

要理解企业模式与Web 2.0模式之间的区别,我们可以举个掷蛋团队测试的例子。这个测试的规则是,团队必须将10个鸡蛋从架子上方取下,保持鸡蛋的完好并交给炒蛋组。团队的成绩以成本、速度和原创性来衡量。

企业团队构建了一个升降器慢慢地将超市包装的鸡蛋降到四方格子里。Hadoop团队则是买了三十个鸡蛋和一堆泡沫包装,将每个鸡蛋装到泡沫包装里面,然后把鸡蛋从上面扔下来。只要三分之一的鸡蛋没破,Hadoop团队就算解决了这个问题,而且只花了30到40美元。相比之下,构建升降器的企业团队则需要花费数百美元。

我可以想象看到这一幕:一些应用组认为Hadoop可以帮助他们处理数据中心的大量数据。这个建议最终被提交给存储组,后者看到了这个建议的低成本优势–在存储人员看来–和低可靠性。他们说:“它应该放在我们的SAN(存储局域网)上,这样我们可以提供企业级应用程序所要求的99.999%的可靠性。”这个项目采用了Symetrix的存储,虽然这个系统工作得很好,但是用户没有看到预期中的成本节约,因为它们消耗了比他们所需要的存储高出数倍的存储。

未经允许不得转载:存储在线-存储专业媒体 » Hadoop用户是否需要企业级存储?