Hadoop处于这个十年的大数据革命的暴风眼。自从Hadoop在2008年作为Apache开源项目发布以来,它就一直让人备感兴奋,原因在于它结合了成本低、可扩展性佳以及无需构建预定义模式(predefined schema)就能灵活地处理任何数据等优点。许多人觉得,Hadoop有望带来全新一代的数据处理功能,就像结构化查询语言(SQL)30多年前在数据计算领域引发革命那样。
但是Hadoop不太成熟,在某些方面与SQL相比完全很原始、很粗陋。一些开路先锋已经投入至少六年的时间来开发Hadoop,其中大多数人在雅虎等互联网巨头开始接触这种框架。Hadoop取得的成功同时也促使主流市场对其稳定性、成熟的管理等更高的需求,包括SQL环境具有的那些丰富功能等等。
现在所有人寄希望于Hadoop厂商们开发出成熟可靠的工具、功能和技术创新。这个社区中有影响力的主要厂商包括Cloudera和亚马逊。 Cloudera是开山鼻祖,现在也是Hadoop软件的最主要来源,它拥有CDH发行版和配套的管理软件。它还是为Hadoop提供企业支持和培训服务的最大供应商。亚马逊很早就进入了这个领域,其亚马逊弹性MapReduce服务在公共云中运行Hadoop。
2011年,MapR和Hortonworks(后者从雅虎拆分出来)一下子备受瞩目,它们宣布了各自的Hadoop软件发行版,另外提供支持和培训服务;至于MapR,它还提供旨在提供高性能的专有版本。Hadoop要有所改进,竞争是一个方面,所以市面上出现更多版本以及新的支持和培训服务应该让每个人都受益。
数据处理是一回事,但是大多数Hadoop用户最终希望实现的是分析数据。这时候,像Datameer、Hadapt和Karmasphere这些专门针对Hadoop的数据访问、商业智能和分析工具厂商就闪亮登场了。
Hadoop迈向主流的标志是在2011年,它得到了五家主要的数据库和数据管理厂商的积极接受,EMC、IBM、Informatica、微软和甲骨文都纷纷进入Hadoop领域一较高下。IBM和EMC在去年发布了各自的发行版,后者还与MapR结为合作伙伴。微软和甲骨文则分别与 Hortonworks和Cloudera合作。EMC和甲骨文都发布了专门定制的硬件设备,随时可以运行Hadoop。Informatica扩展了其数据集成平台以支持Hadoop,现在它还将其解析代码和数据转换代码直接融入到环境中。不妨深入了解这些有影响力的厂商们在Hadoop方面有怎样的作为。
亚马逊将MapReduce作为服务来交付
亚马逊早在2009年就推出了亚马逊弹性MapReduce(Amazon Elastic MapReduce),绝非很晚进入Hadoop领域。所以说,亚马逊对Hadoop的需求和应用可谓了若指掌,无论用户是运行试点项目的新手,还是内部部署的预置型系统遇到需求过载时,利用弹性MapReduce来获取额外容量的专业人士。
弹性MapReduce是一项能够迅速扩展的Web服务,运行在亚马逊弹性计算云(Amazon EC2)和亚马逊简单存储服务(Amazon S3)上。这可是货真价实的云:面对数据密集型任务,比如互联网索引、数据挖掘、日志文件分析、机器学习、金融分析、科学模拟和生物信息学研究,用户需要多大容量,立即就能配置到多大容量。
除了数据处理外,用户还可以使用Karmasphere Analyst的基于服务的版本,Karmasphere Analyst是一种可视化工作区,用于在亚马逊弹性MapReduce上分析数据。Karmasphere提供了可视化工具,以便使用SQL及其他语言,针对在亚马逊S3、亚马逊弹性MapReduce作业流或本地文件系统上的结构化数据和非结构化数据,执行即席查询和分析。用户还可以提取结果文件,以便在数据库或者微软Excel或Tableau等工具中使用。
Cloudera力求Hadoop的企业安全性
作为历史最悠久、实力最强大的Hadoop软件和服务提供商,Cloudera公司自2008年以来就一直致力于将开源Apache Hadoop打造成一款供企业使用的可靠平台。这家公司有100多个客户,不过鉴于Cloudera最近与IT业界老大的数据库供应商甲骨文结为合作伙伴,今年其客户数量有望大幅增加。
Cloudera为其Apache Hadoop软件发行版增添了两个重要部分:一个是用于控制和管理Hadoop部署环境的Cloudera管理器控制台,另一个是企业级支持。 Cloudera管理器提供了基于向导的安装和配置菜单,以便部署Hadoop。另外,它还提供了一些工具,帮助系统管理人员监控平台的运行状况、诊断问题、优化性能,以及在配置和安全方面作出所需的变更。
Cloudera支持服务分每天8小时每周五天或每天24小时每周七天这两种,服务包括配置检查、问题逐级上报和解决、与第三方系统集成以及知识库、文章及其他技术资源。除了现有的这些服务外,还有培训和咨询服务。Cloudera 企业解决方案包括Hadoop软件发行版、Cloudera管理器及支持,标价为每年每个节点4000美元(不包括硬件)。
Datameer将商业智能运用到大数据上
Datameer公司宣称其Datameer分析解决方案(DAS)是一款面向Hadoop、针对企业用户的商业智能(BI)平台。但是DAS并不将Hadoop当作信息孤岛:它可以通过JDBC、Hive、HTTP或其他标准,连接到任何数据源。它包含了一个由向导驱动的集成平台,让用户可以安排调度负载,并且转换来自任何这些数据源的庞大的结构化、半结构化或非结构化数据集。然后,用户可以通过类似电子表格的DAS界面,运用180多项分析功能中的任何一项功能。企业用户可以获得拖放式报告和仪表板功能。DAS可以在私有云或公共云上运行,而且有一套代表性状态传输(REST)应用编程接口(API),用于数据导入和导出。
EMC提供单一的数据分析平台
EMC自称其EMC Greenplum统一分析平台(UAP)是一款单一软件平台,数据团队和分析团队可以在该平台上无缝地共享信息、协作分析,没必要在不同的孤岛上工作,或者在不同的孤岛之间转移数据。正因为如此,UAP包括ECM Greenplum关系数据库、EMC Greenplum HD Hadoop发行版和EMC Greenplum Chorus,而后者是一种协作式、类似社交网络的界面,可供数据分析团队处理,无论团队成员是有博士头衔的数据科学家、数据集成专家和商业智能分析员,还是数据库管理员和业务部门的用户及管理人员。
EMC为大数据开发的硬件是模块化的EMC数据计算设备(DCA),它能够在一个设备里面运行并扩展Greenplum关系数据库和 Greenplum HD节点。DCA提供了一个共享的指挥中心(Command Center)界面,让管理员可以监控、管理和配置Greenplum数据库和Hadoop系统性能及容量。UAP软件将数据访问、管理和工作流统一起来,并与其他数据源和数据处理方法联系起来;随着Hadoop平台日趋成熟,预计分析功能会急剧增加。
Hadapt统一关系数据库环境和Hadoop环境
Hive是在Hadoop上运行的Apache数据仓库组件,它一向以速度慢而出名。这时候,Hadapt上场了,它提供了一体化的分析环境,旨在对Hadoop里面的数据执行分析操作,还能对SQL环境中传统的结构化数据进行分析。Hadapt公司表示,通常采用的方法是使用由扩充型连接件联系起来的两个不同系统,但是这带来了延迟,因而导致这种方法显得很孤立。而Hadapt的平台设计成了可以在私有云或公共云环境上运行,提供了从一个环境就能访问所有数据的优点,所以除了MapReduce流程和大数据分析工具外,现有的基于SQL的工具也可以使用。Hadapt可以在Hadoop层和关系数据库层之间自动划分查询执行任务,提供了Hadapt所谓的优化环境,这种环境可以充分利用Hadoop的可扩展性和关系数据库技术的快速度。
Hortonworks发扬了雅虎的Hadoop传统
Hortonworks公司在2011年从雅虎拆分出来,凭借一支由近50人组成的核心团队(其中一些人是Hadoop社区最资深最多产的贡献者),办成了一家完全致力于推进这个开源平台的独立公司。Hortonworks的主管们坚称,这支雅虎团队开发了Hadoop平台背后的大部分代码,将在引领该平台的未来方面起到推动作用。
Hortonworks拉到的第一张重要的信任票(除了获得风险创新资金外)是在去年10月与微软结为合作伙伴;通过这种合作关系,Hortonworks将帮助微软开发与Windows兼容,同时恪守Apache开源项目原则的Hadoop版本。Hortonworks随后在去年11月推出了Hortonworks数据平台(HDP)v1,Hadoop平台的这个发行版不久将在2012年第一季度更新到v2版本,会加入最新的(0.23)Apache Hadoop版本。Hortonworks还提供Hadoop支持、培训和咨询,给Cloudera和MapR加大了竞争力度。
IBM提供BigInsights、BigSheets和BigCloud
仅仅几年前,IBM开始在其实验室尝试使用Hadoop,但是它在去年将相关产品和服务纳入到商业版,甲骨文和微软在其之后才宣布各自也将积极接受该平台。IBM在去年5月推出了InfoSphere BigInsights软件。该软件包包括Apache Hadoop发行版、面向MapReduce编程的Pig编程语言、针对IBM的DB2数据库的连接件以及IBM BigSheets,后者是一种基于浏览器的、使用电子表格隐喻(spreadsheet-metaphor)的界面,用于探究和分析Hadoop里面的数据。
IBM随后又在10月通过其智慧云企业(SmartCloud Enterprise)基础架构,将BigInsights和BigSheets作为一项服务来提供。这项服务分基础版和企业版;一大卖点就是客户不必购买支持性硬件,也不需要IT专门知识,就可以学习和试用大数据处理和分析功能。据IBM声称,客户用不了30分钟就能搭建起Hadoop集群,并将数据转移到集群里面,数据处理费用是每个集群每小时60美分起价。
Informatica走得更深入一步
许多数据集成和数据管理厂商(IBM、甲骨文、Syncsort和Talend)处理的是很明显的任务:让数据进出Hadoop。 Informatica公司在去年10月则更深入一步,当时它推出了HParser,这是一种针对Hadoop而优化的数据转换环境。据 Informatica声称,软件支持灵活高效地处理Hadoop里面的任何文件格式,为Hadoop开发人员提供了即开即用的解析功能,以便处理复杂而多样的数据源,包括日志、文档、二进制数据或层次式数据,以及众多行业标准格式(如银行业的NACHA、支付业的SWIFT、金融数据业的FIX和保险业的ACORD)。正如数据库内处理技术加快了各种分析方法,Informatica同样将解析代码添加到Hadoop里面,以便充分利用所有这些处理功能,不久会添加其他的数据处理代码。
Informatica旨在提供一款单一平台,希望能够借助统一的环境和方法,全面满足数据管理和数据集成方面的要求。这家公司的企业客户超过 4300个,它估计10%以上的客户正进入到大数据领域(大数据的容量超过100TB)。市场地位和技术创新使得Informatica成为值得关注的一家Hadoop专业厂商。
Karmasphere玩转Hadoop数据分析
来自传统商业智能领域的众多厂商(Jaspersoft、Pentaho、Tableau Software及其他公司)现在将其工具和技术对准了Hadoop这一数据源。但是自2010年以来,Karmasphere公司就一直在帮助数据专业人员挖掘和分析Hadoop里面的互联网、移动设备、传感器和社交媒体等数据。
Karmasphere提供了直接访问Hadoop里面结构化和非结构化数据的优点,它还可以运用SQL及其他语言,用于即席查询和进一步的分析。 Karmasphere Analyst是核心协作工作区,以便数据专业人员和数据分析员可以直接访问Hadoop里面的结构化和非结构化数据。使用SQL及其他语言,用户就能创建即席查询,然后处理结果。Karmasphere Studio为开发人员提供了一种图形化环境,可以在里面开发自定义算法,为应用程序和可重复的生产流程创建实用的数据集。 Karmasphere与Hadoop领域的多家知名厂商达成了合作关系,面向亚马逊弹性MapReduce的Karmasphere Analyst和Karmasphere Studio将相关工具运用到了这主要的基于云的MapReduce服务之一。
MapR Technologies声称性能更好
MapR公司在Hadoop领域显得有点特立独行,它提供了一款独特的发行版。它从开源Apache项目获取了该公司所需的组件,同时摈弃了它不喜欢的组件(特别是Hadoop分布式文件系统即HDFS,MapR认为这是单一故障点,并将它换成了基于Unix的网络文件系统)。
Cloudera和Hortonworks的这个竞争对手将其M5商业Hadoop发行版与支持、培训和咨询等服务(M3发行版是免费的,还与 Apache Hadoop百分之百兼容)结合起来。MapR与EMC结为了合作伙伴,EMC采用M5作为其EMC Greenplum HD企业版的基础。
Hadoop的最新(0.23)版本解决了MapR对Hadoop架构有抱怨的诸多地方,但是这并没有阻止这家公司继续将性能发挥到极致,声称提供的性能胜过传统的Hadoop发行版,而所需的硬件又只要一半。
微软进入这个市场
EMC、IBM和甲骨文在2011年都大力追捧Hadoop,于是微软也进入这个市场就不足为奇了。微软在去年推出了基于Azure云平台的测试版 Hadoop服务,今年它承诺会推出与Windows兼容的基于Hadoop的大数据解决方案(Big Data Solution),这是微软SQL Server 2012版本(首发日期还不知道)的一部分。
对于一款迄今为止在Linux上运行的开源平台来说,在Windows上运行无异于是项新本领。微软的版本会是免费、开源的吗?这方面还没有宣布,至于将来有没有基于第三方硬件的支持性设备,也没有任何动静,而微软与惠普及其他厂商合作开发了SQL Server并行数据仓库。
微软的主管们坚持认为,其发行版将“与Apache Hadoop核心保持一致、兼容。”考虑到微软与从雅虎拆分出来的Hadoop专业厂商Hortonworks合作,开发Hadoop软件发行版、向Hadoop社区重新捐献代码,这很可能是真的。
甲骨文走求大路线
今年1月发布的甲骨文大数据机(Oracle Big Data Appliance)将甲骨文-Sun分布式计算平台与Cloudera的Apache Hadoop发行版、Cloudera管理器管理控制台、R分析软件的开源发行版以及甲骨文NoSQL数据库结合起来。甲骨文还包括连接件,因而让数据能够在大数据机与甲骨文Exadata或传统的甲骨文数据库部署环境之间来回传送。
甲骨文为这套综合的软硬件“工程一体化系统”提供了一线支持;但是即使出现棘手的Hadoop难题,甲骨文也可以利用Cloudera的专长,它还可以介绍客户使用Cloudera的Hadoop培训和咨询服务。
如果喜欢,客户将来可以配置和使用大数据机捆绑软件。它可能是清一色的Hadoop、清一色的NoSQL或者在同一平台上两种节点对半分。该设备将完全通过全机架(full-rack)配置来提供,每个机架配备864GB主内存、216个处理器核心、648TB原始磁盘存储容量,以及节点之间每秒 40千兆的InifiniBand内部连接。软硬件总计售价将达到45万美元,每年还要收取12%的软硬件支持费。这个价格颇具竞争力,相当于每TB不到 700美元。