DOSTOR存储在线 1月11日国际报道:随着Oracle宣布Big Data Appliance(大数据设备),Oracle联合创始人兼首席执行官Larry Ellison在去年10月回到了自己大数据路线,当时Oracle给人的印象是它将会推出自己的开源Apache Hadoop。结果不是这样。
实际上,Oracle今天披露该公司开发发售Hadoop堆栈(根据一个填充式大象玩具而起的名)。Oracle实际上与Cloudera签署了贴牌协议——Hadoop业内第一个也是最大的商业协议——将Cloudera作为Big Data Appliance的映射器和缩减器。尤其是,Big Data Appliance将采用CDH3版本的Cloudera构建的Hadoop以及Cloudera Manager 3.7插件——一个2011年11月发布的控制组件。
由于Oracle在核心Hadoop上使用CDH3,客户将不限于使用Oracle自己的NoSQL Database数据库关键值库,后者是基于Oracle收购的BerkeleyDB。以前,在去年秋天Oracle在OpenWorld大会上谈到Big Data Appliance的时候,NoSQL是Oracle唯一谈到的数据仓库。数据仓库技术副总裁Cetin Ozbutun告诉EI Reg说,如果Big Data Appliance客户不愿意在Oracle的Enterprise Linux上运行Oracle NoSQL的话(Oracle的RHEL-ish重实施),他们将可以在Hadoop Distributed File System(HDFS:Hadoop分布式文件系统)上存储数据。HDFS是Apache Hadoop堆栈的一部分。而且由于CDH3也包括HBase——针对HDFS的面向列的插件,根据谷歌的BigTable数据仓库进行模型化——如果用户的应用程序在HBase上运行得比在裸HDFS或Oracle NoSQL Database上更好的话,Oracle的客户也将可以使用HBase。Big Data Appliance使用Oracle的社群版本的NoSQL数据仓库和运行在Oracle Enterprise Linux之上的HotSpot Java虚拟机。
Oracle本来可以收购Apache Hadoop代码并推出自己的版本,比如,Oracle将Red Hat的Enterprise Linux纳入囊中,进行一些针对自己的软硬件堆栈的调整并保持与RHEL的兼容性。Ozbutun表示Oracle已经评估了这个方案并审视了来自Hortonworks和MapR的其他Hadoop版本。Hortonworks是雅虎团队分出来的公司,当他们在这个搜索引擎巨人内部工作的时候就在支持Hadoop。MapR是一家Hadoop商业化公司,将自己的软件贴牌给EMC的Greenplum数据设备事业部。
Ozbutun解释道:“我们确实考虑了许多不同方案,但是我们觉得最好的方法还是和Cloudera合作。Cloudera显然是这个领域的领导者,而我们则在其他互补的领域拥有自己的专业技能。”
当然,Oracle以前一直和Red Hat合作,然后它开始发售Red Hat支持的一个克隆版本,然后它决定做自己的版本并控制所有的钱和代码。从长期看,也有可能Oracle会收购Cloudera,购买另一个版本或退出自己的版本。Hadoop对于Oracle来说很重要,Oracle不可能不想办法拥有一部分:就是这么简单。
非混搭项目
关于Big Data Appliance,重要的一点是它是一个工程化系统,不仅仅是Oracle和Cloudera软件的混搭。Ozbutun表示Oracle花了数月时间调整那些运行数据算法的底层硬件的设置,调整了各种数据仓库以及那些让Oracle数据库和Hadoop数据仓库共享信息的插件。
Big Data Appliance是一个包含18个Sun Fire x86服务器节点的机架。这些节点每个都有两个六核Xeon x5675处理器,频率为3.06GHz。服务器最多可配置144GB的记忆体,不过这个特殊设施拥有48GB的主记忆体(或每个核4GB)。服务器的磁盘控制器有512MB的受电池支持的高速缓存记忆体和12个3TB 7200转SAS磁盘(3.5英寸,每个核一个)。这些服务器有2个40Gb/秒InfiniBand端口和4个Gb级以太网端口。机架拥有两个InfiniBand交换机,后者有32个QDR InfiniBand端口和8个10Gb/秒以太网端口——或者普通的设置是36个端口的QDR InfiniBand端口。(Oracle在芯片与交换机制造商Mellanox Technologies上有少数股份,在它自己的交换机中也使用Mellanox的芯片。)机架中还有另一个以太网交换机为Hadoop节点提供单独的管理网络。
Ozbutun表示Exadata数据库集群、Exalogic中间件集群以及现在的Big Data Appliance的主要关注点在于停止将注意力放在CPU上而应该将注意力放在如何拥有正确的系统I/O和网络带宽组合。许多客户过度配置CPU,而在 网络和I/O上则犯了过少配置的错误。这意味着他们虽然在硬件上花了很多钱,但是却没有让Hadoop运行得更好。Oracle花了数月时间设置并调整这 个系统,确保机架中没有不必要的配置,因为——和其他高性能计算客户一样——Hadoop的客户也很小气。
Big Data Appliance包含CDH3终身贴牌许可以及核心Oracle软件许可证,每个机架的价格是45万美元。这比全配置的Exadata要便宜得多,后者包含数据库服务器、Exadata存储阵列、Oracle 11g R2数据库和Real Application集群扩展,同时96核的Exadata X2-2价格是447万美元。这个价格里面的硬件成本是110万美元——只是用于比较。
连接器
除了Big Data Appliance以外,Oracle还推出一套连接器来连接Oracle数据库和Hadoop数据仓库。在去年10月,Oracle就在幻灯片上暗示了这一点,但是没有讨论具体的细节。
第一个连接器是Oracle Loader for Hadoop。它可以将数据从Oracle 11g R2数据库迁移到Hadoop数据仓库。有许多方法可以实现这个功能并,不过Ozbutun表示这个连接器的特点在于它专门针对大宗数据分区、转换,而其他工作则由Hadoop集群来做而不是由运行Oracle数据库的机器来做。
第二个连接器是Oracle Data Integrator for Hadoop。它是现有Data Integrator(数据整合器)工具上的一个功能,可以自动生成MapReduce代码来分析数据并将数据集呈给Oracle数据库。
第三个连接器是所谓的Direct Connection for HDFS。它基本上是HDFS文件系统的一部分,可以将数据映射为一个Oracle数据库表。
最后第四个连接器是所谓的R Connector for Hadoop。通过这个工具,Oracle确实已经消化了开源的R统计分析包并增加了优化的算法库来将其连接到Big Data Appliance堆栈的各种数据仓库。这个连接器并不是基于来自Revolution Analytics的Hadoop友好型R工具。
这四个Hadoop数据连接器的捆绑包的价格是每台服务器处理器2000美元。