Cloudera 将Spark加入Hadoop

袁绍龙 发表于:14年02月07日 10:35 [原创] 存储在线

  • 分享:
[导读]近日,Cloudera正式宣布开始商业支持Apache Spark 机器学习和数据流处理环境。

Spark作为一个通用的并行计算框架,已经成为继Hadoop之后又一大热门开元项目,逐渐获得很多企业的支持。近日,Cloudera正式宣布开始商业支持Apache Spark 机器学习和数据流处理环境。

Spark内存计算框架适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性。而MapReduce处理框架则擅长复杂的批处理操作、登陆过滤、ETL(数据抽取、转换、加载)、网页索引等应用,MapReduce在低延迟业务上一直被人所诟病。

图一:Spark内存计算框架。 

“Spark记录着数据产生的每一个操作,能够可靠地将这些数据存储在内存之中,这使得它非常适用于第掩饰的计算和有效的迭代算法。”Cloudera表示。

据悉,Cloudera Enterprise Data Hub版本提供多种先进的组件的无限支持,如交互式SQL分析的Impala、交互式搜索、导航数据管理以及Hbase NoSQL。Enterprise Flex版本则提供可选择组件版本,Enterprise Basic版本则是仅仅提供Hadoop基础核心组件。

根据Cloudera介绍,Cloudera将会在两个版本中安装支持Spark组件。用户可以利用它作为Enterprise Flex版本中一个可选组件,或者作为Enterprise Data Hub版本中包含的组件。

 

图二:Spark On YARN 

据悉,该产品采用了Spark 0.9.0,Spark独立模式已经在Cloudera Enterprise Data Hub4.4.0中测试过。在不久的将来,Cloudera表示Enterprise 5.0和YARN中也将支持Spark。

延伸阅读:敢为人先 优酷土豆用Spark完善大数据分析

[责任编辑:袁绍龙]
袁绍龙
根据知名市场调研公司IDC公布的最新数据表明,2014年全球IT开支将增长4.6%,主要因为企业着手升级存储、服务器以及网络设备等IT基础设施。
官方微信
weixin
精彩专题更多
华为OceanStor V3系列存储系统是面向企业级应用的新一代统一存储产品。在功能、性能、效率、可靠性和易用性上都达到业界领先水平,很好的满足了大型数据库OLTP/OLAP、文件共享、云计算等各种应用下的数据存储需求。
12月15日,中国闪存联盟成立,同时IBM Flash System卓越中心正式启动
DOIT、DOSTOR、易会移动客户端播报中国存储峰会盛况。
 

公司简介 | 媒体优势 | 广告服务 | 客户寄语 | DOIT历程 | 诚聘英才 | 联系我们 | 会员注册 | 订阅中心

Copyright © 2013 DOIT Media, All rights Reserved.