HBTC2012:Hadoop的现在和将来
Hebrews 发表于:12年12月03日 08:47 [原创] 存储在线
由中国计算机学会主办、CCF大数据专家委员会承办HBTC2012Hadoop与大数据技术大会于11月30日在北京举行。本届大会以大数据共享与开放技术为主题,设置了Hadoop生态系统、大数据行业应用、大数据共享平台与应用以及大数据的技术挑战和发展趋势等五个分论坛。大会就大数据技术生态系统的现状和发展趋势进行探讨,并围绕Hadoop与大数据热点技术和应用实践进行深入解析。
雅虎北京全球研发中心朱金生先生在大会30日下午发表了精彩的演讲。演讲主要涉及Hadoop的现状我会简单地介绍一下Hadoop的进展以及Hadoop在未来的发展,尤其是在高性能计算方面、HPC方面以及Hadoop和HPC之间怎么样互相影响两个方面。
朱金生提到雅虎的使命有三点:首先是怎么能够让检查邮件、共享文件信息、照片或者是邮件等,怎么能够让大家的活动变得越来越有趣。第二,这些日常的习惯怎么能够从基于网站转换到基于移动设备。所以在雅虎上我们认为自己是全面的移动技术的供应商。另外,除了雅虎提供的资产还有内容,我们如何为客户提供更好的服务,而且找到合适的方式提高用户的体验。第三,雅虎广告业。雅虎怎么能提供计算广告和数码的合作伙伴,雅虎怎么能更好地服务。这一点是非常重要的。Hadoop是雅虎的核心所在,所以你每在门户上点击一下都会通过Hadoop知道,Hadoop的云端部署也是全球最大的。他想强调了雅虎在Hadoop社区的定位,完全开放地拥抱这个社区,同时支持Hadoop的工作,除了站之外还包括核心。另外,雅虎也会最好地支持整个的社区,更好地利用高性能计算。
就云端而言雅虎每个月有10亿访问量,7亿的常规的用户,但一定要需要建立一个架构,这个架构处理数据一定要效率高,包括了线下的以及线上的搜索,这个规模是巨大的。怎么把这个核心拓展,这也是和计算相关的问题,雅虎也看到的确是存在问题,但雅虎也会提供解决方案,这样的解决方案是我们可以遇到的,这样的问题我们每天都会遇到。最后是怎么能找到一个最好的社区比如说我们不仅仅为Hadoop做贡献,同时也有继续在未来努力做进一步贡献的项目。所以完全欢迎开源社区,同时Hadoop会继续作出承诺,而且在未来看到会有更多的可能性。
所以这些是比较有趣的数字,现在雅虎有42000个节点,在全球生产的最大的服务器就是Hadoop的部署。另外,我们也要推出一些新的版本看问题存在于哪儿,同时来增加数据的价值。在研究里面有各方面的创新,在各个阶段集群中都会有一些研究,所以这个工作流是这样的,开发者先进行研究之后进行数据分析找到一个模型,最后会做口袋测试之后进行完全的推出,这是整个的流程,现在我们的集群大概还是有4万多个节点,接下来还希望再增加一万个节点。这些都是用户的数字每天有300多个增加,基本上是1000万个jobs/h。所以大家在互联网行业对此都比较熟悉,Hadoop能做什么。雅虎用Hadoop做搜索和行为分析。Hadoop在雅虎中是无处不在的,这是由于搜索的,雅虎有很多的E-mail用户,Hadoop可以帮助雅虎更好地使用避免网络钓鱼和垃圾邮件。
雅虎怎么能提供更有效而且更个性化的体验,不仅仅是内容也包括了广告无论是个人还是社会客户的体验来说都是非常相关的,比如说电视、网站或者说是平板电脑或者是在手机上都是如此。
这更多是关于Hadoop未来架构的介绍了,有怎样潜在的工作负载。今天谈到的是HPC,朱金生用案例来比较一下Hadoop计算的差异。我们现在有这样的趋势,这样的趋势都知道存在海量的数据,而且数据量在不断地增加。所以,数据基本上是每18个月就以成倍的速度增加,我们怎么处理这些数据呢?尤其是很多的数据是通过各个设备来搜集起来的。所以Hadoop是有非常好的生态系统的,因为有很多的企业或者是公司都对Hadoop开始逐渐地产生了兴趣。所以说,现在是非常好的生态环境。从雅虎的定位角度来说,我们也是希望能够作出贡献,而且我们也希望能够投入之后有回报,所以这是一个互惠的投入和产出。另外我们也希望整个行业也是从中获益,雅虎也可以从中获益。
另外关于和线下批量的工作流或者是工作负荷相比而言,我们也看到越来越多的数学或者是战略性的工作流和负荷越来越多了,因此我们可以做更为精确、更为数据分析型的用户行为的分析,所以我也看到了在未来,会看到越来越多的计算密集型的负荷会出现。HPC的角度也是如此的,他们也完全拥抱在Hadoop的高性能计算。所以有的时候会存在困惑,采用拓展还是另外一种方式,所以这也是很多企业目前在面临的问题,不管是基于网络的企业还是说基于普通的企业都是如此。