由中国计算机学会主办、CCF大数据专家委员会承办HBTC2012Hadoop与大数据技术大会于11月30日在北京举行。 Gartner公司的数据中心研究部的首席分析师张瑾先生就大数据对数据中心架构的新挑战做了主题演讲。
Gartner研究表明对于企业来说,大数据对他们既是挑战也是机遇。
首先是挑战,从大数据的定义来说,大数据是用传统的技术方法无法解决的数据问题。所以说大数据首先是一个大问题,比如说数据的增长量的问题,一个比较重要的重点是我们发现实际上传统的应用也有很多数据方面的问题,大数据问题不单单是我们常常说的互联网、多媒体等新的数据,有很多的数据是企业的传统应用因为数据量的增长,现有的IT架构也慢慢地不能满足要求了。也就是说大数据一半是新的业务,也有一半是解决传统业务的性能问题。企业的角度来看管理数据的成本也是促使大家采用大数据新的解决方案的原因之一。
大数据新的应用和传统的应用有什么不同的?张瑾认为这是一个补充而不是替换。另外,大数据最主要的问题之一是多种数据的混合体,也就是说它不再是说像传统的能够事先预知数据的格式和形态,数据交互的手段、协议。实际上很多的数据甚至于不是由企业本身所拥有的,而是由外界所提供的,所以说这些数据是多种数据的混合体,这是一个很严重的问题。
另外,对企业应用来说,实际上企业到现在为止还不是很习惯于采用开源的解决方案,也就是说绝大部分的企业在大数据上的研究的瓶颈是,商用的版本不够丰富,支持还不够完善,这对企业应用来说是一个挑战和机遇并存的状态。今天的几个议题、大数据的特征以及能提供到的新的技术和新的产品以及企业应用的状况是什么样的?
首先看一下大数据的定义,我们所说的大数据是传统的架构、传统的技术无法解决的数据的问题。但我想在这里特别指出的是,因为大数据的名字有“大”,所以很多人把重点集中在了数据的容量上,也就是大家都认为数据量是最大的问题。实际上大数据除了数据量还有很多的问题,大数据会把信息管理的各项需求都推向极致。最下面的这一层是大数据基本的问题,提到了大的大数据量以及多样性和高速,也就是传统的3V的概念。另外我加上了有关复杂性,复杂性包括了空间维、时间维等多种数据的复杂性。所以说这些问题实际上是大数据解决方案首先应该考虑的出发点。
目前人们对Hadoop的重要的观察,对Hadoop的关键字进行了搜索,近年来的增长是非常迅速的。对Hadoop的兴趣一直是来源于金融业的,但如果我们把Hadoop进行行业分布的统计的话,会发现实际上虽然金融业仍然是最大的一块,但有很多其他行业都对Hadoop产生了兴趣。也就是说对Hadoop的市场潜力应该说我们不单单地认为是金融业,除了金融业以外应该说跨很多的行业都有可能对技术产生新的购买力。
厂商在哪里?现在厂商还是处于相对初级的阶段,有很多新兴的公司可以提供Hadoop的发行版本,包括。很多的存储厂商对Hadoop产生了严重的兴趣,我提到了NetApp等的解决方案,这些解决方案很大程度上是说把已经有的技术针对Hadoop或者是针对大数据的应用做了一定的定制化。所以说你很难说它是专门针对Hadoop或者是针对大数据的应用来开发的解决方案,应该说更多的是一些定制化。所以说,这些市场、这些产品和技术仍然处于一个刚刚开始的状态。
大数据和云的关系未来的融合将是重大的趋势。云和大数据是互为因果的关系,没有云很多大数据就不存在,没有大数据很多云的价值是难以体现的。所以这两个技术是相辅相成的关系。另外现在我们也看到了一些基于云的Hadoop的应用,包括了MapReduce的应用。
最开始听到大数据的问题是有关数据备份和数据保护方面的问题。大数据在颠覆着所有的数据保护的手段,这是一个非常现实的问题。这么大的容量传统的数据保护的方法根本不能运行。但是,如果真正仔细地看一下大数据本身,实际上有很多的大数据是不能备份的,90%的大数据都是不需要备份的。因为大数据本身的价值不是在大数据里面的,因为大数据提炼出价值之后很有可能的后台数据就没有必要再继续保留了。有很多大数据的解决方案在架构设计上已经充分地考虑了硬件容错的问题,所以很多的大数据系统实际上现在都是再一个没有备份的前提下在做运行。
另外是包括了数据访问、安全、隐私、法规、归档,对数据管理来说一些非常重要的甚至于可以说是非常致命的一些需求,到现在仍然没有足够的解决方案,我们也是希望未来无论是厂商也好、用户也好能够重点看一下有关数据管理的问题,因为这将会是大数据解决方案中的一个可能最薄弱的环节了。
因为在大数据的时代,数据的来源本身是多样性的,数据的格式甚至是无法管理的,因为有很多的数据是来自于企业的外部,来自于互联网的提供商。这种情况下数据的共享协议是一个很严重的问题,到底如何把这些协议自动化地拿到数据仓库里面来。另外是有关热点数据,在大数据的时代也是跟传统的数据管理有了非常明显的差别。传统的数据管理会把单独的时间点作为一个热点数据,这是传统的数据管理里面基本的假设,但是在大数据的时代,我们觉得实际上热点数据首先有可能性并行多个热点数据在您的系统里面。同时,这些热点数据本身之间实际上是有可能有联系的。因为各种事件的相互触发所以很有可能这些热点数据同时出现,而且是相互关联的,甚至于有可能是可以预测的。所以说在大数据时代,热点数据的管理也是一个重要的话题。
更长远来讲有很多新的商机可以出现,英国的客户考虑采用的一种新的基于大数据的模型,希望当一个顾客走到用户的时候,首先是告诉客户走进商店,比如说他拿起了一瓶洗发水,在货架里停留了十秒钟,通过之前的购买习惯知道这个用户是不是从前没有买过这个牌子。如果没有买过这个牌子,实际上对这个产品有兴趣了,可以及时地发送短信到手机上,凭这条短信可以在产品上得到10%的优惠。这样的技术实际上可以大大地提高商店的价值,也可以提升厂商推广新产品的效率。但你可以预想到,里面实际上包含了很多基于大数据的技术,比如说移动的定位系统,包括了CCTV人脸识别和数据库,还可以非常迅速地能在10秒内把数据发送出来,可以对数据的计算和传输速度有非常高的要求的。如果能实现这些,对很多的企业都是有非常重要的意义的。但想实现这个功能,我们坐在这里说和想实际上是很容易的,但有很多的技术壁垒必须要突破才能实现。
所以我们认为到现在为止有很多新的形态可以出现。现在有哪些技术,我提到了大数据IT架构的基本的特征,首先必须是横向扩展的,因为是单点的技术无法承受大数据的要求,既然把性能通过横向扩展的架构实现了,有没有必要在每个节点上花费太多的钱。另外它的高可用是通过软件设计和架构的设计来实现的,而不是通过传统的高性能、高可用性的、高短的硬件设备来实现的。另外架构是不共享的,避免资源的征用和仲裁。所以一定会是这样一个基本的架构的特征。现在的架构的技术应该说离大规模的商用和普及是有很大的距离的。
另外现在的应用状况,首先Web的应用把技术可行性进行了充分的论证,但在普遍的传统行业还是在非常小规模的实验性的应用的状况下,我也和业界的很多的企业沟通过,包括银行业、电信业、能源都有一些小规模的应用,实际上应该说不算是应用,更多像是一个演习,他们也在积累着相应的技术,业界关注的重点还是在技术实现上。这对人员和流程管理的关注上还不够,这将会产生严重的问题是有关人才短缺,盖特纳今年刚刚发布了一个预测,就是我们认为到2015年将会产生1万个数据科学的职位。但实际商业街只能满足1/3。也就是说在大数据的应用方面,人才短缺将是非常现实而急迫的问题。我非常高兴今天有这么多人,相信各位是下一代的大数据的新贵。这是非常好的职业发展的方向。
对企业的建议首先是应该迅速接受大数据的概念,不单单是从解决现有的IT的问题的角度,更多的应该从未来的新的利润增长点和新的竞争点的角度,应该采用非常积极的态度。另外是避免进入厂商的炒作,要对此有警惕性。同时,需要在实施的阶段确定每一步的投资规模和设立里程碑,最终希望了解这些不成熟性必然会带来一部分的失误和风险的可能性,所以应对此有所被。从IT部门的角度来看,数据的价值应该说是由业务部门来产生的,所以必须要充分了解业务的需求。另外来说,根据这些需求新的大数据的需求重新规划加厚并对预算做准备,同时业务部门内实际上也是需要做相应的技术准备。