大数据创新峰会:数据——新的企业资产
Hebrews 发表于:12年11月29日 10:55 [原创] 存储在线
举一个例子,购物,前面几位老总的讲话当中多次提到电商,自己不太花时间在这上面,但是我太太是一个忠实的淘宝粉丝,有一天我就看她,我就想到一个 问题,目前在网上购物的人从消费行为的模式来看,他有一个特别大的不同是什么?我们在淘宝上买东西,你最后决定买和不买这样东西一个最关键因素当中的一点 是什么?看评论、看评价,你肯定会花很多的时间看卖家、电商的信用评价、服务评价、货物与描述是不是一致,你都在看别人的评价,这跟你传统意义上去一个百 货公司看到很多的商品你最后做决定应该买还是不应该买的时候,你可能最多会打电话给自己的亲人,问1、2个人,很多时候你连这都不问,很多时候你是基于自 己的感知,基于售货员对你的影响,然后你之前对这东西的了解,然后你就决定了。这样的一种变化就使得,我们IBM也是一家厂家,我们最关心的东西是这个东 西在最后他想要买的时候,最后对他产生影响最大的因素是什么?如果说在网上购物最大的影响因素之一是别的买家的体验,那我们作为厂家肯定对这个体验是非常 感兴趣的,当然在中国出现一些不好的现象,我们有水军,那就是另外一个话题了。那你怎么去感知它?对我们的技术、软件、硬件、对信息处理的速度、量都发生 了非常大的变化。
想跟大家分享这张图,就是说信息的量在接下来的3-5量会呈指数型的速度往上增,而且其性质也会变化。到2015年,我们觉得数据可能是现在的24 倍,在全球我们现在所拥有的信息量,90%是在过去2、3年中产生的,到2015年信息增加的那部分中,占最大的比例的一是从物联网、各式各样的传感器上 产生的新数据,二是社交网络,还有一部分是语音的数据,这当中又提出一些新的挑战。
这个新的挑战是什么呢?大我们就不用说了。其二是速度,我们不单数据大,现在还有一个新的趋势,数据不是成批量的来到我们面前,而是呈流的状态过来 的,像水一样一直往你这流,我们现在又提出了时时性的要求,你要时时的处理、分析,回过头来你还要对企业的制造、业务产生影响。给大家举一个例子,我每个 季度都要去台湾拜访台积电,全球最大的半导体晶体的生产商,我总要去的原因是因为他们是我一个非常大的客户。他们的生产线晶体的制造每一秒钟或者说每一个 晶体的产生都在加大生产线上的误差,它这个误差是累计的,当累计到一定程度之后,你再继续生产出来的晶体首先是废品,之后是次品,那这个时间概念是什么 呢?15分钟,所以它的15分钟是一个自动调优的过程,它一直在分析出来的误差是什么,然后通过自我的分析把误差调回来,这样它能够保证它生产出来的晶体 的质量,对他来说,这个数据处理的时间超过15分钟就等于没有处理、没有信息,因为晚于15分钟之后出来的已经是次品,没有用了。对流量数据的处理时时性 的要求是另外一个大数据的处理的挑战。
多样性,结构性数据、非数据性,这么多非结构化数据进来以后,跟传统业务系统当中产生的关系性数据之间是什么样的关系?它们是不是共存的关系?从业务的角度是不是需要融合它、整合它,这都是技术上崭新的挑战。
真实性,我们最近经常谈到的一个概念叫含金量,在企业里面过去的很多年里,企业数据的含金量是很高的,很高的意思是说一个企业存下来的数据都是经过 思考的,我要存什么数据,这个数据存了以后是干什么的,我用什么来分析它,这都是预先想好的,所以留下来的数据都是有用的,含金量很高。我们现在回过头来 看淘宝、阿里巴巴,当他对淘宝平台上面、天猫平台上面用户购物体验感兴趣的时候,他所要存的是各式各样非结构化数据,这之中有很多是没有用的,所以你要大 海捞针一样的找到你所要的东西,这就产生一个新的效果,数据的含金量急剧下降,怎么应对这个挑战,这本身对硬件、软件处理的能力、速度提出了崭新的挑战。