数据存储产业服务平台

郭炜:大国、大数据、大时代

  2015年12月10日,由DOIT传媒、存储在线和易会联合主办的2015中国存储年度峰会在北京盛大开幕。作为中国存储界有影响力的年度行业盛会,峰会以“把握数据经济,重塑商业变革”为主题,吸引了上百位存储界的顶级学者专家、数百位产业精英和企业用户出席。

  由DOIT主办的中国存储峰会是中国存储产业界最为隆重的年度大会。十一年来紧贴存储产业发展,丰富地记录了存储产业在各个历史时期的变化发展,已成为存储学术界、产业界和企业用户不可错过的历史见证。

  联想研究院大数据总监郭炜发表了“大国、大数据、大时代”主题演讲。以下为演讲实录:


联想研究院大数据总监郭炜

  很荣幸今天跟大家分享联想在大数据方面的探索,分享大数据技术的发展趋势和我们观察到的一些现象。当然,也有一些联想自己的大数据的一些实践。最后我花一点时间给大家介绍一下联想现在自己做的大数据的一些一体方案。

  我先给大家讲讲现在我们对于大数据的一些认识。因为大数据的概念其实最近都炒的非常火,从最开始的一个阶段到现在已经经历了若干年。最开始的时候大家知道大数据来自于一个数据仓库的概念,2000年的时候大家开始做了。那时候我把大数据的阶段叫做大数据的1.0时代。主要来的都是企业内部的数据,包括现在很多企业自己说要建大数据平台,开始做的第一阶段这些事情,没有用到真的大数据用的非结构化数据、网络日志这些东西。

  2006-2010年之间,互联网开始蓬勃发展,这时候像BAT他们开始发展起来,我把它叫做Web2.0时代。大数据已经从原来过去企业里面自己拿的交易数据,现在像阿里、百度看到猜你喜欢,做一个搜索,其实它背后是基于大家在行为浏览的这些日志,我把它叫做Web2.0时代。

  现在这个阶段整个大数据偏向第三代,已经进入IOT和O2O时代,里面数据来源不仅仅是网络上面的点击流,真正变得人们在线下的行为轨迹流。现在很多智能WIFI,各种各样的厂商都在做。他是跟踪你,在你线下各种各样行为,把这个行为根据你的硬件信号传感信号给我,变换成他背后的行为轨迹。过去大家在鼠标点击大数据,现在变成行为轨迹大数据。现在还有很多各种各样的视频,音频,你的对话所有这些他的数据在这个时代里面算法可以传到你说的哪些话,你的线下行为轨迹是怎样的,这些变成新的大数据了。

  这里有一个例子给大家,第一个例子这是我的个人画像,Web个人画像你买了什么东西,线上浏览了什么,买哪些商品,浏览哪些网页。这些是我做的跟大家每一个线下轨迹的个人画像,里面是专门看电影的地方。其实这就是根据一个智能设备,把他的地面信号变成可解释的人员标签,再通过大数据算法把我自己在线下行为轨迹描述出来。同时再把我们其他的这些通过新的智能设备再画出来,发现又不一样。我经常跟我女朋友在一些店里买东西。大家看到这些行为轨迹的时候,已经不是过去大家只是在线上拿鼠标点出来的,真的是我在线下随着我逛每一个商店,在里面购物,做线下体验的时候他出来的东西。他其实有比较大的变化,我们真的把过去大家线上行为,现在能把大家线下行为捕捉、描述出来。整个趋势来看,能看到过去的时候我们大数据离消费者还是比较远,全都是数据采集一些数据,采集完了之后做报表和决策。到了Web2.0时代就是猜你喜欢,作为广告推荐。第三阶段就是跟消费者非常近,现在一些新的IOT的智能设备穿戴在身上,能给消费者提供此时此刻地你需要的东西是什么。整个数据业务影响来讲,是由弱变得越来越强,现在本身能产生新的业务出来。

  除了这三个时代之外,下一个时代是什么?我也不知道,等这些数据把你描述很清楚了之后,智能达到新的阶段的时候,可能真的变成智能设备告诉你什么事情,做一个反馈。这个是大数据和技术方案的结合,为什么这么说?有这样几个趋势,过去的时候大家知道第一阶段的大数据都是企业内部产生,内部产生的数据都是在所谓企业内网里面,这些放到云上还是有一点点担心。现在不一样了,现在所有智能设备都是从互联网采集,也可以存到互联网上。对很多企业,他的戒心来讲好一些。

  第二是提到数据挖掘,为什么把这个单独提出来?新的IOT时代,大家拿的数据流不是点击流,是硬件的信号流,怎么把这个信号流转化为有用的信息。有非常强大的数据挖掘算法支持,不是哪个企业都能有这样的比较完善的数据挖掘团队支持他这种挖掘的转换,一定需要专业团队。专业团队是他给每个企业做相关服务,数据挖掘服务提升已经不是每个企业自己能够完成,他需要第三方。同样也是开源平台,虽然现在各种各样都有,其实要真的想把一个开源软件用好,对每个企业来讲还是有门槛。对互联网企业来讲开源平台比较方便,每个企业自己建大平台,你要买软件,相关后期开发维护,招一些用大数据挖掘的人非常困难,不如把这些东西变成云的服务,放大云端,他把它的应用给你做一个相关的服务。你就可以不用去自己去招这样的人才,每个企业现在招聘这样的人很困难。大数据比较火热,过去大家知道数据相当大,不安全。可以把你的数据做一个处理、解压的过程,还有自然语言和爬虫。做各种各样的舆情,每个企业做舆情分析。云端有一个地方把相关网页爬好,你做好分析。

  因为大家都说过去在大数据3.0时代来临之前,企业内部有自己的数据孤岛,但其实等大家把自己企业内部数据孤岛打通之后,大家再看这个企业,对消费者来讲这个企业本身成为一个新的孤岛。他只了解消费者其中一部分的信息,他对消费者更好的推荐和帮助,他存在一个联盟和交换的过程。这样的过程,怎样去交换?他不能在自己的企业做交换,他只能第三方提供这样服务。由于这样几点,我认为大数据和云将来会有一个非常紧密的结合,这是我判断的一个技术的趋势。

  对于大数据来讲,开源还是非开源,经常有一些这样的讨论。我个人观点对于大数据来讲,这个要拥抱开源。对于大数据信息技术来讲,不断在发展。他自己没有一个定论说大数据今天就是过去的ORPP的数据一样,这样的东西就是最佳实践。可以适用于各种各样的场景,其实不是。过去两年做大数据一定要做Hadoop,这两年的时候大家一看多个社区增长没有那么快,成为一个企业标配。是不是要经过新的Sbace(音)呢,上面新的功能和插件用哪些?大数据本身的需求和业务没有确定性,如果一个企业没有用开源的组件做相关的东西,可能多则五年,少则两三年,离大数据的应用越来越远,有些业务无法开展。我的观点来看,拥抱开源是对大数据的整个技术框架和技术框架里面,是一个比较好的模式。

  往后看我会看到大数据能够分出好几个层次出来,我分四层次:第一是做技术服务,云化可以做成SaaS、IaaS平台。再往上开始做数据服务,不仅提供硬件,往上还有PaaS服务,大数据能够方便的采集、展示、处理、挖掘。有了这个平台之后上面还需要有一层,上面数据产生一些价值还是要做一些分析,有些做的比较好,基于这些数据都有,上面模型怎么把这个数据解决实际的问题,这个其实现在在国内这块恐怕也蛮大的。

  在网上真的是一个业务服务,真的帮助企业业务做营销。这里没提到互联网的企业,我把它放到这样的位置。这些企业像阿里就比较厉害,他从下到上几乎都有他的覆盖的区域,在咱们企业相关的合作商也能看到他在这块跟我们做合作。百度偏底层一些,他在底层存储、云化,大数据平台服务有一些。腾讯基本上是更偏上一些,他基本上在最终的营销和互动更多一些。这是我自己观察的大数据的格局和看法。

  这样的格局下,我看到另外一个趋势,这个和名字有点像。大国、大数据、大时代。中国在大数据国际化进程当中崛起,为什么这样讲?我举个例子,Hadoop大家知道,所谓大数据最开始先用Hadoop平台。这个社区里面,中国人在里面可能就5%到6%参与。刚才提到内存计算,基于Spark社区,大家再看里面贡献里面多一半都是中国人。这些趋势证明我们过去应约上面有所探索,真正底层技术上面中国还不如美国。现阶段不一样了,我们在国际化社区里面中国贡献者越来越多,随着华为、联想、BAT等等这些厂商的相关技术人员不断参与。中国在开源社区里面也是花钱越来越强。

  我昨天看到新的比较好的消息,在社区里面金牌项目已经出现了,我们核心技术国外领先,我们慢慢参与其中,下一个国际化火热的平台是中国领先,中国在整个国际化上大数据的声音更强。

  第二点我们和国际公司交流的时候,大家做工作分析的时候,整体大的分析方向上面,中国和国外企业的大数据分析的水平已经差不太多了。他会大方向的分析包括一些应用上的分析。具体深入到每一个数据是否能够追问,数据驱动你在管理上数据的理念没有美国这么强。大的方向和整个分析内容来讲,基本上已经成为和领头人的是同一个领域。

  第三点现在虽然说大数据的人才都是匮乏,每个公司都缺大数据人才。我们的观点来看,中国和美国相比,中国在投身大数据研发人员基数很大。举个例子我们在美国招相关的数据研发人员,可能招半年都很难招。中国肯定在这方面一定能找到人,美国在大数据方面基数人口不多,这方面细分的人更少。中国的人口优势的红利变成技术人口的红利,这方面来讲我觉得在中国也是一个在发展的过程。

  第四现在大家知道国家发布的包括国务院出的相关批文,促进大数据相关建设和创新,这方面有各种各样在大数据创新的野蛮生长的厂商非常多。大家在这方面创新,无形之中推动中国在大数据产业上面的提升。

  最后一点我提到现在中国其实有很多地方都是做大数据的技术输出,还不是中国的企业,都是硅谷的企业卖三四套都是美国卖出去的。这样来看,中国在未来大数据国际化的领域里面,他是越来越崛起,可能未来能够成为在这个领域里面,中国可能会成为领头羊。

  中国在大数据里面发展这么快,是不是很完整?我看到不是。中国在技术上还是做的不错,整个标准化和治理方面还是缺很大一部分。今天早上我们和一些专家聊的时候发现,很多企业现在提出要建大数据平台,我的理解他现在想做3.0的时候,他自己的数据还没做好。流程怎么样输入,数据从哪里来到哪里去。大数据来临的时候数据更多,那就更乱了。包括目前做的时候,我们看中国和美国的开放性来看,发现美国那边分不同的行业,不同的企业,整个规范度非常高。中国在这方面还是慢慢积累,大家看到我们国家的大数据平台,美国我们看到一个企业里面投诉能明晰到每一条投诉,中国还做不到,很多数据标准化的过程正在进行。我很高兴看到最近有很多在研究领域,包括学校里面开始开设数据标准研究方向。中国在这方面也能够很快的改善。

  最后一块,我现在也是跟大家提说大数据来干嘛。大数据已经变成3.0的时候,已经不是过去做相关推荐了。未来大数据最终出口就是这些智能硬件,也许是AR/VR+AI。真的他已经了解到你在线下各种各样的行为,观察到你所看到的东西。他已经非常理解你能干什么,最终通过他的AI的东西给你做一些新的东西的推荐。这是将来未来的大数据的出口的方向。

  后面我给大家讲讲联想在大数据方面探索,先讲讲联想自己怎么做探索。

  联想本身做一个全球的企业,他自己用整个大数据平台做客户为中心的转化。其实分了几个部分。在品牌感知这块,其实联想是用自然语言和大数据看现在监控全球7、8种不同的语言,监控上千个不同网站,对联想自己所有的设备,2C、2B的设备,有服务器,大家用的电脑、手机,这些他能看到究竟大家怎么评论联想自己的产品。这联想在内部给相关产品经理,我们对联想某一款产品的优点和缺点是什么,优点好在哪里,差在哪里。优点大家觉得屏幕好还是屏幕不好,好是因为大小好还是分辨率不好?分辨率太高还是太低。中国区这部分是来自各种各样电商网站,亚马逊、京东、淘宝、国美、1号店等等。这个如何如何,有一个评论。评论以后,通过自然语言技术,完全能够理解你的评论说的是什么,每句话究竟说了哪些东西,这是从品牌感知探讨。

  产品选择的时候,联想现在去门店的时候,有接近八千家门店用于智能化的设备。大家看到开机每个电脑上面投放广告都是个性化。这些东西能够引导大家在产品选择的时候作出相应的决策。还有电商网站都是什么样,做相关推荐等等,产品使用后面像摩托手机这个地方,有一些能够帮助大家出现问题的时候,帮你解决这些问题,后面也会详细介绍。

  服务的时候,我们会通过自然语言的大数据的方式,能知道我们这个用户投资热点在哪里?通过语音和文字的方式,用户关注什么,哪些帮助我们提升更好的下一代的东西。包括业务创新,我们看到技术论坛跑的最热的东西。下一块我们的摩托手机4核变8核,这是我们做的创新和探索。这个例子是摩托的例子,根据大家的使用手机的情况,把手机当成功能机,有当成办公,有人拿它当游戏机,这样能够让大家知道真的产品经理看到下一代我们手机怎么设计,展现出新的更有强大的手机。做成游戏型还是什么样的,帮助企业做一些相关的决策。这是线下门店,每一个门店的经营情况,客流情况,样机展出情况,现在在中国直接拿微信就可以做相关的管理,这是联想自己的一些内容。同时像内部IP管理的时候,联想从交换机上面拿到网络交换的数据流,联想全球内部IP网络交换的情况以及他实时能看到拥塞的时候究竟哪个店出现拥塞,拥塞是怎么产生?大家可以去参观。包括联想推荐的应用,大家知道联想有自己的推荐看什么样的影片,有一个比较高的概率。

  这里给大家分享一下未来互联网+下的大数据平台方向,易用性,像使用自来水一样的使用大数据。你把东西拖上去,不需要做太多的工作,就能把大数据做起来,能够降低整个企业使用大数据的门槛。

  第二通用性,大部分做大数据的企业过去是做BI,可以复用长期培养的BI人才与技术储备。

  第三是高效性,执行效率要非常高。联想有这样的套件,你装上去以后,整个后面不用关心这个数据怎么来,怎么存,怎么展现,他把底层到上层所有事情做好。高效的时候目前联想+,还有内存计算社区,非常高效的计算,把运维这块的部署和监控做出来。

  还有开放,我们参加了社区,有两个功能去也是用联想的社区的内容。后面我们也会一直持续不断的帮助社区不断提高他的东西,也会跟着社区一同往前发展。

  最后是扩展性,看到无论是外部数据还是交易数据,可以做一些相关分析。大家可以去我们展台做相应的了解。

  今天我给大家就介绍这么多,谢谢大家。

未经允许不得转载:存储在线-存储专业媒体 » 郭炜:大国、大数据、大时代