Hadoop、分布式数据库、分布式关系数据库、PDM(并行数据挖掘)、SE(搜索引擎)、ELT、R、可视化、深度学习……,看到这一系列的术语,估计你猜出来了,这是要谈大数据了。这就是大数据给我的印象。
对于大数据,如果你有机会面对大数据教父,《大数据时代》作者Viktor Mayer Schonberger教授,你会问什么问题呢?今天我有幸采访了Viktor先生,当我知道这个机会的时候,我就一直在想:问一个什么问题呢?
对此,我和大数据专业人士也就行了交流,目前大家最关注的还是数据变现,也就是如何让大数据创造价值?所谓数据经济,这也是我们去年CIO峰会的主题。
数据创造价值
记者:数据如何变现?当我把这个问题抛给Viktor教授的时候,教授沉吟了半晌。教授表示这是一个非常重要的问题,因此需要认真的思考一下。
Viktor:在小数据的时代,我们只是用数据来回答我们已经有的问题。在大数据,大数据用于我们不知道问题、不知道领域。例如在线购物,有很多的大数据创新应用。但大数据应该用于其他更多领域,比如说移动、健康医疗、教育学习等。以汽车为例,对于普通人来说还是一个很贵的商品,但在汽车使用上,其使用率只有4%,其余96%时间是闲置的,并没有得到充分的利用。借助的大数据的方法,我们可以充分利用汽车的价值。如此一来,就可以减少30%的道路和停车场的规划,我们可以有更多的土地空间用于植树、建造公园,改善生活的质量,这才是大数据的真正价值。
另外一个更加激动人心的例子是教育。教育小孩子是一件充满了挑战的事情。如今,我们的教育是千人一面的,可以说是一成不变的,但实际上,每个小孩子的需求是不同的。大数据可以帮助我们做到个性化,追求针对每个人最好的效果。
从工业化到知识经济,对于全世界、对于中国都是一样的,只有大数据应用,才能够最终推动知识经济的进步和发展。
记者反思:Viktor说的其实比较简单,非常好理解。但个性化教育也好,智能交通也好,大数据应用的效果还没有怎么看出来,原因何在?是没有想到?还是技术问题?这是要思考的。
对于汽车资源有效利用。Uber、滴滴其实发挥了很好的作用,但也引发了“黑车合法化”的争论。实际上,Viktor给出了这个问题的新思路。
记者:怎么看中国大数据应用水平?
Viktor:中国跟其他各国之间区别就在数据的量上,中国人口众多,拥有全世界最多、最大的数据,所以最大的区别在于数据量上。
中国数据量大到何种程度?这超出了我的预料。几个月之前,我来中国和一家用大数据做食物派送的企业交流,问到数据量,他们说不大,每天只有100万的规模,这还不是最大的。(上帝啊,:))
记者反思:其实,Viktor没有评价中国大数据应用的现状和水平。其实,每个人对此都有一个评价,应该说,水平不高。什么原因呢?技术上,观念上,还是数据共享水平,要思考的其实很多。
数据隐私和保护
数据隐私是我非常关注的,甚至是有点较真儿(参见:全国首例“被遗忘权”案,选错了被告吗?以及“政府监控应有限度!”为什么比尔·盖茨先生这样说?以及美国人隐私,有苹果,有微软,中国呢?)。我没有办法独霸采访,非常好的是,其他记者朋友问到了类似的话题。
记者:如果把数据比喻为石油,石油是有国界的,那么数据也有国界吗?
Viktor:这个其实每一个社会、每一个国家都是有数据的,甚至小的团体,我们都是有数据的。现在问题不是大家没有数据,而是这个国家也好,这个组织也好,是不是真正的愿意把这个数据用来做事情,真正用大数据做决策的,来帮助这个事情。
大数据涉及储存、分享等,但关键在于把这个大数据真正用起来,真正能够促进经济、促进社会发展。举个例子说,现在所有车都有ABS系统,都配有GPS,如果我们把这两种数据放在一起进行分析,在那些路段上,大部分人都在紧急刹车?为什么会有这种情况出现,是车的问题,路的问题,还是控制的问题,总之,数据交叉稽核,会给我们带来新的启示。
记者:我们浏览网页、查询信息,这都属于大数据,怎么看待个人在大数据时代的隐私呢?政府管理部门应该做些什么呢?
Viktor:这个一个好问题,现在数据隐私保护的方法完全是错误的。现在的做法是询问每一个客户、个人,你同意不同意公开数据,实际上,每个个体并都不知道我的数据会被怎样使用,有一些人对此并不在意,往往会点同意。这是一种错误的隐私保护的做法。
对于数据的隐私保护,可以考虑反过来的做法,可以考虑由政府设立一个规则:确定哪些企业为了哪些目的,可以以某种方式和规则来收集数据和使用,例如医疗数据,目的是治疗病人,这样的大数据收集和使用就是合理的,可以不更多顾及隐私。但是如果利用这些数据作恶,例如帮助保险公司创造保单,那是不合法的。政府应该制定措施做好隐私保护,不把这个问题扔给个人。
记者反思:精彩!高屋建瓴!为什么我没有想到这个办法!大师说的很对,我们能够做到吗?希望,今后这不是个问题。
记者:你觉得现在中国隐私保护失控了吗?
Viktor:你问这个太中国化了。我可以告诉你欧洲国家不知道他们要干嘛。
记者反思:何必问大师,这不是秃子头上的狮子吗?既然我们知道,何必劳驾大师呢?我们的自信在哪里?
记者:有一个观点认为:做大数据的都是的骗子,对此,您怎么看的?
Viktor:没有。我没有听过有人这么讲,因为没有上下文,不知道所谓骗子的真正意思。但是,大数据很热,市场存在炒作和噱头,有些企业并不是做大数据,但也借机炒作,这样的事情是存在的。所以,大数据并不是骗子,而是有些人没有诚实说这个事。
揭秘大数据时代
记者:您写的《大数据时代》,我个人觉得给IT产业吹来一股春风,您已经写了好几本书了,当时写《大数据时代》的时候,您初衷是什么呢?目前是否实现了你当时心目中的设计?
Viktor:现在就是揭秘大数据时代的时间了。10年之前,我每年都办一个非常小型聚会,是一个相当高层的聚会,有微软的高层,有一些政客、经济学家、学术界专家聚在一起,讨论数据社会价值。当时有一个记者,每年据此出一个报告,有关讨论的内容。我感觉一年一年讨论过程中,有一些东西在哪里,可以真的能感觉到的,但是没有一个准确的名字,两年之后,我确定这就是数据价值,所以决定写一本书。
一定要看到这个数据深层次的价值,所谓的价值就是我们提到的数据的相关性。这是大数据的根本。大数据应用的过程可以用“旅程”来描述,我们运用数据、事实分析做更好的决策,这些都是基于事实的,不是基于主观的判断。所谓“旅程”,意味着反反复复,有前进也会有后退。
希望有更多人用数据,用事实,用大数据方法辅助思考,用到讨论,这都是有意义的。我一直强调这个是一个旅程,在这个旅程中,我们不断往前,但是有时候也要后退一两步。
记者:大数据作用是预测,现在能做到准确的预测吗?
Viktor:至少比用其他的东西好的多的。现在大数据不是百分之百准的,但是我们现在要的东西,比我们有的东西更好。
记者:未来大数据趋势是什么?
Viktor:大数据未来的趋势是怎么样让每个人使用大数据,而不只是用专业的大数据公司。透露一下,也许这是未来新书的内容。