忽如一夜春风来,大数据的桃花朵朵开。如今是一个人人谈大数据的时代,就又形成了一个内行看门道、外行看热闹的场景。正如普通人会问:大数据和我有什么关系?殊不知,多少年抱怨与朱迅的消费者真正成为上帝的诉求,已经因大数据梦想照进现实。
百分点大数据学院第一期,白富美的数据科学总监杜晓梦直播首秀,用数据决策力道出此种原委。
百分点数据科学总监杜晓梦直播大数据布道
消费者真正成为上帝是大数据的价值
近日,世界最长寿老人119岁辞世。其即使不会高兴于比他人多看到过几代政治变迁,也会因撑到如今多样化的时代,而比起其同时代的人多有几分骄傲。而如今多样化的时代,大数据正是背后的支撑。
很多时候,我们经常听到会即将到来的数据洪流,即使杜晓梦在向大家介绍中,也愿意用那个到2020年全世界数据量会有40ZB的数据。因为这个数据的求证,似乎已经变得司空见惯、信手拈来。
例如,杜晓梦提到了和普通消费者更为紧密的消费途径。各种类型的信用卡、各种类型的购买渠道、各种来源的购买决策,更多样的生活方式诞生出了前所未有的数据量。无论是朋友圈的吐槽、或是跨国的海淘,影响消费的因素层出不穷。
为此,我们看到企业不得不重视这些变化,只希望all in one的那种服务方式早已遭淘汰,需要尽早地将这种变化纳入自己的经营体系。例如,很多CRM不得不转型SCRM,让社交属性指引自己的客户关系管理。
结果是,消费者在微博或朋友圈上的一个抱怨,远超315的一个电话管用。
以消费者为核心的整个商业生态也在因大数据的使用而变得不一样,正如即使零零后也能见证一次工业革命到来。杜晓梦认为,这次工业革命最为显而易见的就是智能制造了。例如,机器学习、人工智能等概念已经在很多车企开了花,或是G20峰会那里各国领导人喜欢看的无人操作工厂。
所以说,以前我们总会抱怨商场门口横幅的那个“消费者是上帝”的虚伪。而如今,商家不得不用更加贴近个性化、更加前沿的服务来迎合我们的需求。
用好数据比扯“用心服务”更靠谱
如今,各地的政务服务窗口都在强化走“群众路线”,各商家的宣传彩页也少了哪些”我们用心服务“的口号宣传。越来越多的企业明白了,充分挖掘用户数据,坐实服务,这样赢得竞争来得更靠谱。
在百分点,管这叫“数据决策力”。说得更通俗点,就是以前我们经营靠拍大腿、拍脑袋办的那些拿不准的事情,如今要依靠数据来决断了。至于这种力量,BAT们的风光很能说明问题。例如,亚马逊的体量已经可以决定其上游供应商的战略调整了。
“数据决策力就是企业基于数据的科学决策并产生价值。”杜晓梦讲。“而懂得运用数据决策力的企业典型特征就是全员数据决策和价值链的创新。例如,每一个部门都在使用数据 ,此前决策的表达从’我想’、’我感觉’成为’我依据’、’我凭借’等等。应为有了数据驱动帮助企业进行决策 、预测等。”
杜晓梦,仅以金融机构为例,其对大数据的运用已经需要对其运营、营销、风控的支持。而这或许不是其来自竞争对手的内部威胁,大数据手段把金融技术带到前台,例如互联网金融对于传统金融格局的洗牌。
为此我们看到,支付宝、微信等没用“用心服务”一夕之间却收获了传统金融机构数十年难以俘获的拥趸,甚至凭借初创企业的身份堂而皇之的成为国名经济的量化指标。
新旧之间,大数据技术缔造的价值已不容忽视。
触手可及的大数据,却如玫瑰有些刺手
伴随着人们对于大数据的认识,也崛起了一批帮助企业运用大数据技术的服务企业,百分点也在此列。他们有着资本市场近两年异乎寻常的热捧,也不得不让诸如Gartner这类龙头分析机构的重点关注,其背后正是市场需求的不断高涨。
樱桃好吃,树难栽;大数据技术忽悠容易,落地难。例如,杜晓梦就谈到如今大数据技术重要难题就是如何摆平企业数据的多元异构性,“市场开放几十年了,IT信息化的倡导也十年了,很多企业有数据不是难题,但是如何把积累的各个IT系统的数据整合起来、挖掘出价值就是关键的问题了。”
其实,杜晓梦如此铺垫就是想接下来谈谈百分点的数据决策力评估模型。笔者对此不愿置评,毕竟这模型的运用更多是个“橘生淮南则为橘,生于淮北则为枳”的问题,有一定的随机性。
不过,随之而来的问题似乎更为棘手,即在这种热情的数据崇拜中如何发现其中的泡沫。我们越发相信大数据中存储在更为科学的预测指导,但外媒也报道称辨别预测真假也成为数据科学家面临的一大挑战。这也成为笔者跳出杜晓梦介绍其数据决策力评估模型的理由。
近日,有外媒发文《Don’t Be a Big Data Snooper》,指出数据科学家常常使用基于相关性的二级模型来精确预测结果。但在使用这些模型时,必须小心谨慎,以免沦为数据迁就偏差(data snooping bias)的受害者。数据迁就是指在并不反映真实世界的数据中寻找模式。
文中指出,1994年,罗闻全在他的论文《金融分析的数据迁就偏差》中写到:“只要分析的时间够久、尝试的次数够多和想象力足够丰富,就能从任何数据集中梳理出几乎任何模式。有些情况下,这类伪模式属于统计学上的小概率事件,单独来看几乎不可见。但由于金融计算上的微小影响常常导致投资表现上的巨大差异,因此数据迁就偏差可能产生格外惊人的影响。”
数据分析公司Intensity的创始人兼首席执行官瑞安·沙利文(Ryan Sullivan)指出:“在处理大数据时,我们有大量的数据有待评估,而且可以把它们输入各种各样的模型。但我们需要通过某种方法来纠正我们在寻找预测因子时自然而然出现的偏差,让我们能够确定它到底是不是真正的预测因子。”
显然,大数据市场的狂热对于推动市场应用的前进表现了好的一面,对于模型的检验还要有赖于数据迁就偏差的关注。
好的是,杜晓梦也提到了好的大数据应用模型也需要对于数据不断地更迭,不断地注重业务重构与应用重构。