什么是“大数据”?这当然是一个带有文化基因和营销理念的词汇,但同时也反映了科技领域中正在发展中的趋势,这种趋势为理解这个世界和作出决策的新方法开启了一扇大门。
根据科技研究公司IDC作出的估测,数据一直都在以每年50%的速度增长,换而言之,也就是每两年就增长一倍。这不是简单的数据增多的问题,而是全新的问题。举例来说,在当今全球范围内的工业设备、汽车、电子仪表和装运箱中,都有着无数的数字传感器,这些传感器能测量和交流位置、运动、震动、温度和湿度等数据,甚至还能测量空气中的化学变化。
将这些交流传感器与计算智能连接起来,那么你就会看到所谓的“物联网”(Internet of Things)或“工业互联网”(Industrial Internet)。在信息获取的问题上取得进步也是促进“大数据”趋势发展的原因之一。举例来说,政府数据——聘用数据及其他信息——一直都在稳步地向网络转移。在2009年中,美国政府通过启动Data.gov网站的方式进一步开放了数据的大门,这个网站向公众提供各种各样的政府数据。
数据不仅仅是正在变得更加可用,同时也正在变得更加容易被计算机所理解。“大数据”发展趋势中所增加的大部分数据都是在自然环境下产生的,比如说网络言论、图片和视频等不受控制的东西,以及来自于传感器的数据等。这些是所谓的“非结构化数据”,通常不能为传统的数据库所用。
但是,旨在从互联网时代非结构化数据的庞大“宝藏”中获得知识和洞察力的计算机工具正在迅速发展中。在这种工具发展的最前沿是迅速取得进步的人工智能(AI)技术,比如说自然语言处理、模式识别和机器学习等。
这些人工智能技术能应用于许多领域。举例来说,谷歌的搜索和广告业务及其实验中的机器人(19.360,0.69,3.70%)汽车都利用了很多的人工智能技术。在加利福尼亚州的公路上,谷歌的机器人汽车已经跑了数千英里的路。谷歌的这两项业务都让“大数据”时代的挑战却步,它们对数量庞大的数据进行分析,并作出瞬时的决策。
反过来,大量的新数据也正在加快计算领域的进步,这是“大数据”时代中的一个良性循环。举例来说,机器学习算法能基于数据来进行学习,数据越多机器就能学到越多。以苹果在去年秋天推出的iPhohne手机Siri语音助理服务为例,这个应用的源头可回溯至五角大楼的一个研究项目,该项目随后被分离出来,成为了一家硅谷创业公司。苹果在2010年收购了Siri,并继续向其提供更多数据。时至今日,在人们提供成百上千万条问题的环境下,Siri正在变成一种日益熟练的个人助理,能向用户提供提醒服务、天气预报、餐饮建议和对大量问题作出解答等服务。
麻省理工学院斯隆管理学院的经济学教授埃里克-布吕诺尔夫松(Erik Brynjolfsson)称,如果想要理解“大数据”的潜在影响力,那么可以看看显微镜的例子。显微镜是在四个世纪以前发明的,能让人们看到以前从来都无法看到的事物并对其进行测量——在细胞的层面上。显微镜是测量领域中的一场革命。
吕诺尔夫松解释称,数据测量就相当于是现代版的显微镜。举个例子,谷歌搜索、Facebook帖子和Twitter消息使得对人们行为和情绪的细节化测量成为可能。
吕诺尔夫松进一步指出,在商业、经济及其他领域中,决策行为将日益基于数据和分析而作出,而并非基于经验和直觉。“我们能开始变得远为科学化。”他这样说道。
有很多的轶事证据表明,数据至上的思考方式将带来很高的回报。其中,最著名的例子仍旧是迈克尔-刘易斯(Michael Lewis)在2003年出版的《点球成金》(Moneyball)一书,这本书记录了低预算的奥克兰运动家队是如何利用经过分析的数据和晦涩难解的棒球统计学来找到被评价过低的棒球手的。在布拉德-皮特(Brad Pitt)主演的电影版《点球成金》去年被搬上银幕以前,深度的数据分析就不仅已经成为棒球领域中的标准,而且在英国足球联赛等其他体育项目中也是如此。
沃尔玛(WMT)和Kohl’s等零售商也已经开始对销售额、定价以及经济学、人口统计学和天气数据进行分析,藉此在特定的连锁店中选择合适的上架 产品,并基于这些分析来判定商品减价的时机。UPS等货运公司也正在对卡车交货时间和交通模式等相关数据进行分析,以此对其运输路线进行微调。
Match.com等交友网站也经常会仔细查看其网站上列出的个人特征、回应和交流信息,用来改进其算法,从而为想要约会的男女提供更好的配对。在 全美范围内,以纽约市为首的警方部门也正在使用计算机化的地图以及对历史性逮捕模式、发薪日、体育项目、降雨天气和假日等变量进行分析,从而试图对最可能 发生罪案的“热点”地区作出预测,并预先在这些地区部署警力。
吕诺尔夫松及其两名同僚在去年发表研究报告称,数据指导下的管理活动正在美国企业界中蔓延开来,而且这种管理活动正开始获得回报。这三名学者对 179家大型公司进行了研究,发现那些采用“数据驱动型决策”模式的公司能将其生产力提高5%到6%,这种生产力的提高是很难用其他因素来解释的。
在公共卫生、经济发展和经济预测等领域中,“大数据”的预见能力正在被开发中,而且已经崭露头角。研究者发现,曾有一次他们发现“流感症状”和“流感治疗”等词汇在谷歌上的搜索查询量增加;而在几个星期以后,到某个地区医院急诊室就诊的流感病人数量就有所增加(还需要指出的是,医院急诊室发布报告的时间通常要比病人就诊的时间晚上两个星期左右)。
联合国已经推出了名为“全球脉动”(Global Pulse)的新项目,希望利用“大数据”来促进全球经济发展。联合国将进行所谓的“情绪分析”,使用自然语言解密软件来对社交网站和文本消息中的信息作出分析,用来帮助预测某个给定地区的失业率、支出削减或是疾病爆发等现象,其目标在于利用数字化的早期预警信号来提前指导援助项目,以阻止某个地区重新陷入贫困等困境。
在经济预测领域中,已经有研究表明,与不动产经济学家所作出的预测相比,谷歌上住房相关搜索查询量的增加或减少的趋势能更加准确地预测未来一个季度中的住房市场走势。美联储及其他机构已经注意到这一点。在去年7月份,美国国家经济研究局(National Bureau of Economic Research)主持召开了一次研讨会,此次会议所讨论的内容是“大数据时代的机会”及其对经济领域的影响。
“大数据”还已经令针对社交网络运作方式的研究发生了变化。在20世纪60年代,哈佛大学的斯坦利-米尔格拉姆(Stanley Milgram)利用包裹作为研究媒介,进行了一项与社交网络相关的著名实验。他将包裹寄往美国中西部地区的志愿者,指导他们如何将包裹带给波士顿的陌生人,但不能直接交付;参与实验者如果想要通过邮寄方式来交付包裹,那么目标对象就是能是他们认识的人。结果表明,一个包裹换手的平均次数相当之低,仅为6 次左右。这是对所谓“小世界现象”的经典阐释,据此形成了“六度分隔”(six degrees of separation)的流行词汇。
时至今日,社交网络研究的内容涉及如何采集庞大的数字化数据集合,用来阐释网络上的集体化行为。这种研究的结果表明,你认识但不经常联系的人——在社会学中被称为“微弱联系”(weak ties)——是职务空缺小道消息的最佳来源,原因是与关系亲密的朋友相比,这些人在略有不同的社交世界中穿行,因此能看到你和你最好的朋友们所无法看到的机会。
在有关某个主题的交流中,研究学者们还能看到其影响模式和高峰——举例来说,可以通过追踪Twitter上的趋势标签的方式来达成这个目标。对于数量庞大的用户人群来说,Twitter这个在线“玻璃鱼缸”是透视其实时行为的窗口。康奈尔大学教授乔恩-克伦伯格(Jon Kleinberg)称:“我寻找的是数据中的‘热点’,这是我需要理解的一种活动爆发的现象。只有通过‘大数据’,你才能做到这一点。”
毫无疑问,“大数据”本身也存在一些风险。统计学家和计算机科学家指出,“大数据”的集合和高密度的测量将令“错误发现”的风险增长。斯坦福大学的统计学教授特来沃尔-哈斯迪(Trevor Hastie)称,如果想要在庞大的数据“干草垛”中找到一根有意义的“针”,那么所将面临的问题就是“许多稻草看起来就像是针一样”。
此外,对于统计学恶作剧和有偏见的实情调查活动而言,“大数据”也提供了更多的原材料。“大数据”为一个老把戏提供了高科技的手段,那就是——我知道事实,现在让我们来找到事实吧。乔治梅森大学的数学家瑞贝卡(7.82,0.11,1.43%)-高尔丁(Rebecca Goldin)称,这是“最有害的数据使用方式之一”。
数据已被计算机和数学模型所驯服和理解,这些模型就像是文学中的隐喻修辞,也就是一种简化后的解释方式。对于理解数据而言,这些模式是有用的,但它 们也存在局限性。私人部门的倡导组织发出警告称,一个基于网络搜索的模式可能会发现一种相关性,从而作出不公平或是带有歧视性的统计推断,对产品、银行贷 款和养老基金提供的医疗保险造成影响。
虽然面临着这种警告,但“大数据”时代的降临看起来已是无可逆转。数据已经坐到了驾驶员的位置上,它就在那里,有用而且宝贵,甚至还很时尚。
资深数据分析师称,长期以来,朋友们一谈到他们的工作就会变得厌烦,但现在突然变得好奇起来。这些分析师们认为,《点球成金》是促成这一变化的原因之一,但实际原因远非如此简单。哥伦比亚大学统计学家兼政治科学家安德鲁-格尔曼(Andrew Gelman)称:“文化已经发生了改变。现在人们的想法是,数字和统计学是有趣的,是一种很酷的东西。”