数据存储产业服务平台

海量数据:大成本、大风险和大机会

前不久,IBM人工智能计算机系统沃森(Watson)在智力竞赛节目《危险边缘》(Jeopardy!)中表现突出,击败了该节目史上最优秀的两位人类选手,这期节目吸引了众多观众的关注。沃森是IBM旗下致力于对自然语言中的线索作出反应的DeepQA项目的成果,沃森在上述“人机大战”中的成功至少给了观众短暂的希望,让他们认为只要有适当的科技,迅速增长的数据就能够被驯服。

为了参加该比赛,沃森读取了2亿页结构化和非结构化内容,用掉了4TB存储空间——其中包括维基百科的全部文本。但是,政府、公司和研究机构以及使用智能手机、笔记本电脑和其他消费电子产品的个人每天产生的数据如此之多,与此相比,沃森摄取的知识也不过是沧海一粟。

比如说,沃尔玛每小时处理的顾客交易量达上百万次;Facebook上保存着500亿张照片;谷歌为处理搜索请求而在巨大的仓库中设置了数以千计的服务器;无线电子通讯的信息量正在爆炸式增长,其中一小部分还对国家安全至关重要。事实上,现今所存在的数据中,有90%都是在最近两年中创造的,如果说20 世纪之初的所有知识可以塞进一个鞋盒中的话,那如今的知识总量需要20个吉利体育场(Gillette Stadium)来装才足够。

随着社交网络、视频及互联网的崛起,这种增长趋势极为迅捷、永无止尽。那些试图分析这种爆炸式增长的数据,从中获得可资利用的商业情报,以在最关键市场的竞争中赢得胜利的企业,正面临着前所未见的巨大挑战。

因为海量数据为公司乃至国民经济和国家安全都带来了巨大的问题。金融危机是个再恰当不过的例子,2008年底全球金融系统正濒临崩溃,当时一位全球银行巨头的首席执行官正在出席财报电话会议,分析师多次要求他透露该行所持有的抵押贷款证券的金额。尽管过去十年来,该行在IT运营方面投入了370亿美元巨资,他还是只能羞怯地回应说:“我没有掌握这一信息。”

如果监管部门和银行巨头们能够精确地掌握他们受次级债影响的程度,我们或许就可以控制经济衰退,防止房地产市场经历30年来最严重的崩盘。

不出意料,信息管理业务——帮助机构理解这种日益增长的海量数据——正以惊人的速度发展。过去几年来,甲骨文、IBM、微软、EMC和SAP等公司已经投入了超过200亿美元,收购专长于数据管理和分析的软件公司。如今,该行业的市场规模估计已超过1,000亿美元,且仍以每年近10%的速度发展——几乎两倍于软件行业的整体水平。

信息量的庞大带来了巨大的管理风险,而其中多数数据的不良性质引起的问题更严重。如今,数据来源于一个交易、市场和社交媒体组成的复杂网络,而非仅仅来自公司自身的资源管理系统。许多数据都是草率生成的、令人误解的、夸张的或者根本是错误的,不良数据当然不是什么新鲜事,多年来,各大公司一直在努力清理有缺陷的数据文件。可仅仅这么做已经不够了,如今需要从源头上防止不良数据侵蚀商业环境。

与其补救不良数据,企业、政府部门和研究机构更需要创造这样一种信息架构:使他们能够追踪数据在组织内不同用户间流动的过程。通过这一框架,他们就可以使信息的源头为其数据负责,监控这些数据是否精确、是否一致、质量如何,最终为数据分析、处理及其效果的改善作出贡献。通过战略性地把数据当作一种企业共有资产来管理,企业就能比竞争对手更快地对发展中的趋势作出反应;研究机构就能在风暴、流行病和其他重大问题的形成阶段就防患未然;国家安全部门就能比潜在威胁棋高一招。

幸运的是,我们已经有一些令人振奋的案例。举纽约州水牛城的Independent Health为例,根据《美国新闻与世界报道》排名,该公司的医疗保险一直是全美最受赞誉的服务之一。2009年,由于奥巴马医疗改革方案即将成为法律,该公司面临医疗保健费用提高和行业变革的挑战。

多数医疗保险公司都致力于在降低医疗保健费用的同时,确保每个客户都能带来盈利,但许多公司都存在严重的问题,使它们无法理解怎样实现上述目标。 Independent Health很快意识到,为了理清互相矛盾的数据来源、复杂的分析报告和监管要求,就必须改善数据处理机制。因此,该公司认识到:必须接收那些“恰当的” 数据,也就是能帮助它控制医疗保健支出,同时改善向购买该公司保险的客户提供的服务,并提高收入。

来源各不相同且无法比较的数据很难利用,因此Independent Health决定改变管理信息的方式,新信息管理模式的灵活性使该公司得以全面而迅速地分析所有外部、内部的保险索赔数据,满足了其不断增长的需求。

通过创造一种便于理解客户、雇员和供货商相关数据的架构,该公司不再依赖于以索赔为核心的数据储存架构,新架构基于信息打造,使他们能更迅速地整合数据来源,利用更复杂的信息。

凡是能够成功地创造覆盖多种内部业务的架构,使各部门之间的信息能互相沟通的公司,都享有竞争优势。当各部门精诚合作,形成对高质量数据的统一认识,那么整个企业——包括其客户和股东——都将受益。就像沃森一样获得成功。

比尔·希维特(Bill Hewitt)是数据管理软件供应商Kalido的首席执行官。

未经允许不得转载:存储在线-存储专业媒体 » 海量数据:大成本、大风险和大机会