如今,信息化技术的普及使得信息生成的速度和数量都远超以往。在企业中,以往纸质的表单、票据、文件等资料都在不断侵吞着存储容量。回首十年前,数据量在10TB量级的数据中心并不多见,而今天,数据规模超过100TB甚至是10PB的数据中心比比皆是。另一方面,云时代的到来使得用户个体也渐渐成为数据创造的主体之一,由此产生的图片、文档、视频等大量非结构化数据正以疯狂的速度增长着。根据IDC的预测,未来十年数据量可能继续增长44倍,在这个过程中,EB级别的数据中心也将随之出现。
数据激增除了进一步提升对存储容量的需求以外,还让现有的存储系统面临着诸多挑战:独立且分散的子系统为数据集中管理和共享增加了难度,而不同的应用类型也让产生的数据类型十分复杂。数据库数据文件、文本、图片、视频、报表、网页等等各种不同类型的数据,也让企业对这些异构数据的控制和分析感到头疼。此外,企业不得不耗费大量的预算用来维护这些数据,而难以在企业创新方面有所作为。在这样的情况下,如果试图通过增加投资来解决这些难题,结果却很可能适得其反:基础架构的数量会更多、结构更分散、成本更昂贵。企业的决策者们逐渐发觉,要想在如此分散、复杂、难以集中管理和分析的数据海洋里找到有用的信息,并做出正确的决策,实在不是一件容易的事情。
谈及上述的大量结构化和非结构化数据的维护问题,不禁想起今年存储业内被广泛关注的一个关键词–大数据(Big Data)。在大数据时代,数据量呈指数级增长,数据类型多且复杂,大数据首先要解决的问题是建立一个可以存储和得到所有实时和未来信息的数据库,有新的数据处理能力来处理各种数据源,有新的分析能力来发现新的趋势,以实现数据价值的最大化,辅助企业决策者做出最智慧的决策。这些数据常常与采集它们的工具、平台、分析系统一起被称为“大数据”。
现在,大数据已经被看做挖掘数据最大价值的有利工具,不同领域的不同组织都在利用大数据科技来进一步探索自身的竞争优势: 美国海洋和大气局尝试利用大数据业务协助进行对气候、环境、天气的研究和商业性探索,美国宇航局利用大数据业务进行航天和其他领域的探索。制药企业和能源企业则借助大数据业务进行更多实实在在的研发,例如药品实验和地球物理分析。《纽约时报》将“大数据”作为一种工具,进行文本分析和网络开发。迪斯尼公司利用它对店面、主题公园和网络资产中的数据进行分析,研究消费习惯的相关性。
存储业界的主流厂商也普遍看好大数据的发展潜力,推出了一系列的软硬件解决方案。而刚刚过完百岁生日的蓝色巨人IBM,更是在这一新兴领域内下足了功夫。我们从今年初IBM超级电脑Watson在Jeopardy!节目上夺人眼球的精彩表现中,可以感受到IBM对于应对大数据挑战的十足信心。
早在1997年5月,IBM的超级计算机“深蓝”挑战国际象棋世界冠军卡斯巴罗夫成功,成为首个在标准比赛时限内击败国际象棋世界冠军的电脑系统。而今年,Watson凭借IBM Power7和InfoSphere BigData Platform构筑的强悍“大脑”,再次上演了一场精彩的“人机大战”。
InfoSphere BigData Platform这款数据仓库平台产品集成了结构化数据和非结构化数据的处理能力,帮助Watson在3秒内处理海量并发任务和数据,并实时分析数以百万计的信息碎片,根据它寻找到的证据提供最佳答案。如此高效的数据管理和分析正是当下面临大数据挑战的商业社会的缩影。如果企业在面临大数据挑战时能够拥有Watson一样强悍的“大脑”,那无疑会在竞争中抢占先机,领先一步。
IBM InfoSphere全套的大数据解决方案提供信息集成、数据仓库、主数据管理等多种功能,高度集成了数据管理和分析能力,同时可以从传统的数据收集向非传统的交互式数据分析和验证进行扩展。该平台依靠良好的线性扩展能力,提供了PB级别数据和上千的用户的处理能力。InfoSphere BigInsights与InfoSphere Streams两种软件的组合可以快速的分析文档、视频、音频、点击流、图像以及其他形式的数据。而InfoSphere BigData Warehouseing则是业界首款高度集成结构化和非结构化数据处理的数据仓库平台,能够有效地将企业数据分布到低成本、高可用和高扩展性Big Insights hadoop平台,通过实时访问Big Insights hadoop和数据仓库中的数据,帮助用户快速分析不断变化的数据格式和类型。
有了应对大数据时代的新利器,企业便可以拨开笼罩在海量数据上的层层迷雾,精确洞察数据的最大价值,利用联合数据解决方案,构建智慧的运算模型,从而先于竞争对手把握住市场发展的新趋势。