关于“大数据”我们已经听到了太多的东西,有很多新的应用程序,关于Hadoop、NoSQL和各种新的分析软件。我最近花了很多时间与人交谈和思考这些趋势,最终确信我们看到的巨大的变化,包括我们已经收集的数据,以及为个人、公司和社会,我们要如何处理这些数据。
组织应当如何处理数据,如何将原始数据转化成用于作出决定的信息,我们只是处在完整反思的早期阶段。不过,我也相信,“大数据”这个术语可能是混乱大于实用。数据分析的供应商MicroStrategy的首席技术官杰夫·比德尔(Jeff Bedell),告诉我,“大数据”只是一个时髦词语,“整个游戏是引入使人困惑的术语。”
例如,Gartner对大数据的描述不仅在于数据量,还包括其类型,速度和复杂性。分析师马克·拜尔(Mark Beyer)在去年秋天的有关极端信息管理研讨会发言,表示公司需要建立现代化的信息管理系统,该系统要包含合乎逻辑的数据仓库。
相比将“大数据”作为一个事物来谈论,考虑组织如何处理数据的各种变化可能更具现实意义。
当然,某些情况下,也有真正的大量数据。大型强子对撞机每年产生15 PB的数据(15,000 TB级),而即将到来的球面射电望远镜项目预计每天将产生数EB(一百万TB)的数据。但是,这些项目是比较少见的,更多与高性能计算相关,而非典型的商业案例。
相比之下,最典型的组织正在处理的数据库,规模显著较小,但仍然可以测量为TB和PB级。(这仍然是一个大量数据。)这些数据可以来自各种来源:跟踪人们在一个网站或多个网站上做什么,分析社会网络,或由传感器产生的数据处理。
在谈有关数据造成的结果在最近的改变之前,回顾一下到现在为止这个领域的一些大的趋势,可能会有所帮助。
数据库——数据的集合的历史,几乎与数字式计算机一样长,特别地,像IBM的大型机系统上运行的IMS产品。早期的数据库是分层的系统,但模型改变并成为标准仍然是关系模型。这些可追溯至1970年埃德加·F.科德(Edgar F. Codd)一篇题为《大型共享数据银行数据的关系模型》的论文。
今天,每一个大型组织仍在使用的一个或多个这些产品,来存储他们的交易数据,如Oracle数据库,IBM的DB2,微软SQL Server和开源的MySQL(现在仍然是Oracle拥有)。在关系数据库之上,已建成各种应用程序,包括库存,会计,企业资源计划(ERP),客户关系管理(CRM),人力资源应用,以及数以千计的大型组织定制应用程序。
特别是,作为交易的数量已变得更为复杂,往往分布在多个机器,许多企业已经实施联机事务处理系统(OLTP,也称为面向交易的处理系统)。
在过去几十年,一个大的变化,是商业智能平台和数据仓库的出现,通常但并不总是一起运行。
数据仓库通常存储来自业务系统的数据副本,但这些系统本身并不使用于不间断的业务经营。相反,它们被用于保持数据的历史,整合多个系统,往往作为分 析应用的一个起点。Teradata公司的数据仓库产品可能是最有名的,但近年来,甲骨文的Exadata产品线(并购SUN所得),和IBM公司(包括 其收购Netezza公司的资产)已经获得更多的重视,以及纯软件厂商,如Greenplum(现在是EMC的一部分)。
有许多不同种类的业务分析应用,但可能是最常见的是经常被称为联机分析处理系统,或OLAP。数据在一个多维数据 “魔方”中配置,“魔方”中关系数据库(或一系列的数据库或数据仓库)中的数据汇聚和连接,然后进行分析。通常情况下,你会看到商业智能平台作为“语义层”, 运行在数据仓库“魔方”之上。
最知名的商务智能平台是Business Objects(由SAP拥有),COGNOS(IBM所拥有),Hyperion(由Oracle拥有),微软,MicroStrategy,和SAS。
比德尔介绍,这样的观点来自90年代的 “非常大的数据库”和数据仓库,在那里你有一个单独的数据库的报告,而不是一个交易中使用。
通常情况下,这样的报告数据库将捕获汇总的数据,而不是每一笔交易的数据,通过分析数据,你可以有更深入的了解,在您的业务将发生什么。
这种商业智能建立了一个非常大的市场,它的背后BI的最伟大的例子,如Moneyball所描述的一样。
这样的系统通常是由专业人员执行,需要一个合理的配置,但这种情况正在改变。最近让我印象特别深刻的是,一些分析工具让典型的业务分析师(而非程序员)在企业数据上做快速报告和分析。提供这些工具的厂商包括的Tableau软件,QlikTech的QlikView,TIBCO Spotfire,所有这些都允许来自多个源的数据的快速可视化。
随着Web和基于传感器的应用的发展,已收集到的数据量快速扩展,超过传统的数据库的允许,导致了新的方式,通常被称为“NoSQL”,和基于如 Apache Hadoop这样的工具。我会在以后的文章更多地谈论这些,但似乎像每一个企业的供应商,包括一些规模较小的公司,目前都基于Hadoop的解决方案工作,重要的是还有开源运动。
此外,有一个通常被称为“非结构化数据”的内容或信息被日益重视,包括一切从网页、文本、媒体文件,它们可能不适合传统的数据库。针对这些内容,存在一个新的工具集,涵盖传统企业文件内容管理系统,像现在EMC的Documentum,IBM的FileNet,Oracle的 Stellent,OpenText,和Microsoft SharePoint和新的非结构化搜索服务提供商如Autonomy(现在是惠普的一部分)和Endeca(现在属于甲骨文)等。
总之,有很多不同的数据需求,并且许多大型组织将以多重解决方案或多家供应商告终。
在接下来的几篇文章,我要谈论这些领域,但很显然,这些都是不同的市场,针对不同的客户,采用不同的工具——并不存在一些全新的“大数据”市场。然而,我同样清楚,组织将不得不重新考虑他们如何收集,存储,分析和管理数据,以及他们如何将这些数据变成真实的信息的计划。