传统数据仓库的性能已无法应付庞大的信息,但是大数据(Big Data)技术使我们能够访问和使用这些宝贵的、大规模数据集以应对越来越复杂的数据分析和更好的商业决策制定。
大数据明确将被持续下去。Gartner公司的分析师声称信息量每年正以最少59%速度在递增。IDC最新的数字宇宙(Digital Universe)研究估计到2020年世界上的数据存储总额将达到35 ZB(zettabytes)(1zettabyte等于一万亿GB字节)。
大数据将改变商业智能 (BI)的布局,并为企业提供一种有价值的数据源。首席信息官(CIO)应遵行以下的步骤才能成功地将大数据融合在他们的商业智能 (BI)程序中。
找到合适的项目
可以说最重要的一步是确定在合适的项目上测试大数据(Big Data)。需要解决的必需是一种商业问题,而不是一种技术问题。确保项目能提供直接利益或好处,而这些在现有的基础设施上是无法实现的。那样你就能赢得主管的支持。
获得主管的支持
大数据(Big Data)是对你在数据仓库技术中现有投资的补充。主管的支持将基于对以证据为基础的策略价值的接受(例如,他们可能广泛在企业内部已经使用着数据仓库和数据挖掘)。
找到合适的人
你会需要有非常特殊技能的人;那些能处理大型、分布式数据集和与之相关的硬件的人。然后是一些让所有的数据有意义并能把它们放入商业内容的人;要把数据科学家想成是和现有的数据分析师和数据挖掘师不一样的人。
接受开源
大数据意味着对工具集不一样的思考并很快能适应开源。传统的供应商不一定能解决这方面的问题;大多数大数据工具都是开源的。在这个市场上的创新团体是由来自谷歌、雅虎、苹果和Facebook这样的公司中最聪明的人组成。
不要从零开始
最广为接受的大数据工具是Hadoop,它是一种可以从Cloudera 或EMC获得的开源技术。Hadoop旨在缓解在数据上执行规模化批处理的复杂性,并在Apache的项目框架内进行管理;它能提供你需要的基本工具。主要的商业智能 (BI)供应商都宣布对大数据技术的支持,或在解决方案中使用大数据技术。
对架构和硬件的改变作好准备
数据海洋中的大数据要做的事不仅要对大规模的信息运行分析而且也成为数据仓库的一种来源。你会更少需要对少数大型机器的依赖和更多依靠大量的通用硬件和云资源。
购买设备从少量标准部件起
设施即服务(IaaS)供应商们和云资源为所需的企业提供大量的最新,及时的基础设施。安全的忧患往往是个阻力,但是可以克服的。
找到一种未使用的数据源
比如说,看一看从你公司网站上收集的数据。它可以给你提供网页的受欢迎程度、一天中对网站访问的集中的时间和你的客户使用的是哪一个网络服务提供商(ISP)这样一些信息。挖掘用于市场和销售的这些信息的潜能。
考虑可视化
想一想呈现数据的新方式。由于数据容量的原因,表格或图形的使用对一些大数据分析根本没有意义。Edward Tufte 和 Stephen Few在这方面是卓越的作者。
管理期望值
大数据有益于大型分析以及长期的战略方向。确保你的用户知道它不会交付在结构化数据之上的月度管理报表或即时查询。