大数据是大容量、高速率、多样化的数据集,无法以传统的数据库工具管理。在 2011年,全球的数据量估计达到1.8 zettabytes(每个Zettabytes等于10亿TB)。更令人咋舌的是这个已被广泛引用的判断——世界上90%的数据是在过去两年内创建。
当然,呈现爆炸性增长的数据背后,是非结构化的数据世界。在去年的惠普探索会议上,英国分析软件公司Autonomy首席执行官(CEO)兼信息管理行政副总裁迈克-林奇(Mike Lynch)在谈到非结构化数据的巨大增长时表示,IT世界正在远离结构化、机器友好的信息(以行和列来管理),并朝着更加人性化、非结构化的数据迈进,这些数据来自电子邮件和社交媒体,不只是包括文字和电话号码,也包含视频、音频和图像。
由于大数据的崛起,我相信你正听到Apache Hadoop周围的熙熙攘攘声。这种免费的软件框架支持数据密集型分布式应用程序,让应用程序能够与成千上万的节点和PB级的数据(PB=一千万亿字节) 共事。它确实看起来是管理非结构化数据的必杀技,因此也难怪每个人都随大流。
如果你进行一个快速的网络搜索,会发现在刚刚过去的几个月中,包括EMC、微软、IBM、甲骨文、Informatica、惠普、戴尔和Cloudera在内的公司都采用了这种软件框架。
而更值得注意的是,诸如雅虎、亚马逊、comScore和AOL等公司都纷纷转向Hadoop,以同时扩大业务和降低存储成本。
Infineta Systems是一家广域网优化初创公司,根据它的近期研究,传统的数据存储每GB消耗5美元,但使用Hadoop存储的话,相同的数据每GB的成本是约25美分。这是任何CEO都会记住的一个数字。