大数据时代已经到来
大数据和传统数据的区别,首先是数据量的膨胀。根据EMC和IDC追踪的全球的数据量,在最近十年中,数字世界将增长44倍,从 0.9 ZB 增加到 35.2 ZB。其次,数据的种类、复杂度都将大大增加,不再仅是处理企业内部结构化的数据,更多是非结构化数据,以及外部数据。
非结构化数据将占到90%,移动传感器、社交网络、电子支付、视频监视、视频渲染、智能电网、地球物理勘探、医学成像、基因测序等等行业和应用都会产生大量非结构化数据。 这些数据对实时性的要求非常高。比如,一两天前的微博数据对人们来说,可能价值就少了很多或者已经没有价值。如此复杂、广阔的数据,作为企业应该如何来处理呢?如果不能把数据中的价值提取出来,那么对企业和个人来讲数据就是成本,因为它需要存储、管理。只有找出额外的价值,比存储本身的成本更高的价值,大数据才能为企业创造价值。
大数据之旅
如同几年前企业要踏上云计算之旅,EMC曾经给出了云计算之旅的几个步骤。同样,大数据也是由几步组成的:第一,对现有IT架构进行改造,包括大数据基础存储架构和数据分析的架构,能满足所有数据需求更快的响应和灵活的可扩展性。
大数据环境和传统模式对存储和数据管理有非常大的不同。传统模式的IT架构和数据分析的弱点已经显现。第一,Scale-up模式,即纵向扩展的过程,当原来的存储容量超过时,必须引入新的存储系统,所有新的调配全部是手动的。而在大数据情况下,无论是成本、数据需要的响应程度,纵向扩展和手动的模式都是不适合的。需要Scale-out模式,自动地调配。第二,在传统模式下,很容易形成存储孤岛、数据孤岛,很多容量要么没有在孤岛中释放出来,要么需要更多的管理员,让管理架构变得更加复杂。在大数据情况下,需要相当大的存储池,根据不同数据的情况,对池的存储空间进行分配。
EMC Isilon
EMC Isilon是针对大数据提供的技术,有空前的可扩展性,空前的容量和超凡的易操作性,可以管理15PB。同样可以保持很好的文件系统 IO/s 性能,IO操作可能达到百万级。更重要的是易操作性,每次需要扩容的时候,企业根据数据量增长的过程,只需要增加新的节点。
新的大数据分析平台
在数据分析方面,大数据和传统数据时代也有很大不同。传统数据分析仅限结构化数据,分析TB级陈旧数据。整个分析系统受限于纵向扩展体系结构。随着数据量增大,必须进行不同的分级和升级换代。
在大数据分析的情况下,首先必须是更新换代,能够很好处理结构化数据和非结构化数据。Hadoop是处理非结构化数据很好的技术,一个好的大数据平 台必须要同时能够处理结构化和非结构化数据。第二,要有很好的吞吐能力,能够处理PB量级的数据,才能保证所分析的数据,掌握的结果是现在最实时的结果, 帮助企业做出正确的选择。Scale-out架构是唯一的选择。
大数据应用程序需要大数据分析
同样,对于大数据应用也有不同要求。传统数据分析是根据过去的经验、报表预先设定各种不同的场景,通过各种场景指导业务部门。分析和应用的结果可能 跟原来的场景大相径庭,导致IT部门要不停地找到业务部门核实分析结果。在大数据情况下,更多是基于数据本身进行分析,通过业务部门和IT部门的紧密合 作,进行迭代的做法,找出最适合企业的应用程序和商业决策的最好方法。
新的大数据分析能够让企业更敏捷、主动地掌握自己的商业策略,更好的了解企业运行的基本情况,帮助企业改进法规遵从性。
EMC 也有相应的技术,从数据库、数据分析上面满足大数据的需求。Greenplum Database是专用于结构化数据的并行处理的数据库,不仅能够很快地对大规模数据进行处理,原来在传统情况下需要几十分钟几个小时的,在并行的情况下可能几秒钟就可以得到很好的结果。
Greenplum Database另外的特点是对数据的吞吐能力,与其他传统数据库的对比,有10倍数据吞吐量的增强,能保证分析的数据是想要的数据。Greenplum Database提供极佳的可扩展性,自动并行化处理和调整,添加节点实现线性可扩展性。
今年EMC推出了在Greenplum上处理非结构化数据的Hadoop平台,不仅仅能处理非结构化数据的增长,而且和结构化数据平台紧密结合在一起,能够帮企业更好的处理数据,为企业找到增长的亮点。
引入数据科学,能够帮助企业在大的数据集上通过灵活分析、有效分析,实现人员和生产力的大规模提高。传统的分析流程面临的最大挑战是被动、无响应,不透明,无协作。IT部门掌握的需求不一定是业务部门所需要的分析,如何提高两个部门的协作很重要。
新的分析流程首先是自助服务的模式,对业务的了解只有业务部门最熟悉,对IT部门来说是怎么提供更好的工具、流程,让业务部门去管理、处理业务。第二,是灵活、迭代的过程,一旦实时数据进行处理,每一次的数据分析和结果要反过来指导业务部门。
今年,EMC还推出了Greenplum Chorus新的数据协作平台,让业务部门和IT部门能很好在同一个平台上协作,把数据真正价值挖掘出来。
EMC也有最新的技术xCP,把数据结果融入到企业的流程中。xCP有几个特点:一、易于构建,拖放流程建模,是适合非程序员使用的工具。二、更好、更快的决策,提供最新数据,支持上下文决策。三、全面核查追踪,降低信息风险,让 IT 核查变得轻松愉快。
EMC的大数据就是这样一个统一的分析平台。大数据之旅第一步是如何对平台进行改造。第二步是如何通过数据科学让生产力提高,第三步是怎么把数据分析的结果更好的运用到实时决策,指导业务部门做出更好的流程改进。