调查方法及样本说明
考虑到网络调查的随机性较容易保证,准确性较高,本项目采用网络调查的方式,并建立网络专题和入口便于用户参与调查
(http://www.dochannel.com/research/register.html),调查时间为2012年8月1日至2012年8月20日,访问对象是拥有数据存储应用及需求的企业、机构戒者组织。
为了更好地统计国内各种类型用户的存储现状,本次调查幵没有对用户的企业大小、数据觃模、行业类型、所处区域等迚行样本分类,而是迚行了具体统计不 记录。根据统计资料显示,本次调查样本涵盖了国内大部分的地区及省市,北至哈尔滨、南至深圳、西至乌鲁木齐、东至南通,覆盖范围之大在存储行业内非常鲜 见。本次调查设计样本数为300个,截止至2012年8月30日,调查实际样本数为284个,有效实际样本数234个。
有效实际样本涉及行业中主要包括:政府、医疗、计算机服务和软件业、制造业、金融服务、能源、电信等。其中媒体娱乐、汽车等行业也有所涉猎,占整个样本数量的15%左右。
有效实际样本涉及用户的人员规模包括<50人、50-100人、101-500人、501-1000人、>1000人几种划分,其中以500人左右的企业占据主要,占比达到整体样本数的49%,接近一半以上。
调查背景
随着用户数据量的暴增,其数据的存储也出现高速增长。在大数据时代,当前用户IT应用出现新的变化,数据结构类型出现新的特点,结构化数据、半结构 化数据和非结构化数据并处于高速增长状态。针对这一现象,DOIT特别针对中国企业大数据状况进行此次调查,以探寻大数据背景下的中国企业数据存储及应用 的特点和趋势,也希望可以帮助企业用户能够在 2012年把握大数据业务的现状,为企业转型和业务发展提供帮助,迎接大数据给企业带来的新机遇。
2012年企业大数据状况调查问卷所涉足的用户领域和行业都比较全面,通过调查分析发现,企业所面临的大数据结构类型主要分为三类,包括结构化数 据、非结构化数据、半结构化数据;企业基础架构已经不适应大数据的发展,有待进一步更新;企业处理大数据方面存在一系列问题需要解决。
大数据类型分析
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。大数据的数据格式包括哪些呢?这个问题,在现在看来似乎很是简单,对于大数据的定义当前也比较明确了,总的来说大数据 具备4个“V”,或者说其特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多,包括结构化、半结构化、非结构化类型。 如当前大家经常提及的网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第 四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”—— Volume,Variety,Value,Velocity。
在统计本次调查的数据显示,54%的用户所在的公司的大数据结构类型属于结构化数据、半结构化数据与非结构化数据三者皆有,可见,用户在大数据类型方面已经呈现出类型繁多的现状。
另外,在用户看来,目前所在的公司大数据出现非结构化数据明显增多的情况占了调查样本的40%左右,而有30%的人出现所有数据类型都明显增多的情况。而结构化数据类型和半结构化数据类型都增多的情况有所放缓。
企业基础架构分析
从本次调查结果可以看出,将近有46%的企业服务器数量没有超过100台,而拥有100至400台占据了28%的比例。400至800台服务器则占据剩下26%的比例。可以看出现今大部分企业面对大数据还没有完善其硬件基础架构设施。
在对企业基础设施架构中采用最多处理器类型的调查中,明显发现英特尔至强系列占据了被调查样本数约80%,英特尔X86架构服务器在整个被调查用户 样本中所占据的比例非常高,也说明X86架构的普及率早已超过了其他架构,当然其中我们不排除用户也采用其他架构的需求所在,但从调查数据显示,只有 11%的用户采用AMD皓龙系列,8%的用户采用IBM POWER系列,而SUN SPARC系列的用户占比最少,大约2%左右。
实际上,英特尔所代表的X86服务器在几年之前就开始不断侵蚀企业的关键业务领域,而英特尔所发布的E7系列处理器已经能够提供完全不弱于小型机 CPU所能提供的性能。如以往一样,在英特尔所提出的大数据方案之中,至强处理器将为大数据分析提供原动力。事实上,英特尔的x86架构硬件平台已经帮助 甲骨文等厂商在大数据一体机等方面取得了高性能和经济实惠的统一,而英特尔自己的Hadoop发行版也正帮助用户解决了大数据领域的实际问题。为此,这也 是在本次企业大数据状况调查中,X86架构服务器已经占到了整个行业的主流地位的原因所在。
企业处理大数据能力分析
通过调查发现,从当前阶段大部分企业内大数据处理基础设施的情况来看,其中有将近50%的企业面临大数据处理的问题,这些问题主要表现在企业在面对 大数据的解决之道应遵循采集、导入/处理、查询、挖掘的流程等。这些问题的出现主要也是来自用户对于大数据处理存在诸多困难和问题造成的。
在调查问及“当前您所在企业面对大数据处理的最大问题是什么?”时,有效调查样本中选择扩展性差和运营成本较高的用户占比达到42%,同时大家对于应用部署过于复杂、资源利用率低、散热不佳、能耗过高等其他问题也比较关注。
当然了,用户对于大数据的关注度在提升的同时也是受到自身企业每天数据生成量影响的,在对有效样本进行“您所在企业每天的数据生成量有多少?”的问 话中发现,将近50%的企业用户每天的数据生成量达到了TB级,有接近28%的企业用户每天数据生成量超过了40TB。而在100GB以下数据生成量的企 业用户占比相对较少。但是每天数据生成量达到或者超过100TB级别的用户也同样不多。
企业面临大数据处理急需解决的技术挑战其实最大的表现还是在多格式数据方面,其次是读写速度(读写速度是指数据从端点移动到处理器和存储的速度),再就是国内存储厂商所关注的海量数据。
另外,用户在考虑采购什么样厂商的大数据产品和方案时,更多的会考虑投资回报的问题。其次就是平台的开放性,用户对于平台开放性的重视主要在于未来 扩展问题。当然中国用户也非常重视初期成本的投入的。当然也有18%被调查企业用户非常重视厂商提供的服务和技术支持。对于方案是否开源关注占到了8%左 右。
在对用户提问“您所在公司的大数据处理系统部署了Hadoop体系吗?”其中被调查样本企业用户有41%在计划在内,即将部署。另外有25%用户已 经部署,并在使用,有11%用户不会部署,还有23%用户没有听说过,需要对这类用户进行教育。据被调查人士分析指出,应用部署过于复杂也催生了大数据处 理系统管理员这一新兴职业,其主要负责日常Hadoop集群正常运行。例如直接或间接的管理硬件,当需要添加硬件时需保证集群仍能够稳定运行。同时还要负 责系统监控和配置,保证Hadoop与其他系统的有机结合。
在对用户认为云时代下企业数据挖掘面临哪些挑战的问题调查中发现,不管是数据安全性、网络瓶颈技术不成熟服务的水平缺乏相关的法规保障还是其他问题,总体分析来看,在大数据增长的影响下企业数据挖掘面临如下几个挑战:
一是异构数据问题,当前企业用户的网络数据的最大特点就是半结构化,如文档、报表、网页、声音、图片、视频等,而云计算变革所带来的基于互联网方式 提供的各种应用,如何有效掌控这些异构数据就是一个挑战。目前也有提出异构数据库系统,就是相关的多个数据库系统的集合,可以实现数据的共享和透明访问。
二是多源数据问题,随着企业不断适应云计算的变化,企业数据会有部分在公有云上,也有私有云上,面对不同数据来源,这对数据挖掘是一个很大的挑战, 以电力行业为例,随着网络技术在电力系统中的广泛应用,调度中心数据采集渠道多,如何从繁杂重复的信息中得到可靠准确信息,确实是一个挑战。
三是挖掘效率问题,通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。但在云计算环境下,封闭的企业数据挖掘会逐渐不能适用,面对互联网带来的异构数据挑战,哪种数据挖掘算法效率更高,值得进一步研究。
最重要的一项调查中,涉及到企业正在使用的数据分析与挖掘平台,选项设立了5个项目,包括了(A、 Hadoop B、 开源的HBase C、 Teradata D、 Netezza E、Greenplum F、Exadata)从调查结果中分析得出Hadoop占据了一半多的市场,企业正在使用的数据分析与挖掘平台最多的还是Hadoop。可以预见的 是,Hadoop日渐成长引领开源云计算发,“大象很会跳舞。”Hadoop作为企业级数据仓库体系结构核心技术,在未来几年中它将会保持很好的增长。
为此,在2012年英特尔也推出了它的Hadoop发行版,英特尔Hadoop发行版是一套解决方案,针对不同行业客户进行系统整合,根据不同用户 的需求来实现个性化解决方案。长期来看,英特尔致力于打造健康的生态系统,通过ISV、OEM等众多合作伙伴,共同应对大数据带来的挑战,把握时代机遇, 利用大数据深挖价值。
英特尔以至强处理器构建的高效IT基础设施为基石,英特尔还计划在其上的数据组织与管理层,针对大数据的分发和管理需求提供针对英特尔平台优化的 Hadoop产品和服务。在大数据的分析与发现层,提供针对客户端与服务器端算法开发的支持,以满足大数据计算所需的性能与规模要求。在大数据的决策支持 与IT服务层,则将联合生态系统内的合作伙伴,提供更为优化的可视化应用体验。英特尔所有与这些规划相关的具体策略,将随着大数据技术、应用和市场的发展 逐步深化、细化。
相信有了英特尔这样上游厂商的加入,必将对Hadoop的未来增长带来更加积极深远的影响。