数据宇宙,再一次带来我们强烈的震撼。2010年,它突破了ZB大关。2011年,产生与复制的信息量超过1.8ZB——在仅仅5年中增长了9倍。但是,我们还发现了其他一些事情——一些可预见的、有些惊人且显而易见的困扰。
根据IDC的“数字宇宙”报告,受管理的数据量将增长50倍,而IT人员仅仅增长1.5倍
数字宇宙中,有75%的信息由个人产生的,企业则要为数字宇宙中80%的信息承担责任。随着越来越多的嵌入式系统涌入数字宇宙中,“文件”的数量——或者“封装”信息的容器——将要比信息本身的增长速度更快。在未来5年,这些文件将增长8倍,而可用于管理这些文件的IT人力资源仅是略有增加。
数字宇宙中,不足1/3的信息可以说至少有最基本的安全或者保护措施,应该受到保护的信息中只有一半真正得到了保护。个人生成——写入文档、照相、下载音乐等等——的信息量远远少于生成的、关于他们自己的信息量。
数字宇宙的增长仍将超过存储容量的增长。但是要记住,每保存1GB内容,就可以产生1PB甚至更多瞬时数据,而这些我们通常是不存储的(例如,我们只看不记录的数字电视信号,还有语音电话,通话过程中它在网络主干中是数字形式的)。
因此,与我们的物理宇宙一样,数字宇宙也是非常庞大的——500万亿份文件中的1.8ZB数据——而且每两年翻一番。数字宇宙中的信息位数多如物理宇宙中的恒星。
数字宇宙中充斥着存在时间不长的数据,但足以在这些数据消失之前让我们的眼睛或者耳朵在捕捉到。这些数据暂时性的存在并不会削弱其价值,在其短暂生命中可有多种用途,例如拉动消费(增加网站流量的广告收入)或实时数据分析(以优化现有操作和创造全新的市场)。
什么是数字宇宙爆炸式增长背后的力量?当然,技术因素帮助将信息产生、获取、管理和保存的成本推低至2005年的1/6。但是主要动力却是来自于财力方面。自从2005年,企业在数字宇宙中的投资增长了50%,花在了硬件、软件、服务以及用于产生、管理和保存的人员上——以及从数字宇宙中获得收入。
在信息社会中,信息就是金钱。关键是要通过从数字宇宙中提取出正确的信息来产生价值——从微观层面类似于我们熟悉的普通CIO——似乎和物理宇宙一样激荡不安又难以预测。
事实上,这要归功于新的工具和技术,以及新的IT和机构实践,我们可能正处于一个数字宇宙探索主要时期的关口。技术融合现在不仅改变了业务经营和管理的方式,还改变了我们工作和生活的方式。
新的获取、搜索、发现和分析工具可以帮助企业机构获得对于他们非结构化数据(占数字宇宙的90%以上)的洞察力。这些工具可以自动生成关于数据的数据,就像是帮助标记Facebook照片的面部识别程序。关于数据的数据——也就是元数据——增长的速度是整个数字宇宙的2倍。
业务智能工具越来越多地处理实时数据,新的存储管理工具用于削减数保存数据的成本,例如重复数据删除、自动分层和虚拟化等,并帮助我们决定到底保存哪些数据,例如内容管理解决方案。
逐渐成长起来的整个行业帮助我们遵守关于企业信息的规则(法律、法规和条例),使我们能够获得构建于存储管理系统的法规遵从系统。
新的安全实践以及工具可以帮助企业识别出需要保护的信息以及所需安全级别,然后使用特定的信息安全防护设备及软件、欺诈管理系统、声誉保护设备来确保信息安全。
相比传统IT环境,云计算解决方案——公共云、私有云和混合云——为企业提供了新高度的规模经济、敏捷性和灵活性。从长远来看,这将是是应对数字宇宙复杂性的一个关键工具(见下表)。
云计算将实现把IT作为服务进行消费的方式。云计算与大数据现象促使企业机构越来越多地将IT作为一种外部服务和内部基础架构投资的方式进行消费。
注:纵坐标为数据量,单位为EB(ExaBytes)
来源:IDC数字宇宙研究,EMC赞助,2011年6月
对数字宇宙“太空探索”的时期充满挑战。但是对于投身其中的“宇航员”——CIO和他们的员工——来说,它代表了一种独特的、也许是职业生涯中唯一一次推动企业增长的机会。他们需要引导企业采用从采用并攫取数据价值的新信息技术和最佳实践,以及创建新的规则和机构设计。每个步骤都要求组织变革,不仅仅是几台新的电脑或者更多软件。未来几年,很多企业的成功将取决于CIO如何成功地根据数字宇宙现实进行企业调整(见下表)。
来源:IDC数字宇宙研究,EMC赞助,2011年6月
云之旅
随着数字宇宙不断扩大并且更加复杂,信息的处理、保存、管理、保护和弃置也将变得更为复杂。
想想看:未来十年中,全球服务器(虚拟服务器和物理服务器)的数量将增长10倍,企业数据中心所管理的信息量将增长50倍,数据中心必须处理的文件数量将至少增长75倍。与此同时,IT专业人员的数量也将增长1.5倍。
因此,管理所有这些数据所需的技能、经验和资源将变得更加稀缺、更加专业化,要求一个新的、灵活且可扩展的IT基础设施。今天,我们称之为云计算。
虽然目前云计算在IT开支中所占比例不足2%,但是IDC预测,到2015年接近20%的信息将被云计算服务提供商所接手——这意味着一个字节从发起段到最后被弃置的过程,将云中保存或者处理。也许高达10%都是保留在云中的。
虚拟化的普及推动了向与架构的迁移。去年是虚拟服务器出货量超过物理服务器的第一年。IDC预测,目前在服务器运行的信息有10%也运行在虚拟化系统中,而且这个比例到2015年将超过20%。目前一些大型环境的虚拟化系统比例甚至高达100%。
当然,云服务分为几种形式——公共云、私有云和混合云。对于那些想要提供自己云服务的企业机构来说,他们要做的不仅仅是运行虚拟服务器。他们还必须实现虚拟化存储和网络、自主配置以及自主服务。很少有企业能做到这些,因此私有云对于数字宇宙的影响现在还很小(见下图)。但是到2015年,当虚拟化基础架构越来越普及,增长率将有所加速。
2015年数字宇宙于公共云
来源:IDC数字宇宙研究,EMC赞助,2011年6月
云采用的挑战包括:
· 为切换到云所做数据方面的准备
· 集成云/非云管理
· 服务等级协议于终止策略
· 安全、备份、归档和灾难控制策略
· 国家间的数据传输与遵从
· 机构策略
大多数虚拟化项目能够成功的部分原因是,CIO们已经选择出企业内部各部分可能不要以分享的信息的数据。转换到云计算,意味着改变现状,这总是一件困难的事,即使有很好的理由。
大数据的大价值
大数据看起来似乎是一个突如其来的热潮。但实际上,大数据并不是什么新概念,相反,它是逐渐成为主流并获得越来越多关注的概念。大数据在廉价存储、激增的传感器和数据采集技术的推动下得到了快速发展,通过云和虚拟化存储基础设施,创新软件和分析工具的连接信息不断增加。大数据不是一个“东西”,而是一个跨多个IT边界的动态/活动,IDC对大数据所做的定义如下:
大数据技术描述了新一代的技术和架构,旨在从各种海量的数据中,通过高速采集、发现和/或分析,提取出数据隐藏的商业价值。
大数据是数字宇宙的一个横断面,可能包括交易数据、数据仓库、元数据和其它大得离谱的文件中的数据,媒体/娱乐、医疗保健和视频监控是大数据新增长领域的一些显着例子,社会化媒体解决方案,如Facebook、Foursquare和Twitter都是最新的新数据源,实际上,它们已经建立起由消费者持续提供(有意或无意)有关他们自身的数据流的系统,得益于成功网站的网络效应,产生的总数据量呈线性快速增长。
重要的是要明白,大数据不仅仅是关于保存或消耗的原始内容,也包括它周围的信息。智能手机是一个很好的例证,我们的移动设备会产生很多附加数据源,包括地理位置、文本消息、浏览历史以及运动或方向数据(如下图所示)。
大数据并不是创建的内容,也不是它消耗的内容——而是围绕它所有数据的分析。
来源:IDC数字宇宙研究,EMC赞助,2011年6月
采集和分析这些“漩涡”数据的确是大数据的机会,但它也是数据中心管理人员噩梦开始的地方。数据中心架构和组织模型需要扩展,因为大数据应用程序遍及企业基础设施的各个角落,集群环境,如大型Hadoop网格中使用的IT架构和组织方式,与推动大多数组织数据中心过渡战略的融合和虚拟IT环境中的IT架构和组织方式完全不同。
大数据将注入与采集和分析、结果/预测报告相关的高速需求,IT最好围绕特定机会和/或功能进行组织,而不仅仅是围绕一套服务于传统和新用途的共享服务组织,大多数IT学科——从基础设施到应用程序,再到治理——是一个综合团队理想的组成部分,以某种有别于传统企业IT方法的方法与大数据用户紧密合作。
云提供商在大数据领域的方方面面将发挥关键作用,首先,他们是最重要的数据流和内容收集者,其次,他们将是大数据系统最积极的使用者,第三,他们也给那些技术精通,但资源有限的组织提供了一种使用大数据的方式。例如,基于云的大数据平台对小型工程和建筑公司来说非常实用,他们不用构建自己的大数据农场,就可以在短期内访问大规模计算资源。
· 它是否提高了响应及时性?
· 它是否提供了更有用的信息?
· 它是否提高了信息的精确度?
Netflix可以建议你下一部应该租赁什么电影,在桥梁中嵌入传感器动态监控和检查实时压力,长期形成的腐蚀情况,零售商店分析数字视频流,优化产品陈列布局,在合适的地方显示促销信息来吸引你的注意,这些都是我们现实生活中涉及到大数据的鲜活案例。
大数据对CIO来说代表大机会和大挑战,几乎每个CIO都渴望让IT对组织实现更大的价值,在大数据项目中,IT是前端和核心,通常在业务的边界,存在许多业务扩张或降低成本的机会。
大数据也带来了一些挑战,正如前面提到的,大数据可能会造成当前数据中心过渡计划中断,此外,大数据部署需要新的IT管理和应用程序开发技能,具有这些技能的人在短期内很可能是供不应求的,但最大的挑战是文化挑战,今天,许多大数据项目戏称为“少年科学项目”,除非严密管理,这些小项目可能很快就变成下一个“曼哈顿项目”。
除了挑战外,机会也比比皆是,大数据给CIO带来了新的机会,为业务部门或整个企业寻找更重要的战略合作伙伴创造了合适的时机。
数字宇宙中的安全性
去年,我们第一次估算了数字宇宙中需要一定安全水平的信息量,可怕的现实是,需要保护的信息量增长速度超出了我们的保护能力,因为员工越来越多地将移动设备用于工作,消费者故意(和非故意)共享的个人数据也越来越多,值得欣慰的是,公司发现了挖掘这些数据的新方法。
为了了解数字宇宙中安全的程度,我们将需要安全保护的信息分为以下5类,每个需要的安全保护水平都不一样:
· 隐私性:如Youtube上传视频中的电子邮件地址
· 法规遵从:如在诉讼或受保留规则中可能被泄露的电子邮件
· 保管型:账户信息,它被破坏可能会导致或帮助身份信息被盗
· 机密型:原始创建者希望保护信息,如商业秘密,客户名单,机密备忘录等等
· 锁定型:需要最高安全的信息,如金融交易,个人文件,医疗记录,军事情报等等
2010年,数字宇宙中28%的信息需要某种水平的安全保护(如下图所示),注意这仅仅是需要安全保护的信息。
对信息安全的需求:在数字宇宙中所占百分比
来源:IDC数字宇宙研究,EMC赞助,2011年6月
日益增多的、需要安全保护的信息主要由两个源头驱动:企业(包括员工)和消费者。
很多组织采用由用户控制笔记本电脑,平板电脑和智能手机的策略,用户可以将这些设备带入公司工作或处理个人事务,IT资源迅速变成私有和公共基础设施的混合体,这些组织身上的压力是要找出一种办法,跨多对多关系管理安全和服从义务。
在复杂和高度流动的环境中,信息使用、共享、归档和管理中的信任关系是关键,信任与信息的来源,过程和生成、采集和管理信息的计算机系统的完整性,以及可以接触或访问信息的个人和商业实体的凭据和身份有着极大的关联。
我们很高兴看到围绕信任的讨论变得越来越热。在线数据收集变得更侵入,数据挖掘分析和大数据使企业分析个体消费者成为可能,不管是使用移动设备应用程序,还是积极参与社交网站,暴露的个人信息是越来越多,因此,越来越多的律师,教授和管理者呼吁修订现行隐私和数据保护制度。
几年前,我们引入了数字影子的概念(如下图所示),这个影子每年的增长速度非常快,我们的数字影子由我们可能认为可公开,但我们宁愿保密的信息组成,正是这种数据不断增长,大数据才获得了机会,帮助驱动更多个性化服务,更有效地管理连接,或创建有价值的新业务。
加速数字宇宙:数字阴影
来源:IDC数字宇宙研究,EMC赞助,2011年6月
那些管理自己私有云的组织,或那些提供公共云的组织,都必须找到办法减少安全信息不必要的或意外曝光,员工和消费者(个体)不是做任何事情的时候都是可信任的,相反,组织必须整合政策和程序,创建一个可信任的环境,下面具体的步骤:
· 企业必须了解整个过程的依赖关系和计算资源
· 企业需要能够识别可能的策略冲突,以及分析新技术和过程的影响
· IT组织管理的网络拓扑和厂商关系越来越复杂,他们需要建立跨功能系统事件和变化的相互依赖关系,此外,他们需要跟踪人、过程、信息和底层计算资源的依赖关系
· 企业必须证明他们一直符合他们的监管和法律职责
移动计算,IT消费化,云计算,大数据和先进的数据挖掘技术,正在迫使许多组织从一个遵守的心态过渡到风险管理的心态,风险管理框架允许组织裁剪它对信息、业务流程和业务关系临界状态的响应,因为资源是有限的,一个纲领性的风险管理框架也允许组织调整资源的优先级,以便它能够更快速地识别和响应最关键的威胁。