数据存储产业服务平台

形如大禹治水 重复数据删除技术重新定义BuRA

2007年,数字宇宙的信息量达到2810亿GB,到2011年,数字宇宙的信息量将达到18000亿GB,比2006年增长10倍。如此庞大的数字信息中,70%由个人创造,然而其中有85%的信息,企业需要负责其安全性、隐私、可靠性和法规遵从等。如何迎接信息爆炸式增长带来的管理挑战,是CIO们不得不面对的问题。

大禹治水  堵不如疏

五千年来,大禹一直是中华民族心中的治水英雄。相比之下,另一个鲜为人知的事情是,大禹的父亲因为治水不力被舜斩杀。大禹的治水方法就是"开渠排水、疏通河道";而他父亲的办法只是一味筑高水渠,水渠一旦溃坝,会造成更大的水灾。

当前,信息管理出现了同样的情形。过去,我们曾经将磁带、光盘称为海量存储,因为可以在系统之外不断增加磁带和光盘。但是,根据IDC的数据,目前数字宇宙的年复合增长率是60%,而存储容量增长的速度只有35%左右。很快就会出现存储容量缺口,我们能够提供的存储容量,包括磁盘、磁带、光盘、闪存和内存等,所有介质容量加起来,都不足以保存我们所创建和复制的所有信息。

除了容量问题,在操作上也存在问题。以数据备份而言,客户对于备份窗口的要求很高。要备份的数据越来越多,备份窗口不足(无法在允许的时间内备份完所有数据),但是,IT系统不可能停机备份数据从而影响到关键业务应用,服务级别不能降低。

同时,IDC还发现,存储容量越来越大,存储介质的生命周期却越来越短。我们可以阅读几千前的石刻或烧陶文字、一千年以前的活字印刷,可以看100年以前的缩微胶片,但我们恐怕已经无法读取30年前的8磁道磁带、20年前的软盘、10年前VHS磁带。数字记录媒体的寿命因为介质退化、回放装置淘汰,根本无法跟石头和纸张相比拟。有鉴于此,美国国家媒体实验建议的方案就是每10-20年将数字记录转录到新的介质上。除非这些数字记录管理有序,否则这将是一个异常艰巨的任务。

如何做到管理有序?磁带和光盘肯定不是好的选择。磁带对物理环境温度、湿度要求高,容易粘连,磁带时间久了还会自行消磁;光盘驱动器三年更新一代,我们保存了15年的数据,可能已经没有可以读取数据的光驱,光盘本身也不是非常可靠。此外,大量产生的磁带和光盘,空间占用非常可观,查找也相当困难。磁盘在性能上有优越性,但尽管磁盘价格不断下降,仍然不可能像磁带和光盘那样海量供应。重复数据删除技术的产生,让数据量大大降低,为磁盘存储带来了革命性的解决之道。

革命:重复数据删除

企业的IT系统每天都会做数据备份。一般来说,每天会做一个增量备份,每周会做一个全备份。检视一下这些备份数据,会发现大量数据是重复的,重复数据导致了数据量以几何级数增长。假定某个系统初始数据量为50TB,每天增加8TB,一周6天做增量备份,周末做全备份,一周备份数据就达到98TB。但使用重复数据删除技术(Data Deduplication,简称3D),50TB的初始数据不用重复做备份,进一步发现每天8TB增量数据,可以压缩到500GB,因此每周7天备份只增加3.5TB,数据量比传统备份低95%以上。

1 重复数据删除效果示例

重复数据删除技术按照部署位置可分为源端重复数据删除和目标端重复数据删除。顾名思义,源端重复数据删除就是先删除重复数据,再将数据传到备份设备;目标端重复数据删除是先将数据传到备份设备,存储时再删除重复数据。按照检查重复数据的算法不同,重复数据删除可以分为对象(文件)级和块级的重复数据删除,对象级的重复数据删除保证文件不重复;块级重复数据删除则将文件分成数据块进行比较,根据划分数据块的不同方法,又可分为定长块和变长块的重复数据删除技术。变长块的方法可以"斤斤计较"地把每一个重复的字节都删掉,重复删除率最高;定长块的技术只能大致地把相同的数据块去掉,删除率次之。

EMC能够根据客户的不同需求,提供三种重复数据删除技术。一是对象级的重复数据删除。在EMC Centera归档平台中,因为要满足法规遵从,EMC提供文件级(也叫对象级)的重复数据删除,将一个文件视为一个对象,当一个对象又被再次存储时,它不会存两份同样的数据,只是返回一个指针,并提示这个数据已经存在。但只有两个文件一模一样,它才会只存一次。如果文件哪怕有微小的变化,它就要存两次。二是Avamar重复数据删除技术,它是变长块的源端重复数据删除,删除率达到300:1,500:1,甚至更高。三是EMC虚拟磁带库(EMC Disk Library,EDL)。EDL跟Avamar是一个互补,Avamar是在源端进行重复数据删除,EDL是在后端(目标端)进行重复数据删除。

2  EMC Avamar工作原理

重复数据删除可以给用户带来诸多好处。一是减少了存储容量;二是避免了备份窗口不足的问题;三是可以通过广域网异地备份,对分支机构的备份可以集中管理;四是在VMware虚拟化环境中,(EMC Avamar在虚拟主机源端进行重复数据删除后)可以极大地减少备份程序对物理主机CPU和内存资源的争用。

从独立的技术到集成的功能

作为全球信息管理解决方案的领导者,EMC很早就对重复数据删除技术给予关注。2006年11月,EMC就收购当时在重复数据删除技术的领先厂商Avamar,比IBM收购Diligent早17个月。如今,重复数据删除技术已经成为EMC BuRA(备份恢复与归档)方案的基础,EMC Avamar与VMware、EMC NetWorker、EMC Backup Advisor和EMC Celerra等产品集成。EMC磁盘库集成了目标端的重复数据删除技术。EMC Centera归档平台集成了对象级的重复数据删除技术。

如果客户需要广域网环境下的远程备份,或者在VMware、大文件服务器以及其它受制于网络瓶颈的环境下备份,EMC可以提供Avamar重复数据删除技术,不仅可以减少后台存储,而且在源端就已经把重复数据删除了。客户既可以部署EMC Avamar软件,也可以购买软件和硬件集成的EMC Avamar Data Store系统。

如果客户对现有的备份软件还满意,在把数据传到备份设备时也没有遇到网络瓶颈。EMC可以提供具有目标端重复数据删除技术的虚拟磁盘库(DL3D),包括面向中型用户的EMC DL3D 1500和EMC DL3D 3000,面向大型用户的EMC DL3D 4000,容量从4TB到几个PB。DL3D可以保证后台磁盘存储的优化利用,同时让客户受益于灾难复制这样的SAN技术。

重复数据删除技术加上归档技术的应用,让数据量极大减少,让备份到磁盘成为可行,让数据的可用性、可管理性、安全性得到保障,数据的介质更新和长期保存成为可能。EMC在这个领域先一步的行动,也让它成为应对信息爆炸增长的排头先锋,再次加强了它在产业界的领导者地位。

附:大禹治水的传说

禹为鲧(音gǔn)之子,又名文命,字高密。相传生于西羌(今甘肃、宁夏、内蒙南部一带),后随父迁徙于崇(今河南登封附近),尧时被封为夏伯,故又称夏禹或伯。

尧在位的时候,黄河流域发生了很大的水灾,庄稼被淹了,房子被毁了,老百姓只好往高处搬。尧召开部落联盟会议,商量治水的问题。他征求四方部落首领的意见:派谁去治理洪水呢?首领们都推荐鲧。

尧对鲧不大信任。首领们说:"现在没有比鲧更强的人才啦,你试一下吧!"尧才勉强同意。

鲧花了九年时间治水,没有把洪水制服。因为他只懂得水来土掩,造堤筑坝,结果洪水冲塌了堤坝,水灾反而闹得更凶了。

舜接替尧当部落联盟首领以后,亲自到治水的地方去考察。他发现鲧办事不力,就把鲧杀了,又让鲧的儿子禹去治水。

禹改变了他父亲的做法,用开渠排水、疏通河道的办法,把洪水引到大海中去。他和老百姓一起劳动,戴着箬帽,拿着锹子,带头挖土、挑土,累得磨光了小腿上的毛。

经过十三年的努力,终于把洪水引到大海里去,地面上又可以供人种庄稼了。

未经允许不得转载:存储在线-存储专业媒体 » 形如大禹治水 重复数据删除技术重新定义BuRA