数据存储产业服务平台

存储技术的新宠:重复数据删除技术

面对经济低迷等状况,软硬件厂商则绞尽脑汁的推出各种有可能获得企业青睐的产品技术;就连一向低调的存储厂商也不例外,如更加大张旗鼓的鼓吹可通过删除重复数据等方式落实节流。但企业有必要全盘买单吗?

金融危机下的热门存储技术

近一年来,存储厂商除了向企业用户倡导通过重复数据删除(Data Deduplication)技术缩减其花在采购存储设备的费用等观念外,也开始通过研发或购并等方式强化其的重复数据删除技术产品线。

其中是以七月中上演的EMC和NetApp两强相争之战最受市场关注–虽然一开始是由NetApp胜出,但最后仍是由EMC以21亿美金顺利买下重复数据删除技术领导厂商Data Domain。该举意味即便经济低迷,存储厂商也不放弃任何可吸引企业青睐,以及扩张市场的机会。

但比较耐人寻味的问题是数据去重复化技术真有其前景吗?再者,EMC稍早之前买下的重复数据删除技术软件公司–Avamar–又该怎么办呢?

讨论资料重复数据删除技术是否有其前景前,得先明了该技术的本质是一种由重复数据删除技术来减少存储需求的手法。

举例来说,在未导入重复数据删除技术前,如果有人发了一封内含1 MB附文件的电子邮件给公司内的100位同事,那企业后台系统必须因应该附件存储100份拷贝、耗费100MB的存储空间。若导入重复数据删除技术技术,那系统只会保留一份拷贝,其他的99份拷贝则会以指向实体拷贝位置的指针取代。

也就是说,原先企业得挪出100MB的存储空间方能执行上述动作,现在只要有1MB、或是比1MB稍多一点(含指标)的存储空间即可。

这样的好处是显而易见的。

它除了减少了企业花费在存储重复数据的空间需求外,也不再需要为了(远距)数据复制与传送等动作而投入巨资打造高网络带宽。因为,透过数据去重复划技术移除重复性的数据(亦即完成数据瘦身)后,无论是数据备份或异地数据复制皆可比以前更快完成。

整合既有的存储技术

由于数据去重复化技术可以档案、区块与位等3种方式进行。其中是以档案的去重复化最没有效率。至于以区块和位的方式进行数据去重复化的技术虽然效率极高,但也存在一个问题:需要更高的运算能力。

这与以区块或位的方式移除重复性数据的作法是以MD5或SHA-1等哈希算法检视档案内容的方式有关。由于该种作法是透过为每一组数据编列一个唯一的哈希数字组,并以此作为比对索引,系统只要一发现被编列为一样的哈希数字组,即会进行数据删除;因此,为避免哈希碰撞问题不断发生–系统不小心将两组不一样的数据归类成相同的HASH数字组,并放弃存储被编列为相同HASH数字组的数据–通常会通过结合数种HASH算法、或是检视中介数据等方式降低hash碰撞的发生机率。

而该种做法意味着企业必须有极强的后端运算资源执行以HASH算法删除重复数据的数据去重复化技术,并且有足够大的索引数据库追踪个别的数据组。因此,基于现实的考虑,决定要导入数据去重复化技术的企业多半会选择将该技术与传统的压缩或变动差异等作法整合在一起使用。

当前两种主要的产品形态

就目前的重复数据删除技术产品来说,大约可分为软件和硬件两种。

前者是指在备份服务器上安装代理程序,利用备份服务器的运算能力将数据去重复化后再备份。这种方法除在企业进行全备份时会明显拉长备份时间外,如何区隔在同一部服务器上的备份软件与重复数据删除软件的责任也是一个潜在的维护问题。

至于后者则是指安装独立的硬件装置执行重复数据删除软件。当然,随着该硬件装置在备份环境中的位置不同,其产生的的影响也会有所不同。

简单来说,一种是先备份再去重复化,另一种则相反。前者不会影响备份完成的时间,后者则使用较小的磁盘空间。

另外,由于重复数据删除技术与数据备份作业的关系极为密切,因此有一些虚拟磁带的制造商开始将重复数据删除技术整合至其销售的虚拟磁带产品。笔者以为,对那些尚未建置虚拟磁带环境的企业来说,若是能趁着有需要时一次引进两种技术也是个不错的选择。

仅采用新技术还不够

从近期各大存储厂商的动态来看,其似乎有志一同的看好重复数据删除技术。但笔者认为,无论是哪一种存储或备份技术,其产生的效益皆、都是"视情况而定",也因如此,恐怕企业无法单纯的以重复数据删除技术为那些已存储的数据瘦身、进而节流。

以重复数据删除技术来说,由于数据类型、数据变动率与重复性数据的数量等数据内容,要以全备份、间备份或差异量备份的方式进行数据备份,以及企业打算将备份数据保留多少时间等因素皆会左右该技术功效,因此,企业若是抱持引进该技术即可无碍的将肥胖的数据彻底瘦身一番的预设心态,恐怕会陷入结果不如预期的窘境。

既然如此,企业到底该如何通过删除重复数据落实节流呢?除了先花一笔大钱导入重复数据删除技术外,笔者建议企业或许可以先透过一些"无料"的手法将庞杂的已存储数据瘦身一番,其后再考虑是否要进一步采购其他的存储软硬产品。

未经允许不得转载:存储在线-存储专业媒体 » 存储技术的新宠:重复数据删除技术