DoSTOR存储分析:日前,业界出现了大量关于重复数据删除的传闻,反映出市场对于采用这种技术的最佳方法问题上的争议愈演愈烈。
重复数据删除技术的重要性越来越强,这一点从Data Domain公司最近IPO上市的表现可见一斑,而Diligent Technologies公司也获得了新的投资。同时,存储设备专业厂商们面临的指责也越来越多,因为有些厂商提供的方案与它们的介绍并不相符。
许多大型厂商如EMC或者SUN可能会加大它们在重复数据删除技术上的合作,市场传闻因此更盛。最新市场传闻称,EMC公司也许会宣布与Data Domain公司建立密切合作关系,增加或者替换掉它从收购Avamar公司交易中获得的重复数据删除技术。
从各种市场传闻中可见,供应商们正致力于争取那些潜在客户。争议的中心问题是某些重复数据删除方法比另一些方法性能更好,可调整性更强。
用户们应该如何对待这些争论呢? 用户在购买相关产品时是否应预选将关于重复数据删除方法的最新论战的内容纳入考虑范畴呢?
为了解决这些问题,我们整理了下列最新论据:
设备型方法最好。有些人认为采用本地服务器上的代理的产品或者在备份中进行的重复数据删除方法不如基于设备的重复数据删除方法有效。
至少有一位客户表达了不同的意见。财经服务公司Integral Capital Partners的信息系统经理Jason Paige说,它在Avamar公司被EMC收购之前选择了该公司的产品,因为在多台服务器上使用代理软件可以减少远程备份所需的带宽。另外,重复数据删除可以将备份的时间从8小时减少到3小时,而且他可以在将备份支持的计算机数量增加6倍的同时进行更为细致的Exchange备份。
但是Paige承认,系统规模比他所在公司的系统更大的客户也许会选择后端处理的重复数据删除解决方案。
同步处理型比后期处理型好一些。有些人声称Data Domain和Diligent公司的解决方案是使用设备在数据被发送到备份系统之前同步完成重复数据删除的,它们比那些后期处理的重复数据删除解决方案比如FalconStor和Sepaton公司的解决方案的效率更高一些。
Storage Switzerland顾问公司的George Crump在最近写的博客中说:“随着市场的成熟,我们开始在采用了重复数据删除的企业中发现分歧了。” 他认为,只有采用同步设备才能在处理重复数据删除任务时保证服务器不至于崩溃。而且,如果在备份后再进行重复数据删除,那么用户将需要更多的存储器,而且在万一真的发生存储设备空间用尽的情况时,执行重复数据删除也可能会与RTO的速度相抵触。
但是也有人认为虽然同步设备解决方案可以减少使用的磁盘的数量,但是它会影响网络的性能。
至少有一位不愿意透露姓名的分析师表示两种解决方案各有利弊。他说:“两种解决方案各有利弊。 好的后期处理型解决方案的效率也可以达到跟同步设备型解决方案一样的水平。好的同步设备型解决方案也可以达到与后期处理型解决方案一样的速度。 记住:数学和编程中的一条基本理论就是解决问题的方法可以有多种。每一种解决方案的创造者都认为自己的方案是最好的,是解决问题的唯一途径。”
基于散列算法的重复数据删除解决方案是不能进行调整的。有些重复数据删除技术厂商声称它们的解决方案不会耗用太多的处理能力资源,因为它们不是基于散列算法的。 这通常是说某厂商的产品的重复数据删除作业是在RAM中完成的,而不会耗用CPU的资源。
也许有一些厂商会将具体的解决方案与其他解决方案进行性能上的对比,但是没有第三方测试的情况下,那些结论都是靠不住的。另外,用户们也无法弄清楚到底哪些厂商的解决方案使用了散列分布而哪些方案没有使用。 实际上,有些人声称可以利用多种技术来完成重复数据删除。
最后,用户们实际想从重复数据删除中获得的东西也许与厂商们提供的东西并不一致。据451集团分析师Simon Robinson说,他的公司调查的许多用户报告说他们的重复数据删除方案标准中包括了数据完整性、复制支持、易用性、价格和包装等许多因素。 他说:“性能是关键。 数据完整性也是个大问题。”
以后,一种形式的重复数据删除与具体应用的大小和类型的相配也许会变得清楚一些。目前,供应商们似乎想尽可能把水弄浑一些。