仅仅在几年之内,重复数据删除已经从一个只有大企业才能买得起的技术变成了在备份和恢复领域普遍应用的功能。
重复数据删除已经变得如此重要以至于数据存储厂商投入数百万、甚至数十亿美元来收购重复数据删除技术。例如,去年EMC用20亿美元收购Data Domain。
现在,我们将看到重复数据删除技术的下一个发展:开源软件重复数据删除技术。一些成功的开源软件存储厂商(Bacula、Nexenta、 Sun/Oracle和Zmanda)以及Opendedup等新的厂商正在向专有的解决方案提出挑战。
Opendedup
今年3月,一个新的开源软件重复数据删除解决方案Opendedu一推出就成为媒体的重要新闻。Opendedup是一个用于Linux的重复数据删除文件系统,也称作SDFS,旨在用于拥有虚拟化环境的寻求更高性能、伸缩性、低成本重复数据删除解决方案的企业。
据开发人员Sam Silverberg说,SDFS的设计目标是利用具有重复数据删除的存储优化技术的基于对象的文件系统提供的性能和伸缩性的好处。这个结果是:Opendedup/SDFS能够删除1PB或者更多的重复数据;以128K块尺寸每GB内存支持3TB以上的数据;以每秒290MB的速度执行内联重复数据删除;具有高集合I/O性能;支持VMware(以及Xen和KVM);能够删除4K块尺寸的数据。我们没有提到它是免费的吗?
Silverberg说,Opendedup/SDFS在一个标准的Linux系统上大约需要20分钟就可以设置完成,不需要编译。SDFS卷将安装,就像任何Linux文件系统一样创建。曾经在Linux上安装过卷的人应该都熟悉这些指令。而且,对于需要很少的帮助的人们来说,Opendedup网站上还有一个快速启用指南和详细的管理指南。但是,任何人(也就是拥有Linux系统的任何人)都能使用并且从Opendedup中受益吗?
据Silverberg说,大量使用虚拟化或者正在寻求存储效率高的基于磁盘的备份系统或者需要存储大量数据的任何机构都能够从 Opendedup/SDFS中受益。
但是,Opendedup/SDFS真的是专有的解决方案的替代的技术吗?
Silverberg说,SDFS拥有超过许多专有的解决方案的性能、伸缩性和成本优势。目前在开源软件解决方案中没有提供复制、基于源的重复数据删除和每周7天每天24小时电话技术支持。
Silverberg说,SDFS是一个文件系统,能够像一个存储设备一样很容易地实施。但是,它还更深入地集成到了备份和管理程序等解决方案中,但是,没有连接到专有的API(应用程序编程接口)。
然而,他补充说,如果一个机构正在寻求一共文件系统的天然性能、伸缩性和重复数据删除,SDFS是一个选择。许多企业显然正在这样做,因为在这个软件的推出的第一个星期,Opendedup.org发现该网站的访问人数达到1.4万,其中许多人下载了这个软件。
Bacula
开源软件网络备份和恢复软件厂商Bacula Systems也加入了开源软件重复数据删除的行列。
Bacula.org的创始人和 Bacula Systems首席技术官Kern Sibbald说,在大多数企业,使用的存储总量正在以非常快的速度增长,每年大约增长40%。因此,要跟上需要备份的日益增长的存储量,我们需要使我们的备份系统速度更快和更有效率。这样做的一个途径是推出重复数据删除功能。
Sibbald说,在Bacula(5.0版)中,我们采用了我们称作"基础"工作的东西,允许用户控制哪些文件将考虑适用于重复数据删除。这是我们进入重复文件删除的第一步。这是一个文件级的重复数据删除,而不是数据块级的重复数据删除。
Sibbald指出,有一些存储分析师把Bacula的重复数据删除解决方案当作SIS(单实例存储),但是,Bacula把它当作文件级的重复数据删除。
他说,我们已经做得事情的好处是,与其它重复数据删除技术相比,它的实施比较简单。它在磁带和硬盘上做重复数据删除同样好,并且非常有效。此外,与正在使用的块级或者字节级重复数据删除相反,恢复的时候额外的开销非常小。
这就是说,Sibbald承认Bacula一直在试验块和滑块重复数据删除技术。未来发布的软件中很可能将包含其中一种技术或者两种技术都包括。
Sibbald说,至于Bacula 5.0.0,这个反应是一直是给人深刻印象的。这个软件发布的最初的几天下载量是非常大的。不过,他没有说下载量的增加与这个软件包含重复数据删除功能有多大关系,因为这个软件还增加了其它的功能。
Zmanda
Zmanda是以Amanda开源软件备份和恢复软件为基础的,同样开始在其软件中包含重复数据删除功能。
Zmanda首席执行官Chander Kant说,我们正在采用源级(在备份客户方面)和目标级(在存储介质方面)的重复数据删除技术。他指出,Amanda已近进行了测试并且用包括EMC的数据域和甲骨文/Sun ZFS在内的一些目标级重复数据删除技术进行了认证。
Kant说,重复数据删除可能为Zmanda用户节省大量的系统资源。我们将看到非常好的压缩比例。而且,重复数据删除对于最终用户是透明的。
同Opendedup和Bacula一样,对于在Amanda的目标方面包含开源软件重复数据删除功能的反应一直是积极的。Kant说,他看到更多的企业,特别是中小企业,采用开源软件重复数据删除解决方案。通过节省存储成本可以扩大他们有限的IT预算。
Nexenta
至于开源软件存储解决方案厂商Nexenta Systems,它在今年3月底发布的最新版本存储解决方案NexentaStor 3.0中采用了基于ZFS的内联重复数据删除技术。Nexenta称,NexentaStor 3.0不仅是为主存储提供内联重复数据删除功能的第一个存储解决方案,而且像ZFS那样的开源软件解决方案在技术上也比专有的技术优越。
NexentaStor 3.0首席执行官Evan Powell说,我们对于ZFS内联重复数据删除有非常深刻的印象并且相信它是目前市场上最好的重复数据删除技术。
的确,当要求比较一下NexentaStor如何进行竞争的时候,Nexenta称,使用NexentaStor软件的客户比使用专有的解决方案的用户节省75%的成本,主要原因是通过压缩提高了效率。
至于NexentaStor的目标市场,那可能是拥有微软Hyper-V、思杰Xen和VMware等大型虚拟化环境的大企业,包括托管的和云计算服务提供商、研发机构和拥有虚拟桌面环境的企业。
标准支持开源软件
暂时把宣传放在一边,开源软件重复数据删除解决方案真的像专有的解决方案一样好或者一样可靠和有伸缩性吗?
Bacula公司的 Sibbald说,专有的解决方案是昂贵的并且不提供源代码,因此不容易检查和对比他们的性能。从我看到的专有厂商的重复数据删除统计和lessfs等开源软件项目的统计来看,我可以说开源软件解决方案能够很好地与专有的解决方案竞争。
Zmanda公司的Kant说,过一段时间,重复数据删除将成为标准。就像我们目前对压缩算法实施标准化一样,重复数据删除也将有标准算法和格式。开源软件因为标准化而发出光芒。因此,重复数据删除的未来就是开源软件。