重复数据删除一样可以在主存储领域大有作为,尤其是虚拟机和虚拟桌面。Gartner存储技术和策略研究副总裁Dave Russell说,他从用户那儿听到了一些激动人心的数据去重技术,他们大多采用存储厂商自带的重复数据删除技术。
在这个访谈里,Russel讨论了对主存储和备份数据使用同一个厂商的重复删除技术的可能性,以及这样可能带来的长时间的厂商锁定风险。
SearchStorage:很多用户对备份使用重复数据删除技术,但是对主存储使用重复数据删除的少之又少。什么类型的重复数据删除技术对于主存储是行之有效的?
Russell:其实重复数据删除对主存储有趣而且有效的原因,和备份领域采取重复数据删除的原因是一样的。备份领域最先拥抱重复数据删除是因为备份里有着如此多的冗余数据,很多用户每周都做全备份,有些组织甚至每个应用程序每天都做一次全备份。我们认为只要有大量的冗余数据,那我们就能因重复数据删除技术而获益。
在主存储领域,虚拟机镜像文件很适合采取重复数据删除技术,客户端虚拟化,或者说虚拟桌面,可以有极高的去重率。我曾听说过100比1的去重率,也就是99%的重复数据消除,极大的节省了虚拟机或者虚拟桌面所需的存储空间。特别在服务器虚拟化领域,很多用户已经部署了该技术,因为虚拟机镜像文件存在大量的重复数据,有些项目的共享文件、共享网络卷或者一个部门所共享的磁盘中,保存着大量同样的Excel文件、Word文档、修改过的ppt文件,最终用户拥有和保存的是存在大量冗余的数据。
SearchStorage:那你建议用专用设备或者厂商自带的技术做主存储上的重复数据删除吗?
Russell:凡事有利亦有其弊。名义上或者说理论上,专用设备的好处就是它支持目前几乎所有的磁盘技术。所以,如果你不想采购新的存储设备,或者你想开启一些被禁止的功能,那么一款专用设备对用户来说会很有吸引力。但它的劣势就是需要购买额外的基础设施,包括连接存储的数据线,在很多情况下用户都不愿意这样做。我们往往看到用户倾向于存储设备自带的重复数据删除技术,他们希望它来自于一个主要的厂商,而且这种功能嵌入在存储方案里。这样做的好处之一就是重复数据删除功能往往不是收费项目,而额外的专用设备则需要额外的花费。
SearchStorage:市面上有什么厂商的数据去重技术既能用在主存储,又能用在备份上?这样做能带来什么好处?
Russell:我们可以看到很多用户已经将重复数据删除技术部署在备份上,或者开始参与进来,这种趋势也开始向主存储领域发展。一年前,戴尔收购了该领域的Ocarina,HP也已经拥有了像StorOnce这样的在主存储领域的重复数据删除技术。
目前看来,各大厂商用在主存储和备份上的重删技术却并不通用。就算是像在备份领域已经有了Avamar和Data Domain的EMC,在主存储领却使用另外的重复数据删除技术。
使用单一厂商的技术,其优势在于它接受数据然后使用重复数据删除技术去除冗余的数据,在数据写入或者读取的时候可以减少数据负载。这样做的最好的厂商或许算NetApp,它对主存储数据进行重删和压缩之后,当数据被传输到异地做灾难恢复或者发送到另外一块NetApp所管理的磁盘上时,只需要传输和保存更少和更小的数据文件。
SearchStorage:如果用户对于主存储和备份分别使用不同的重复数据删除技术的话,会有什么问题?
Russell:这并不是必须的,分别使用不同的技术肯定可以行得通,而且也不会存在连接性或者技术支持方面的问题。只是这样的话会有一个对数据进行重新恢复的过程。如果你用A厂商的技术做主存储的重复数据删除而用B厂商的技术做备份的重复数据删除,那么在做备份的时候,已经做过重复数据删除的备份数据流需要先恢复成原始的数据,厂商B则会对传输过来的这份数据作为目标再做一次重复数据删除。这不一定不好,我曾听到一些组织认可这样的方案,他们喜欢改变用来对数据做重复数据删除的技术或者算法。但是我们可以预见市场最终会通过其努力去减少数据,让保存的数据更少。
SearchStorage:从一个重复数据删除产品切换到另一个有多困难呢?是否只要我们做出了一个选择,那么就会就被厂商或者产品长久锁定?
Russell:在我们看来,如果你想做到技术架构标准化的话,自然会有一定程度的厂商锁定,这样有利也有弊。你熟悉厂商和技术并知道如何去优化配置使用它,但是也会存在潜在的缺点,比如你超出了最大的容量,哪怕只是那么一点点,那你要买的可就不只是一点点,如果你超出了最大的可扩展容量,你或许要采购一台非常大的设备或者采取一个全新的框架。所以这样可以被视为一定程度上的厂商锁定,但是很多组织认为在一定程度上看来,这样的成本是可以接受的,但如果扩展到整个企业的话,他们会开始感觉到成本变的十分高昂。
从更换厂商的难度来说,我们知道更换主存储厂商发生的很频繁,但这并不是一件容易的事,很多人认为只不过是用厂商A代替了厂商B,但是他们没有考虑到的是,如果你现有的主存储上是20:1的重复删除率,假如你用另一个厂商的产品替换它,这并不意味着你有10TB的数据然后迁移到另一个磁盘空间里,实际上你需要先把数据还原成最初的未经过删除的原始数据,那么网络中需要传输的其实是200TB的数据。所以,事情往往没有看上去的那么简单。