在如今艰难的经济形势下,厂商必须做到两件事:1)向支出谨慎的潜在客户证明该厂商的产品在经济上是合算的;2)表明为什么该厂商的产品优于竞争对手的产品。
重复数据删除吸引众多注意
过去几年来,在企业客户中获得越来越大的市场成功的存储相关领域之一便是基于磁盘的备份,尤其是附加虚拟磁带库(VTL)的磁盘备份。对于操作恢复和灾难恢复来说,不间断运行的业务关键型应用程序(看起来现在有越来越多的应用程序属于这个类别)发生过长的宕机时间是不可接受的。比起磁带(虽然磁带目前还没消亡),VTL具有性能和可靠性的优势,因此VTL的使用越来越普遍。
对于基于磁盘的备份来说,一个关键的附加功能就是重复数据删除。尽管大多数数据恢复请求是在24小时内创建的,但是企业可能希望将备份数据保持三周的在线,有的甚至要一个月甚至更长时间。一些企业甚至选择将基于磁盘的备份保持一年以上的在线,以便满足合规要求和其他规制要求。不过,在这么长的时间内每周存储完全的备份在经济上是难以承受的–特别是对于那些IT预算紧张的公司来说。
重复数据删除为组织提供了一个删减备份数据数量的解决方案。例如,4周的完全备份需要大约4X的数据,其中X是指一周的备份。不过,假如每周的数据变化率是中等的(对于许多组织来说是如此),大多数数据在每周备份中保持不变,因此原始数据的数量可能是完全备份的1.1X或1.2X(每天平均变化率在2%到4%之间)。重复数据删除可以删减这些冗余的数据"水分",使其不进入备份和存储过程;也即,只备份那些新数据或非冗余数据。这样就可以更加有效地利用磁盘资源,使存储预算支出更加合理有效。
因此,重复数据删除是基于磁盘备份的关键工具,而且也可以用于帮助活跃生产和活跃归档。厂商们"认识"到了该技术的价值。NetApp和EMC正在竞购Data Domain:NetApp出价已经从15亿美元增加到19亿美元,EMC出价为18亿美元。这两家公司的竞购体现了重复数据删除的价值,同时也体现了Data Domain确实是一个良好的能够适应多厂商环境的磁盘备份存储重复数据删除供应商。EMC和NetApp过往的收购记录良好,它们往往能够成功地消化被收购资产。
不过,NetApp并不是第一个在这个领域展开并购行动的厂商。EMC在2006年收购了Avamar,而且正在积极地将Avamar的技术扩展至EMC的各个解决方案的产品组合–EMC最近宣布将会在NetWorker上使用Avamar技术。就在一年前,IBM收购了Diligent Technologies,后者也有强大的重复数据删除能力。活跃在重复数据删除领域其他厂商还包括:CommVault,FalconStor,惠普,Quantum和Sepaton。网络存储行业协会(SNIA)旗下数据管理论坛的数据保护行动工作组最近发布了《数据保护行动成员买方指南(2009年第五版)》。在这个《指南》中,提到了VTL和重复数据删除。(SNIA同时也是重复数据删除领域许多信息的重要来源)
FalconStor进行性能测试
现在,让我们来看看重复数据删除领域的领导厂商之一,FalconStor。FalconStor有强大的OEM(贴牌厂商)合作关系(此外还有直接销售渠道),即使VTL领域还有其他的实力雄厚的厂商,FalconStor还是可以声称它在VTL领域有领先的市场份额。但是这个市场的竞争非常激烈,FalconStor的宝座位置也不是很稳。
实际上,该公司最近的一项宣布有可能搅动这个行业。FalconStor宣布,在虚拟磁带库(VTL)环境下,该公司的重复数据删除解决方案可以提供最快的灾难恢复(DR)总时间。DR总时间的计算是指如下时间的加总:备份给定数量存储的时间,创建物理磁带的时间(如果需要),将数据重复数据删除到数据仓库的时间(以及将重复数据删除库复制到远程站点的时间,这个复制过程和重复数据删除过程是同时进行的),从重复数据删除库恢复的时间。(见《昆腾NEC推出新品 de-dupe市场陷入混战》)
FalconStor认识到,虽然硬件行业有许多标杆,但是它感觉自己作为一家软件公司,它需要一个参照点来证明其解决方案的能力。因此,FalconStor需要为客户创建一个参考架构。FalconStor必须建立一个参考环境,在这个环境中可以进行各种测试来衡量FalconStor产品的在企业级数据中心环境下的性能特征。
FalconStor使用它最新的附带重复数据删除功能的VTL,同时这个VTL还附带了使用赛门铁克OpenStorage(OST)API(应用程序编程接口)的Symantec NetBackup。尽管FalconStor有时为了方便客户会在设备中捆绑一些软件,但是FalconStor主要还是一家软件公司。在这个测试中,FalconStor只是简单地使用开放系统服务器和商品的SATA存储。测试数据集定为100TB。
衡量性能
FalconStor使用一个名为目标端重复数据删除的过程,即备份被写入磁盘,然后重复数据删除过程在数据已经写入磁盘后开始工作。接收速度(即,备份数据写入磁盘的速度)是备份声明周期的关键的第一步,即使现在,如何满足备份窗口要求仍然是企业在备份上所面临的第一大问题(同时,这也是磁盘备份在企业中越来越流行的根本原因之一)。
备份过程中写入数据的磁盘可以被看做一个"暂存池",因为它只承载最新的备份(但也有可能被用于数据恢复)。在FalconStor的术语中,承载重复数据删除后数据的实际存储池是一个块层次的单实例库(SIR)。这里不要和单实例存储(SIS)相混淆。SIS是一个数据缩减技术,这个技术可以在文件层次上保存单实例。SIR是在块层次上保存单实例,也就是说重复数据删除是作用在文件的下一个层级。
这就是执行目标端重复数据删除而不是来源端重复数据删除的好处。对于FalconStor的客户和许多其他企业来说,它们很可能愿意使用目标端重复数据删除。
FalconStor的参考环境使用的是配对的集群式VTL节点。每个节点都处理它自己的工作负荷,但是每个节点都有另一个节点与其形成主动-主动式的配置,这样如果一个节点发生发生故障,另一个节点就可以接过工作负荷(虽然性能会有一定下滑)。FalconStor总共使用4个SIR节点,对来自暂存池的数据进行重复数据删除,然后存入单实例库。单实例库到远程站点的复制过程(这个过程可以和重复数据删除过程同时进行)的速度是4GB/秒,也就是500MB/秒。FalconStor感觉这个过程中没有瓶颈,因为FalconStor已经配置了足够的资源来将创建好的数据复制过去。
FalconStor声称,在这次测试过程中,100TB数据的备份在不到10小时的时间里就完成了,而且这个100TB的数据池在14个小时的时间内得到了重复数据删除。这里要注意的是,备份和重复数据删除的这两个时间是并行的,而不是一前一后的。重复数据删除过程需要等待第一个虚拟磁带库被写入磁盘,但是一旦写入后,重复数据删除便开始启动。这里要指出的是,客户还可以在重复数据删除启动前选择将数据写入物理磁带。FalconStor提供的政策引擎还可以管理这些流程,比如将不适合重复数据删除的备份工作(比如,视频流)从重复数据删除流程中剔除。
在重复数据删除库(无论是本地的还是在DR站点的),每个节点的数据恢复速度都是1.2GB/秒,或4.3TB/小时。通过两个VTL节点,完全恢复100TB数据的时间为11.6小时(如果增加新的节点,还可以缩短恢复时间)。
虽然目前还没有客观的标杆(比如用于衡量服务器性能的SPEC标杆)来帮助评估FalconStor的测试,但是该公司的性能数据令人印象深刻。就在几年前,人们还认为1TB/小时的备份速度非常先进。那么对于附重复数据删除的VTL市场来说这意味着什么?首先,我们认为FalconStor公布性能数据应该值得肯定(虽然至少还有另一个厂商还做出了关于重复数据删除解决方案的性能声明)。
对于那些希望量化重复数据删除技术价值和经济价值的企业来说,这种性能声明确实很有价值。不过,这有可能激起另一场"SPEC(标准性能评估机构)标杆"之争。虽然标杆最终会变成一个正规的受认可的流程,但是目前在重复数据删除上还没有普遍认可的衡量流程,因此一些厂商可能认为FalconStor的测试是一个明显的挑衅。其他厂商会如何反应?它们有可能:1)声称性能并不重要;2)声称FalconStor的测试不是按照真实情况下的设置;3)完全忽略FalconStor的举动;4)声称它们的性能可与FalconStor媲美或比FalconStor更好。
重复数据删除的现有客户或潜在客户对此会做何反应?如果声称性能并不重要,则显然违反事实。如果忽略FalconStor的举动,则会让FalconStor获得竞争优势。挑测试过程的毛病是一个常见的策略(在SPEC测试中,有时也采用特殊设置,这种特殊设置有的在实际情况中是不现实的)。
那么竞争对手唯一的选择就是对它们自己的产品进行类似的分析,然后以最真实的方式得出测试数据。这种争论过程对于整个行业以及客户来说都是有利的。这一点我们要感谢FalconStor。