SEPATON DeltaStor:新一代重复数据删除技术
概述
指数级的数据增长和数据可用性需求的增加给企业的 IT 部门提出了很多挑战,其中包括快速备份和恢复不断增长的数据、满足严格的规章要求、在预算紧张的情况下实现越来越苛刻的恢复时间点目标。SEPATON 的基于内容已知技术的 DeltaStor™ 是用于 SEPATON S2100 虚拟磁带库的新一代重复数据删除软件,可以让企业用户以与物理磁带相当的成本在线存储更多的数据。通过改变数据存储的经济状况,DeltaStor 软件使得企业得以应付指数增长的数据,削减备份时间并显著延长了数据的在线保存周期,使恢复更加迅速。DeltaStor 软件采用了 SEPATON 独有的“内容已知”架构,具有分析关于文件内容和备份数据关系的智能,可以实现无与伦比的高速、简捷、可扩展性以及数据完整性。本白皮书将讨论该技术的基本原理以及如何使用 DeltaStor 产品来节省预算、时间、并提高备份和恢复的效率。
图 1 数据生命周期中的存储容量要求
新一代技术
DeltaStor 的设计远远超越现有的提供冗余数据删除的数据压缩软件,效率要高许多倍。
通常的压缩技术,例如 Lempel-Ziv ,使用基于流的方式减少数据存储空间,这种技术创建一个重复数据模式字典,并在一个较小的数据窗口内(通常为 8KB)进行查找.该算法删除数据窗口内的所有的重复数据模式并以字典中的指针替代,在 8KB 数据窗处理结束时,字典将被清空,然后可是下一个处理过程.因为这些技术只使用 8KB 的窗口作为数据参考,所以会忽略较大的重复数据,因此,根据数据类型的不同,这些压缩技术只能提供1.6:1 到 3:1 的压缩比。
相反, SEPATON DeltaStor 技术使用 delta 冗余删除技术, 使用这种技术, DeltaStor 软件可以搜索任意数量的数据对象版本,以找出重复的数据序列,然后用一个副本的指针替代重复数据.重复数据序列中只有一个实例真正存储在磁盘上,所以,采用这种技术, DeltaStor 可以以 25:1 的比例消除典型混合业务数据中的重复数据,对于某些电子邮件应用则可以达到 60:1。
为了实现更大的删除比例,可以把 DeltaStor 软件和基于流的软件,比如 Lempel-Ziv 结合使用,比如,DeltaStor 按照 10:1 的比率删除后的数据可以用 Lempel-Ziv 压缩实现 1:6 -3:1 的额外压缩,从而使整体冗余删除比达到 16:1 到 30:1 。
新一代重复数据删除技术的优势
DeltaStor 软件使企业存储管理人员使用和物理磁带相当的成本,享有磁盘存储的高速、灵活、效率。另外,使用比磁带容量更少的物理磁盘空间存储更多的数据,DeltaStor 软件显著减少了设备用电、制冷、安全以及其他操作和基础架构的成本。
即时数据恢复:数据在线存储,可以实现即时的随机访问。
更快速的备份:DeltaStor 软件在主要数据传输路径之外执行重复数据删除,使得 S2100-ES2 能以 2400MB/S 的速度执行备份,高于磁带 30 多倍。
高可扩展性:足以应对指数级的数据增长。S2100-ES2 具有强大的网格架构,支持构建任意规模的备份设备。另外,S2100-ES2 允许对容量和性能进行简便的、无缝的升级,用户可以按需定购。单台设备容量可以 10TB 的增量为单位,从 10TB 扩展到超过 25PB。
减少耗时的磁带管理工作:在磁盘上保留更多的数据减少了处理磁带、查找磁带故障和管理容量供应的劳动量。
消除数据的物理安全威胁:和物理磁带可能会被丢失、盗窃或者损坏不同,磁盘上的数据保存在一个安全、高可用的环境中。
简化数据管理:添加 DeltaStor 软件只需要简单的在 S2100-ES2 管理控制台中选中复选框。当重复数据删除减少数据卷时,通过内建功能自动回收容量并实现管理。
将更多数据保留在磁盘上以满足兼容性和恢复时间要求:例如,在 25TB 的系统上,每天备份 2.5TB 的数据最多只能保存 10 天。而使用 DeltaStor 软件的 S2100-ES2可以在相同的空间内保存相同的数据 250 天,同时提供基于磁盘数据保护的高性能以及其他优点。
基本技术原理
SEPATON 内容已知架构是经过全新设计的综合数据保护平台。SEPATON S2100-ES2 虚拟磁带库核心应用包含了强大的软件,比如动态磁盘文件系统(DFS)和 SEPATON I/O 子系统(SIS),可以和 DeltaStor 软件协同工作,建立基于网格的智能数据保护平台。
DeltaStor 软件的核心是 SEPATON 内容已知的数据库。在备份会话中,当数据保存到磁盘阵列上的虚拟磁带时,软件模块调用“数据读取器”读取数据并同时分析出元数据存入该数据库中。“数据读取器”捕获和每个独立的备份数据组相关的元数据,同时也捕获每个数据组中每个对象的元数据。DeltaStor 软件使用这些元数据标志数据对象之间的关系,并智能的做出处理决定。例如,当对象描述元数据指示出备份会话之间存在联系时,DeltaStor 软件会显著地缩小数据分析范围,因此提高了重复数据删除的速度。
该数据库保存在 SEPATON 动态文件系统的存储阵列中,具有全冗余的配置。因此,当数据增长时,该数据库可以自动调整以适应元数据的增长。为了和 SEPATON 的高可用设计模型保持一致,该软件可以通过简单地扫描 S2100-ES2 的虚拟磁带实现完全的元数据库重建。
简要过程描述
每次当备份任务完成时(例如:当卸载新产生的虚拟磁带时),S2100-ES2 中的软件都发送一条消息,触发SEPATON 内建的网格计算引擎启动 DeltaStor 副本删除过程,该过程分为 5 个阶段。网格引擎软件以负载均衡的方式调用系统内所有的计算资源进行任务调度和执行。这种能力实际上使该方案具有无限的可扩展性,因为任务可以被分配到所有可用的计算资源上。另外,用户可以有选择的添加 DeltaStor 节点,以提供额外的计算能力加速重复数据删除过程。
重复副本删除的5 个阶段如下:数据收集、数据识别和/或数据比较、数据重组、完整性检查、空间回收。
1、数据收集
在数据收集阶段,软件通过比较进入的备份数据和先前的备份缩小需要进行分析数据的范围,使用“内容已知”数据库辨别它们之间可能的重复和相似数据。例如,如果名为同一个客户端中的 “\root\documents\abc.txt” 文件在备份中存在两次,DeltaStor 软件自动决定采取何种动作。如果进入的数据是已存在数据的修改版本,该数据就进入下一阶段(数据识别、数据比较)的处理流程以确定数据发生的具体变化;如果进入的数据和已存在数据完全相同,那么进入下一阶段对数据副本进行校验。另外的数据收集操作包括: 标志保存在不同位置(例如,不同的客户端,目录等等)的相同对象副本。软件为数据收集阶段发现的冗余数据对创建一工作列表,该表格用于数据识别和比较阶段进行进一步分析。
2、数据识别,数据比较
在数据识别/数据比较阶段,软件以字节为单位分析数据收集阶段标志出的相似数据对象。如果数据收集阶段创建的工作表表明需要进行数据识别,那么软件就会用 delta 差分算法确定备份组中的那些数据是唯一的、那些数据是重复的。
图 2 DeltaStor 重复数据删除五阶段
该算法可以有效的以字节为单位映射发生变化的数据,并且对数据对象内的变迁或者位置改变不敏感,所以,即使相关的对象之间发生明显的结构改变,该算法仍可以定位冗余的数据。
如果数据收集阶段从元数据级别认定备份组中的数据和前一个备份相同,那么在数据识别阶段将以字节为单位对数据进行比较。在该步骤中,软件调用数据比较器识别出数据发生变化的文件,即使其元数据仍然相同。
3、数据重组
数据识别、数据比较的结果被传递给数据重组过程,在该过程中数据被重新组装,放入临时的“保留磁带”中,新数据被保存,前一阶段被标出的重复数据被已存数据的指针替代。对备份软件而言,保留磁带和真正的磁带完全相同,只是存储在新磁带中的数据要远少于真正的磁带上存储的数据。从备份软件看来,数据是连续的并且也没有删除副本,SEPATON 软件可以根据嵌入在文件系统中的指针读取重复数据的唯一一份副本。该过程的最终结果是产生一份经过重复数据删除的备份组视图。
4. 可选的完整性检查
在实际删除所有的重复数据前,软件执行一次可选的检查,以保证数据 100% 的完整。在本阶段中,软件通过将“保留磁带”(代表经过 DeltaStor 重复数据删除的数据)和原始数据进行比较验证其结构和整个的数据内容。
5. 空间回收
在空间回收阶段,软件从文件系统中删除冗余的数据,释放先前被占用的磁盘空间以备他用。保留磁带和原始的、没有经过重复数据删除的磁带交换位置(比如条码、槽位以及属性等),然后软件智能的释放重复的区块并将它们放回空闲空间池。经过这样的处理以后,所有其他需要存储空间的数据处理过程都可以重用先前被重复数据占用的空间。
DeltaStor 软件操作
DeltaStor 软件要求的人工干预极少,它和 S2100-ES2 中的软件协同工作,能够处理所有的负载均衡、优化并自动执行任务。基于以下考虑,适当的配置是必要的:
每次备份增加到 VTL 的最大数据量:DeltaStor 软件要求有足够存储两倍于一次备份增加数据量的磁盘空间。做为一种 delta 差分技术,该软件要求同时操作一个“基线”数据对象和一个修订对象。
备份窗口长度:和其他增值特性相比,DeltaStor 软件总是优先保证主要的备份/恢复性能,只在系统资源空闲时才运行。如果由于备份和恢复窗口的原因没有足够的时间运行重复数据删除过程,SEPATON 可以向网格引擎中增加专门的 DeltaStor 节点以满足要求。
希望的数据保存时间:当越来越多版本的相同数据保存在线时,重复数据删除的比例会变得越来越大。在实际环境中,经过副本删除的数据要求的磁盘空间量由原始数据大小、存储的版本数目和重复数据删除比例共同决定。
数据性质:如果大多数增加到 VTL 的数据都是新产生的数据(新数据库纪录或者新收集的数据等等),那么就没有多少重复数据可以让 DeltaStor 删除。相反,如果大多数数据是静态的(例如,Microsoft Exchange 或者 MS Office 文档),那么该技术就会带来明显的好处。
数据类型:备份到 VTL 上的数据库和非数据库数据对象的比例不同,所要求的计算机处理特定数据环境的能力也不同。