NetApp 重复数据删除基础知识回顾
Carlos Alvarez 发表于:11年06月20日 17:49 [来稿] 存储在线
如果有 100 台 VM 运行相同的操作系统,每台虚拟机需要 10 GB 到 20 GB 的存储,就会有 1 TB 到 2 TB 的存储被几乎相同的副本专门占用。应用 NetApp 重复数据删除可以删除大部分本质上冗余的数据。
大体上说,如果将 X 台虚拟机分配给存储卷,执行重复数据删除之后,所需操作系统存储量约占未经过重复数据删除的环境中所需存储量的 1/X。显然,获得的实际结果取决于卷中 VM 的数量及其相似程度。
实际上,客户在 ESX VI3 环境中通常能够节省 50% 甚至更多的空间,有些客户的存储节省多达 90%。这是对整个 VMware 存储环境(不仅包括操作系统,还包括应用程序数据)执行重复数据删除的情况下得出的结果。在 VDI 环境中,客户通常节省空间多达 90%。
NetApp 也一直在研究重复数据删除为常见工程和科学应用程序创建的非结构化文件数据的存储库带来的益处,下面以 Siemens Teamcenter PLM 软件、IBM Rational ClearCase SCM 软件和用于地震数据分析的 Schlumberger Petrel 软件为例进行说明。
Teamcenter 使用了一个相对较小的元数据数据库和一个用于存储工程设计文件的大型“存储库”。每当工程师在 Teamcenter 中保存设计时,程序就会在存储库中保存该设计文件的完整副本,即使仅对设计做出十分细微的更改也会如此。
NetApp 与 Siemens PLM 密切合作,使用 Siemens 的性能和可扩展性基准工具模拟正常使用时为大量设计文件创建多个修订版本的操作,据此评估重复数据删除在 Teamcenter 环境中的价值。对生成的存储库执行重复数据删除可节省 57% 的空间。鉴于在许多情况下,文件修订版本数量可能多于我们模拟的数量,因此实际节省的空间量可能还会更高。(当然,一般来说,使用模拟方法来衡量重复数据删除可能节省的空间时,必须非常谨慎。在许多情况下,由于关注的通常是性能而不是数据形态,因此模拟的数据会人为地造成非常多的重复数据。)
与 Teamcenter 类似,领先的软件配置管理解决方案 IBM Rational ClearCase 也包含元数据数据库和用于存储文件的大型“版本化对象库”,简称 VOB。在需要创建 VOB 副本时,对 ClearCase 执行重复数据删除是最有帮助的。此外,实验室环境中的初步结果表明,存储完整的文件时,在 ClearCase 环境中执行重复数据删除可节省空间 40% 甚至更多。
Schlumberger Petrel 用于地震数据解析、油气藏可视化和模拟工作流。它会创建包含大量文件的项目目录。用户创建、分发和归档数据时,会在多个存储设备中存储重复数据对象。通过对此类项目目录应用重复数据删除,NetApp 节省了大约 48% 的空间。
使用 NetApp 重复数据删除
表 2 汇总了运行 NetApp 重复数据删除的基本要求。
表 2) NetApp 重复数据删除的基本要求。
除这些要求之外,注意采用一些最佳实践也有助于成功实施重复数据删除。下面的内容汇总了一些重要的最佳实践,并提供了重复数据删除与其他常见 NetApp 技术结合使用的相关信息。有关详尽说明,请参阅 TR-3505:《NetApp Deduplication Deployment and Implementation Guide》。
·在部署重复数据删除之前,您应该在测试环境中衡量其性能影响及大小调整要求,对于 NetApp 未曾测试的应用程序(如表 1 所列程序之外的程序)尤其如此。
·重复数据删除会占用系统资源,还会更改磁盘上的数据布局。由于应用程序的 I/O 模式和重复数据删除对数据布局的影响,读写 I/O 性能也会发生变化。空间节省和性能影响取决于应用程序和数据内容。
·如果应用程序仅创建少量的新数据,则不宜经常运行重复数据删除,因此在这种情况下,频繁运行的好处微乎其微。重复数据删除的运行频率取决于灵活卷中的数据更改率。
·运行的并发重复数据删除扫描进程越多,占用的系统资源就越多。最好的办法可能是采用以下做法: