在7月12日,Gartner发布了“Innovation Insight: Copy DataManagement Accelerates Bimodal IT“报告,明确了CDM的定义及使用场景。
在介绍该文章内容前,先明确一些“Bimodal IT”的定义:
根据Gartner定义,双模式IT (Bimodal IT)是指二种不同的、共存的工作模式和场景:一种是可以精确预知的,一种是探索型的。模式一集中在完全理解的、能精确预知的领域,它的工作是将这些领域从传统的IT环境进化到更加适应互联网化的世界,这里更强调持续的“可靠性”,像马拉松运动员。模式二面对的是未知的、全新的问题,它通过探索、试验来处理未确定性的. 这里更强调“敏捷性”,像短跑运动员。在企业向第三平台转型过程中,二者缺一不可、相互相成。比如:系统运维属于模式一的范畴,应用开发属于模式二的范畴。
复制数据管理(Copy Data Management,CDM)解决方案正用来加速双模式IT运作的落地,产生直接的业务价值。IT领导应该实施CDM来改进数据保护的性能、缩短应用开发周期。
主要发现
· 复制数据消耗了比生产数据多得多的存储空间,因为有大量的数据副本被生成出来用于不同业务需要,如备份、容灾、开发测试.
· 复制数据管理被持续的用于二个主要场景:模式一工作中的快速备份、快速恢复、容灾,模式二中的快速开发测试。
· 越来越多的供应商在过去一年宣布他们的产品提供CDM功能,虽然由于产品的固有限制,他们的CDM实际上是“Near-CDM ”。
· 每一个CDM产品都能提供专门的数据服务的功能,从而让用户能直接解决面临的业务问题。
· “CDM”这个术语现在是被众多供应商分别各自解释,市场处于被广泛接受的初期,整体来说,创新公司提供了真正的CDM,而传统供应商提供的是Near-CDM 。
建议
· 在备份架构中实施CDM,从而减少备份窗口、简化管理。
· 通过部署CDM,显著缩短应用开发周期。
· 根据各产品特有的定位,比如支持的应用、支持的环境、数据服务的功能,来选择适合自己的CDM产品。
分析
CDM解决以下几个问题:(1) 充斥着许多份生产数据副本的臃肿的存储架构 (很多副本根本就没受到管理), (2) 速度慢、容量利用率低下的备份恢复及容灾架构 (3) 开发测试环境中,缺乏自动化的存储(测试数据)分配、管理机制。在过去的二年,CDM被用于二个场景:数据保护和开发测试自动化。
定义
复制数据管理(Copy data management ,CDM)是指这类技术,它从生产环境通过快照技术获取有应用一致性保证的数据,在非生产存储上生成“黄金副本”(golden image),这个“黄金副本 ”数据格式是原始的磁盘格式,可再虚拟化成多个副本直接挂载给服务器,分别用于备份恢复、容灾或者开发测试。支持异构的存储架构是基本的要求。不同的CDM产品有不同的数据管理功能。
描述
“CDM”是一个模糊的术语,但它有二个关键点:数据副本的集中化实现有效的存储架构管理、基于策略的自动化数据管理提高生产效率。从生产数据复制出来的数据统称为“数据副本”,数据副本一般都要比生产数据消耗的存储多得多,多个副本(有时要20份甚至更多)被用于不同的目的,如备份、容灾和开发测试。CDM是一门新的技术,它将传统的数据复制技术集中起来,在异构的存储环境中,通过自动化的策略,对数据副本进行集中管理。CDM可以通过日志传输技术和块更改的跟踪技术,实现数据副本的定期更新,而压缩和重复数据删除技术,可以有效的减少存储空间占用。所有的数据副本是通过“黄金副本”派生出来的,而且是通过虚拟化方式派生的,所以,相比传统环境,它可以减少80%到90%的存储空间占用。生成的虚拟数据副本越多,节约的存储空间越多。另一个显著的特点是数据副本生成的速度,相比传统技术采用的物理复制,虚拟化方式生成副本非常快。在管理功能上,CDM提供非常丰富的数据服务功能,比如,为模式二的工作带来极大价值的功能有:测试数据的自服务(Self-Service)功能、自动化的工作流功能;对模式一的工作带来价值的功能有:基于策略的自动化备份和恢复流程,它消除了传统备份和容灾技术中复杂的配置和管理等需要手工操作的工作
什么是Near-CDM?
一些存储供应商也宣传他们的存储系统提供CDM功能,诚然,很多存储阵列或者平台内部都可以提供快照和克隆功能,但这种底层的设备管理功能缺乏丰富的数据服务能力,比如基于应用一致性的备份功能、基于策略的自动化、为应用开发人员提供自服务的数据环境准备功能。另外,基于存储的快照和克隆功能受制于同构存储,不能支持第三方存储。由于上述的缺失,我们不认为它符合CDM的定义。
一些备份软件供应商同样宣称他们的产品提供CDM功能,集中备份容灾是CDM的主要使用场景,而且相比存储快照克隆,备份软件也有丰富得多的数据服务功能。但是,备份软件一般都会有三种备份方式:基于服务器的备份(LAN,LAN-Free)、利用存储快照的备份(Server-Free)、基于服务器的Near-CDP复制的备份,这三者是完全不同的技术,他们是通过不同途径和生产环境接触的,而它们生成出来的数据副本一般也不能相互做重删和压缩来减少存储的消耗。另外,传统备份软件产生的数据副本一般是专有的备份格式,并不能被服务器直接使用。基于以上原因,很多备份软件不符合CDM的定义。
价值和使用场景
由于不一样的CDM产品提供的数据服务功能并不完全一致,所以以CDM通用的特点来说明CDM在模式一、二工作中价值和使用场景:
模式一环境的使用场景
对于模式一环境,CDM主要用来替换传统的备份和容灾。模式一环境下的工作主要关注提高系统的效率、降低架构的成本。没有CDM,为了实现备份恢复、高可用、业务连续性,需要多种传统的技术如快照、备份、复制、CDP等生成不同的数据副本,这些数据副本相互之间是独立的、无关的,形成了一个个存储孤岛,这种大杂烩的状态的形成,是由于不同需求只能由不同的技术来实现,企业没有其他选择,只能同时使用多种技术来满足所有业务需求,这造成了臃肿的存储架构和很高的软件成本。通过整合多种数据保护技术,CDM为模式一环境提供的业务价值有:
· 更小的数据丢失量:由于对生产环境影响很小,所以CDM可以提供更频繁的备份,从而缩小RPO。 由于RPO可以达到分钟级,所以CDM在很多场合可以替换传统的异步复制的容灾技术。
· 降低存储和备份容灾的成本:单个数据副本可以满足多个业务需求(备份、容灾、开发测试等),提高了存储的使用效率,降低了存储和软件的成本,同时也降低了管理成本。
· 快速恢复: 数据副本是以原始格式方式存放在磁盘上的,可以直接挂载给服务器,所以恢复时间要远远少于传统技术恢复的时间。
· 简单的配置和管理:基于策略的备份自动化和恢复流程的操作简单化,降低了传统方式的复杂度。
·横向扩展:通过软件定义的架构,实现所需存储空间和处理能力的横向扩展。
模式二环境的使用场景
CDM的另一个主要使用场景是在模式二环境下,为应用开发测试者提供敏捷性的基础架构。没有CDM, 由于不能直接使用传统数据保护技术产生的数据,应用开发测试者必须生成新的物理数据副本。但由于存储投入的限制,他们经常得不到所需数量的数据副本,同时,需要忍受长时间的等待时间。许多开发测试的工作环节依赖于多份的数据环境(测试数据),并且需要这些数据进行更新和重新生成,这都需要时间进行操作,而这种操作一般都是以天或周为单位。存储成本和不完善的工作处理流程经常造成项目的延迟并影响应用的质量。通过提供基于工作流的、自动化的、自服务式的快速数据准备架构,CDM能极大地缩短为开发测试者提供基础架构的时间。 具体来说,CDM为模式二环境提供以下价值:
· 基于自服务的数据副本的分配:CDM能削减分配的时间,加速开发测试的过程,比如QA,缩短产品交付周期。
· 基于自服务的虚拟克隆功能:每个开发者都能分配到一个或多个数据库的完整副本,并且可以在几分钟内更新数据,即不需要存储管理员、也不需要系统管理员和DBA的参与,从而提高数据的质量和生产效率。
·基于自服务的数据更新:生产数据的改变能通过复制的方式在几分种内更新到数据副本上,从而让开发测试环境获得最新鲜的数据。
· 动态的数据脱敏(data masking): 保护敏感数据,防止信息泄露。
·防止资源滥用:开发测试者有自由分配存储和数据服务的权利,但为了防止滥用,CDM同时给存储和备份管理员控制的权利。
普及率
CDM产品仍然处于被广泛接受的早期阶段,相比于模式一的数据保护现代化的应用场景,模式二的开发测试环境的普及率更高,主要原因是,在模式二中,它缺乏竞争对手,几乎是解决用户痛点的唯一的技术,而且开发测试部门有自己独立的预算,缩短了采购流程。相比较,备份恢复及容灾是更加复杂的过程,这是一个异构的环境,传统的系统和现代的系统混合在一起,但所有这些都需要保护。备份恢复和容灾针对的是更加关键的业务,所以,很多企业都需要对这些技术进行验证才会使用。另一个因素是,有些CDM产品只支持VMware环境,缺乏对其他环境的支持。还有一些比例很低的情况,有些企业仍然将磁带作为备份的主要介质,而CDM产品是基于磁盘的数据保护技术,对磁带的支持较弱。
代表性供应商
· Actifio: CDM的早期开创者和先锋,它的虚拟化软件版本和物理一体机提供自动化的数据服务:备份、容灾、开发测试自动化。提供广泛的环境支持。
·Catalogic Software: 基于EMC、Netapp和IBM存储的快照技术,ESX软件实现自动化的数据服务。
· Cohesity: 通过超融合一体机,提供很短的RPO和RTO,自动化的开发测试,文件归档。
· Delphix: 解决方案集中在开发测试环境,提供数据库和应用的多份虚拟副本,提供数据服务的权限控制和管理,将数据服务集成到开发测试的流程中。
· Druva: 支持Amazon和微软Azure ,提供备份恢复和数据治理,无论用户数据的位置(端点、BOX或Office365),都可备份到云或容灾到云。
· Rubrik: 通过横向扩展的融合一体机,为虚拟机提供备份、远程复制、全局重删。