前面两期的文章中我们提到,在爱数的一体化容灾方案中,“数据不丢失、应用不间断”是方案的核心价值所在。对于应用容灾而言,还有一个重要的因素,就是接管后容灾服务器所能达到的效果。如果说“数据不丢失”和“应用不间断”对应的分别是 RPO(恢复点目标) 和 RTO(恢复时间目标),那么对于接管效果而言,一直没有一个很好的衡量标准。为了更好地说明接管效果和容灾方案的关系,我们引入一个新的指标:DRO(容灾接管指标),DRO以百分比为单位,表示容灾服务器与生产服务器的服务可用性比例。也就是容灾服务器在接管后,服务器能力达到原生产机的百分比。在以往的方案选择中,这个指标并没有得到人们的关注,那么这个指标的选择对方案而言有什么意义呢?
一、 明确 DRO,提升 ROI
我们先来分析单个的应用系统,应用服务器的服务能力主要取决于下面的几个方面:CPU 的计算能力、内存大小、磁盘 IO、网络并发处理能力、数据量等。在应用环境中,我们一般会根据业务处理能力的峰值来确定生产机的配置,以确保应用系统持续稳定地对外提供服务。那么在搭建容灾环境时,我们是不是也需要按照同样的标准来安配置灾服务器呢?我们知道,传统的应用容灾方案基本上都要求容灾服务器和生产服务器在性能上的尽可能地对等。但实际上,容灾服务器在 90% 以上的情况下都处于待命状态,如果配置和生产服务器对等,不但硬件本身的效能无法很好地发挥出来,还要为其考虑诸如网络环境、服务器运行所需的电费、降温费等维护费用的额外成本。一旦发生灾难,生成系统会在尽可能短的时间内恢复,容灾服务器的计算资源也无法发挥其最大效用。因此,在容灾方案设计的时候,如果考虑到投资回报率(ROI)的问题,DRO 就变得非常重要。
二、 用科学的方法制定合理的 DRO
爱数的虚拟化容灾可以说是对 DRO 的一次最佳实践,我们分析了很多实际的应用环境,发现多数的应用服务器只要采用虚拟化环境搭建容灾服务器就已经能够满足日常的接管需求了,无需搭建的与生产服务器相当的服务器。这样一来,用户只要使用一台设备就能满足从数据保护到应用容灾的需求。当然,我们知道,由于虚拟化技术本身存在的局限性和虚拟机平台的性能问题,对于一些高网络并发、高 CPU 负载、高内存使用率的关键应用,虚拟化环境的服务器能力就捉襟见肘了。那么,究竟怎样才能制定出科学、合理的 DRO 指标呢?在设计方案的时候,接管效果永远都是第一位的,不能为了降低成本而牺牲真正重要接管效果。爱数有一套完整的体系和流程来为用户的每一个系统来打造合理的 DRO 指标。所以在方案设计之初,我们的专业技术人员首先对会对生产环境的对应用系统的数据量、并发量、系统负载等参数进行持续地、详细地采集,最后经过专业分析模型,得出系统实际的性能参数,最后再拿这些参数与用户进行沟通,根据实际的需求,最终确定一个即不影响接管效果,又能节约成本的 DRO 指标。
三、 最优DRO组合,一体化容灾显神威
随着 IT 建设的深入,政府机关、企事业单位等各种机构的从 IT 基础设施建设阶段步入了 IT 有效性建设阶段。这个阶段中,各机构对于应用服务器和应用所搭载的数据的依赖性逐步增强,同时越来越多的应用系统进入我们的机房当中,所以在实际的环境中,要进行应用容灾的服务器往往不止一个,而且它们的关键程度、容灾要求也会有所不同,如果都做生产服务器和容灾服务器能力对等的容灾(如双击热备、存储镜像等),成本上的压力可见一斑,无形当中增加了灾难发生时的机会成本。正如前两期我们讲到的,爱数的一体化容灾,除了为用户提供了多种 RTO、PRO 的选择之外,还提供了多种 DRO 方案的组合,为用户找到了一种平衡初始成本与容灾效果的有效方法。首先,对于一些
关键的应用服务器,由于经常处于高负载的运行状态,我们推荐 DRO在 90% 以上的,与生产服务器对等的物理容灾服务器,这样可以保证最好的容灾效果;其次,对相对比较次要或者负载较低的应用系统,推荐 DRO在 70% 左右的低配置物理服务器;再次,根据事先收集的信息,DRO 在50% 以下的应用系统,我们推荐虚拟化容灾服务器(爱数备份存储柜的虚拟化容灾方案或其他的虚拟化平台)。最后,如果用户环境中已经有一些老旧的或者闲置的服务器,我们也会根据设计的测量结果,将这些设备直接作为某些系统的容灾服务器,有效地利用了用户的遗留资产,保护原始投资。
一个好的容灾方案的确定,需要根据用户的环境和实际的需求进行详尽地考察和分析,对于每一个应用系统而言,除了要根据 RTO/RPO 指标选择合理的容灾方式之外,还要帮用户找到容灾效果和投资成本之间的平衡点——DRO 指标,根据这三个指标完成各个系统容灾方案设计之后,再将所有这些方案集成起来,形成有机地统一整体。这也正是爱数一体化容灾的精髓所在。