无论企业使用哪种灾难恢复解决方案,都必须进行测试。如果你简单地认为灾难恢复解决方案能像宣传的那样正确配置,那是不可能的。所以有必要进行全面测试。而问题在于如何开展测试。
要想充分保护数据,唯一的方法是保留三份副本:原始数据、本地(on-premises)备份副本(用于快速恢复)以及一份远程(off-premises)副本(此处指基于云的备份)。这样,如果数据中心被破坏,你还有副本。
我之所以这样说是因为数据保护对于灾难恢复测试的类型有很大影响。如果你使用云作为远程备份解决方案来补充本地备份,那么这通常意味着例行的恢复将从本地备份实现。如果你从云备份进行恢复,那肯定意味着发生灾难了。也许只是磁带坏了,但也有可能是一些能破坏整个数据中心的状况。
如果是这样的话,进行一次模拟真正重大灾难之后的云恢复测试是相当重要的。最好是在一个独立的网段里做这个测试,让你的生产网络对恢复过程不可见。
这样做有几个原因。首先,可以保证恢复测试不会干扰生产网络。其次,真正的灾难之后,生产网络上的资源也会消失。
第一次测试的真正目的是判断从云恢复数据到底需要什么。当记录恢复过程的时候,你很可能会发现,带宽的限制使你不可能完全依照服务水平协议快速地从云恢复数据。
很显然,互联网访问是一个条件,但是,根据备份和保护数据的方式,可能还需要其他条件。例如,我曾经遇到一个个案,一家机构因为缺少必要的数字证书而无法恢复云数据。并非所有机构都用该机构的方法保护云备份,但是,在灾难真的降临之前,确认你是否需要任何外部构件来完成恢复(例如证书认证)是非常重要的。
如果你确认可以从云恢复数据,我建议下一步做性能测试。一旦出现灾难,企业老板和客户肯定想知道需要多长时间才能恢复服务。而屏幕上的进度条又不精确。所以要知道灾难恢复所要消耗的准确时间的唯一方法是进行基准测试。
当你记录恢复过程的时候,尽量使用多种数据类型,因为云备份严重依赖重复数据删除。重复数据删除可以精简数据,提高数据传输速度。问题是有些类型的数据的重复删除效果比其他数据的好。因此,你可能会发现有些类型的数据恢复起来比其他数据的快。你可以使用基准测试的结果来制定一份真正紧急状况下数据恢复顺序的计划。可以先进行快速恢复,获得尽可能多的在线资源后再探究持续时间较长的恢复。
如果从云恢复数据过于耗时,那么下一步你需要寻找能够加快恢复过程的方法。比如,有的云服务供应商会给你发送一份磁带或可移动存储设备的数据拷贝,以便加速恢复过程。
你应该提前向备份供应商咨询,以确定他们是否提供这样一种服务,如何收费以及收到数据的物理拷贝的周期有多长。还要确保数据是可以恢复的格式。例如,如果你没有磁带机,有了保存数据副本的磁带也没有用。
在做基于云的灾难恢复测试时,要设定多种场景。例如,你可能先测试裸机恢复(bare metal recovery)的能力,当然还有应用级别的恢复、文件和文件夹恢复以及基础设施恢复等。基础设施恢复涉及恢复基础设施的构件,例如活动目录(Active Directory)、DNS服务器、DHCP服务器以及企业证书管理。
在做各种恢复类型测试时,要记录恢复的步骤,这样你在做真正恢复时就不用再测试了。不同类型的恢复肯定使用不同的恢复步骤。熟悉并且记录这些步骤将有助于在真正发生灾难的时候使恢复更容易,还能减少犯错的机会。
结论
在灾难发生前,验证云备份的可恢复性相当重要。最有效的方式就是模拟多种灾难恢复情形,进行全面测试。