随着企业信息化的发展和企业数据大集中的实施,企业IT系统和业务的连续性受到越来越多的关注,尤其是对于,银行、保险、证券、电力、能源、交通等领域关系国计民生的关键信息系统,如果没有进行灾难备份或业务连续性管理(BCM)体系建设,在遭受突发灾难时后果不堪设想。
业务中断不是小概率事件
近年来,国内由于信息系统故障造成的业务中断屡见不鲜,例如:2007年3月,某银行因为主机监控软件缺陷,系统瘫痪近4个小时,所有营业网点无法正常开展业务;2007年8月,某银行对计算机系统进行升级方案不当,造成部分代理证券业务受阻,在持续5个半小时后,系统才逐步恢复正常;2008年1月,某银行主干专线设备发生故障,造成117家支行所属网点柜台交易无法正常进行持续一小时;2009年9月,某证券公司交易系统硬件故障造成瘫痪,位于全国各地的100余个营业部均受到影响。如何为企业建立业务连续性管理体系日益受到社会各界,尤其是企业高层的关注。
业务连续性管理体系的发展
业务连续性管理的概念很早就已经提出了,它是特指一种整体管理流程。该流程的目标在于及早确定可能发生的冲击对企业运作造成的威胁,并提供合理的架构有效阻止或抵消不确定事件造成的威胁,保证企业日常业务运行的平稳、有序。相比较而言,业务连续性管理比灾难备份/恢复更高一层,涉及到组织架构、人员、流程等方方面面。
全球第一个业务连续性管理的框架标准BS25999在2007年末正式成为认证标准,这为人们提供了一个构建BCM的指南。这份标准的前身是公共可用指南PAS 56,在2006年底升级为BS英国标准,其目的就是使业务连续性管理有章可循。
作为一套整体的管理标准和管理流程,BS25999标准协助企业进行业务冲击分析及风险分析,并将其量化,继而开发制定各种相应应急及恢复计划、方法和流程,减轻灾难事件对企业造成的不利影响。
BS25999这样描述业务连续性管理,"业务连续管理是一个整体的管理过程,它能鉴别威胁组织潜在的影响,并且提供构建弹性机制的管理架构,以及确保有效反应的能力;以保护它的关键利益相关方的利益、声誉、品牌以及创造价值的活动"。
如何建立业务连续性管理体系
BS 25999业务连续管理框架如图1所示,主要为六个部分,分别为BCM管理程序、理解组织、决定战略、开发并实施BCM响应、演练、维护和评审回顾、以及把BCM植入组织文化。参考这六个步骤,企业可以建立自己的BCM管理框架,在正常时做好准备,在灾害发生时能够从容应对,灾害后能尽快恢复。
BCM管理程序–包括职责的分配,在组织中实施和持续管理。BCM方案管理包括职责的分配,在组织中实施和持续管理。
了解你的组织–了解组织的产品和服务,识别关键活动,搞清楚其供应链上的依赖关系;
确定BCM战略–找出业务最大容忍的中断时间,这是非常关键的一步,最大中断时间要满足行业监管和利益相关方的要求,也意味着资源的投入,包括人员、场所、设备、技术、供应商、利害相关方、信息等等。
开发和实施BCM响应–根据企业的规模大小,可能有一个或多个连续性的计划。针对不同业务的特殊部分或者特殊的场所和情形,计划要详细而不冗长,可读可执行。其包括事件的应急处理计划、连续性计划和灾难恢复计划等内容。
演练维护和评审–通过演练证明BCM的计划是有效的,并不断维护保持更新。新的灾难场景和新的业务类型都会造成BCM的改变。演练的方法包括桌面演练、模拟演练、实际切换演练等各种形式,当然,这些演练的成本、费用和产生的演练效果是完全不同的。例如,桌面演练主要用于检验应急响应预案和灾难恢复体系的完整性和有效性;使相关人员了解应急响应及业务恢复流程;全面验证技术及业务管理指挥、流程操作、协调配和等方面的综合能力;完成相关人员的意识和知识技能培训;验证客户在灾难中应急响应和恢复能力;提高企业在灾难发生时IT部门和各业务部门的应急响应能力等。模拟切换演练可以比较真实的检验灾备系统的可用性、有效性;检验灾备系统和灾难恢复预案是否可以满足业务恢复的需求和业务连续性的要求;可以在很大程度上使参与人员熟悉灾难的场景,工作任务的执行过程和组织协调方法。实际切换演练能最大程度地对灾难恢复及业务连续体系进行检验。
把BCM植入组织文化–BCM应对的就是小概率大灾难事件,只有通过不断的意识培训和演练来加强全体员工的应变能力。高层要明确职责分配,确保BCM成为企业核心价值和企业文化的一部分。
实施业务连续管理体系的注意事项
在实行BCM过程中,以下因素是组织重点应该考虑的:
- Ø 争取管理层的支持和参与:没有管理层的支持,业务连续性计划的制定和实施都是十分困难的,很有可能会流产。
- Ø 建立BCM文化:通过培训和意识教育,使BCM成为企业核心价值和有效管理的一部分。
- Ø BCP团队要有明确的组织结构,角色和责任应明确、清晰,要对相关人员进行培训。如果参与人员不能清楚知道自己该做什么,灾难发生时只能是一片混乱。
- Ø 恢复策略的确定要综合考虑恢复成本与灾难损失,在其中取得一个适当的平衡点,超过损失的恢复是毫无意义的。
- Ø BCP包括的各种规程要步骤清楚、操作详细,确保实施人员拿到规程后,能立刻开始操作,不清楚的规程只会延误恢复的时间。
- Ø BCP要定期进行测试、演练,总结缺陷并进行更新,一般至少为一年一次。另外,确保计划准确和不断改进也是非常重要的。测试计划要仔细斟酌,不要让演习变成一场事故。