高可用管理,灾备能力的再提升
GDS 施建忠 高勇 发表于:11年02月24日 15:51 [来稿] 存储在线
4未来
在灾难恢复体系规划和建设过程中,普遍存在一些问题:国外的灾难恢复体系规划建设方法是从19世纪80年代IT系统可用性改进过程中逐步发展和完善起来的,在发现单数据中心通过以部件冗余、系统冗余、数据安全、数据备份恢复等技术为代表的本地高可用技术不能完全解决重大事件引起的中断后,逐步发展了包括紧急事件管理、危机公关、灾难恢复、业务连续等相关的理念和方法。
可以说,国外的灾难恢复和业务连续管理理念和方法是以成熟的高可用性管理为基础和支撑的。灾难恢复体系的建设是完整高可用性管理的外延和扩展。
而目前,国内的IT系统虽然在建设和规划过程中使用了很多成熟的高可用技术,但对高可用性管理却缺乏统一的认识和整体的规划管理方法,甚至会出现舍本逐末的现象,对灾难恢复体系的建设寄予过高的期望。好像灾备中心建成后,以后不论出现什么问题都可以通过切换到灾备中心来解决。而实际上灾难恢复体系并不是万能的,受到灾难恢复体系的等级、使用的技术、灾备中心的距离和物理位置等限制,灾难恢复体系并不能解决所有的问题。它只是整个高可用性管理体系中的一个环节,只有从整个IT系统的角度,在技术和管理方面对整个系统的可用性进行通盘考虑和规划,才能真正达到预期的可用性目标:将IT管理人员从惴惴不安的等待火情发生的救火队员的角色中解救出来,从规划师和设计师的角度重新审视整个管理范围,消除可能隐患、布置监控和管理工具、对重要区域和高风险事件进行重点防范,达到既提升了安全等级,使IT系统风险管理有序可控;又提升了管理效率和工作品质。
虽然很多IT管理人员和服务厂商在IT系统可用性的提升方面投入了大量的成本和精力,甚至可以说不遗余力,但实际结果却是各自为政,效果无法预期。这主要是由IT系统的复杂性所决定的,现在的IT系统服务可用性依赖于技术和管理的不同方面,包括:数据中心基础设施、技术架构、信息安全、灾难恢复等,涉及网络、存储、数据复制、安全、监控、空调、电力等不同技术领域,而且往往取决于最薄弱的环节和最短板。
因此,提升IT高可用性管理水平需要从IT架构及运维管理、基础设施及管理、灾备建设及运维、安全及管理、IT治理等方面全方位考虑,整体改进和提升,使IT系统始终处于一种高可用的水平。
从实施策略方面看,企业首先应在基础设施、应用系统、中间件、数据库、操作系统、存储、服务器、网络、灾难恢复体系和安全防御手段等技术层面实现高可用,确保企业IT资源运行的持续性和应用系统运行的安全性和稳定性。其次,应在基础设施管理、IT服务管理流程、关联组织、人员、治理结构、灾难恢复体系管理和安全管理等管理层面确保IT服务的可用性、安全性和持续性。