2.6 系统可用性
系统可用性(Availability)是信息工业界用来衡量一个信息系统提供持续服务的能力, 它表示的是在给定时间系统或者系统某一能力在特定环境中能够满意工作的概率。如果知道系统每次失效后的平均停机时间, 那么可用性可以转换为一定的可靠性(估算值, 不是精确值)。例如, 如果系统可用性为99%, 且每次失效后的平均停机时间为1小时, 则我们推算得知每100小时系统可以可靠地运行99小时, 即系统可靠性约为99%。
简单地说, 可用性是系统运行时间除以系统运行时间和停机时间之和所得的结果, 即:
可用性=系统运行时间/(系统运行时间+系统停机时间)
一般小的问题不一定要停止整个系统, 此处计算的是严重的失效, 即那些需要恢复程序数据, 重新加载程序, 重新执行等情况的失效。
系统可用性和我们前面定义的MTTF、 MTTR和MTBF的关系可用下述公式表示:
可用性=MTTF/(MTTF+MTTR)=MTTF/MTBF
根据可用性的取值, 我们可以将信息系统分为多个可用性等级, 分别为: 较可用(Available)、 高可用(Highly Available)、 极可用(Extremely Available)、 最可用(Most Available)。
较可用等级表示那些可用性取值为99%以下的信息系统, 此种系统基本不具备容灾能力, 在灾难袭击下通常会瘫痪或崩溃。因此, 它们只能用来处理一般性业务, 诸如办公文档编写、 程序编写、 个人事务管理等。
高可用等级为可用性达到99.9%等级的信息系统, 此种信息系统可应对微小的、 局部的异常或灾难, 如应用失效、 硬件老化等。在发生这些微小灾难时, 此种系统通常能够自动重启应用或将应用转移到另外一个硬件上。此种系统可用来进行敏感性业务处理, 诸如网络路由、 应用服务器、 中间件服务器、 邮件服务器等。
极可用等级表示的是那些可用性取值达到99.99%等级的信息系统。此种信息系统具备较强的容灾能力, 能够应对区域性的或小规模的灾难。此种系统通常用于重要业务活动, 如程控交换、 交通控制、 薪酬发放系统等。
最可用等级表示的是那些可用性取值达到99.999%等级的信息系统。这是目前信息系统能够达到的最高等级。此种信息系统具备目前最强的容灾能力。此种系统通常用于关键业务活动, 如证券交易、 武器控制、 航空航天等。
当然, 有的机构宣称自己的某个系统达到了99.999999…%甚至更高的可用性。但这些结论无法被证明, 也经不起仔细推敲, 本书不予讨论。美国EMC公司的Clariion存储系统是市场上最早达到最可用标准的中低端智能存储设备(与EMC公司Clariion产品经理的谈话, 2006年12月, EMC上海研发中心)。
综合上面四种可用性等级的介绍, 可用性级别与可用性取值的关系如图2-1所示。
所有信息系统都可以使用可用性级别来进行分类。例如, 计算机服务器系统可以有:
较可用级, 如个人电脑, 手提电脑等。
高可用级, 如工作站或个人电脑集群等。
极可用级, 如独立配置的小型机。
最可用级, 如大型机OS390和AS400。
对于数据存储器来说, 也可以有这些类别的划分。如较可用级的存储设备有磁带和磁盘, 高可用性级别的有磁带阵列或磁盘阵列, 极可用级的有智能存储器, 最可用级的有存储区域网。根据具体情况, 不同的企业对信息系统可用性级别的要求可能不一样。作为参考, 图2-2 给出的是中国企业对数据存储系统可用性级别的要求分布。
当然, 本书划分的可用性级别只是针对现有的信息系统, 将来也许会出现更高可用性的系统。那时候, 我们就可能需要定义新的可用性级别了。