引言
随着银行数据集中的深入开展,各种业务数据都进行集中处理。随着业务的不断拓展,我们可能需要对旧数据中心进行扩容,并进行新中心的建设。这时,我们就需要进行数据中心的搬迁工作。而实际上对于较大型的数据中心,经常要利用灾备技术来实现数据的迁移,同时利用原有的数据中心作为备份中心。
如何能保证数据中心迁移过程中数据不丢失?如何确保数据中心迁移过程中业务系统基本不停顿?这些都是我们银行要面对的问题。
本文将基于EMC SRDF技术,以中国建设银行厦门市分行数据中心新旧大楼搬迁和灾备系统实施为例,讨论数据中心数据迁移和搬迁的方案规划、设计和实施。
一、数据中心迁移背景
银行数据中心的共有特点是:业务集中、数据集中、海量数据容量(至少TB量级)、大业务量、业务连续性要求极高、关键业务数据可用性高。随着银行数据集中,旧数据中心由于容量、性能、运行环境等限制,已不能满足业务系统发展的需要,这时各银行就可能建立一个新的数据中心。由于业务24×7的连续性需求和客户数据的重要性,保证业务连续性是数据中心迁移的核心要求,迁移数据的高可靠性是数据中心迁移成败的关键。数据迁移过程中对业务的影响、迁移的数据完整性保证是迁移技术选型、方案设计的依据。
随着厦门建行各项业务系统的发展,原有的计算中心机房已经难以满足越来越多业务系统对中心运行环境的要求,系统的扩充性受到极大的限制。随着分行新营业大楼的使用和新大楼中新中心机房的建设完成,厦门建行需要将原有的数据中心将搬迁到新营业大楼中。
厦门建行原数据中心主机系统基本上是基于IBM RS/6000主机和EMC存储平台为基础的系统。厦门建行主要的银行业务系统包括对公、储蓄、银行卡等核心业务,还包括有代理业务和中间业务等。应用系统是以Tuxedo中间件和Informix、Db2等数据库系统来进行构建的,生产数据集中存放在一台EMC的Symmetrix 3830 磁盘机中,可用空间大约约600GB。
厦门建行在新数据中心选用一台EMC的Symmetrix 8530磁盘机作为主存储设备,同时还购买了SRDF、TIMEFINDER、PowerPath、ECC等软件和利用SRDF进行数据迁移的服务,这为使用SRDF进行数据迁移和系统搬迁提供了必要条件。从节约资金的角度,新数据中心的主机系统不再另行购置,全部从旧数据中心搬迁过来。
本文重点说明数据的迁移,设备的物理搬迁不详细说明。
二、SRDF技术概述
目前实现数据迁移和灾难备份的方法、技术很多,有SAN或NAS技术、远程镜像技术、基于IP的SAN的互连技术、快照技术等。其中,业界成熟的磁盘镜像技术对于保证业务连续性和数据迁移的高可靠性方面有着一定的优势,成为众多大型企业数据迁移、灾难备份的首选。EMC公司SRDF(Symmetrix Remote Data Facility)技术是磁盘镜像技术的一个杰出代表,在国内、国际上都有众多的成功案例。
EMC SRDF是迄今为止业界唯一能够同时为大型机、UNIX、Windows NT和AS/400等系统提供完整的业务持续性能力的解决方案。自从其1994年问世以来,EMC存储管理软件已经帮助许多公司管理计划内的数据中心事件(如按计划维护,每日数据备份,数据迁移和应用测试),同时它也负责从突发故障(如数据灾难)中恢复数据。SRDF是一个在线的并且独立于主机的数据镜像信息存储解决方案。它可以将生产现场的数据复制到一个或多个物理上分离的Symmetrix目标系统上。这些系统可以跨越大楼,远至世界各地。
SRDF软件具有如下特点:
- 1. 支持所有主流服务器,大机(Mainframe)和开放系统能同时使用SRDF;
- 2. 基于磁盘阵列自身功能,与操作系统、应用软件无关、对主机影响小;
- 3. 同时支持同步、半同步、异步等数据传输模式;
- 4. 通过网络系统的支持,SRDF镜像的距离可以到几千公里的距离;
- 5. 与Symmetrix微码、TimeFinder进行良好配合,实现生产数据的灵活应用,例如:利用BCV卷实现生产数据备份、隔日数据查询、数据仓库等应用;
- 6. 支持不同通信协议,包括ESCON、T1/E1、T3/E3、ATM、IP、DWDM,FC等;
- 7. 配置灵活、实施简单、操作方便;
一个典型的SRDF连接,如图一所示。
图中显示了同步方式的SRDF一个写请求的完成过程。从图中可以看出,当本地(源)盘要写一个IO的时候,它首先会将IO发到远地(目标)盘上,待目标Symmetrix设备将数据写进Cache后,本地IO才认为是写成功了。这样,就充分保证本地存储和远地存储的一致性,但是对SRDF的连接的网络速率要求就比较高了。
三、需求分析
银行数据中心的迁移工作,与其他项目一样,首先都要从数据中心迁移的需求分析开始,充分理解迁移工作的目标、环境、性能指标等,才可能开始进行设计工作。本节以厦门建行数据中心迁移为例,说明数据中心搬迁的需求分析工作。
1. 总体目标:
厦门建行数据中心迁移的总体目标是:要将数据中心从旧大楼搬迁到新大楼,需要利用数据迁移技术将数据从旧的数据中心迁移到新的数据中心,同时建立新旧大楼之间的数据灾备系统,系统迁移过程中对业务系统的影响要达到最小。
2. 系统环境分析:
厦门建行数据中心由核心业务系统和大量的前置系统组成。其中,厦门建行数据中心的核心主机系统以IBM RS6000主机、EMC存储系统组成,数据库系统采用Informix IDS,应用系统是自行开发的。
厦门建行新旧数据中心物理距离大约6公里。目前在旧的数据中心有一套旧的存储系统。旧数据中心有多套的双机互备的主机系统,包括核心业务系统双机系统、信息系统双机系统、前置系统双机系统(包括多种前置应用系统)等,这些机器都通过SAN连接到核心存储上。而在新数据中心准备新购置一套新的存储系统,但在新的数据中心没有主机系统,只是用一台小配置的机器用于测试,新购置一台与旧中心一样的SAN Switch作为测试。系统情况如下图所示。
图二 原系统结构示意图
另外,数据中心还有大量的前置机大部分是独立的系统,涉及的操作系统包括:HP-UX、SCO Openserver、Linux、Windows NT、Windows 2000等;涉及的数据库包括:Informix、Lotus Notes、SQL Server等。这些系统大多是属于可以单独搬迁的系统,其设备的搬迁不与核心系统的搬迁同时进行。因此,这些设备和机器不再上图列出。
3.业务数据分析:
因为灾备系统需要有一套存储系统,相应的主机系统,要有机房运行条件、网络系统等,因此建立灾备系统需要有较高的投入。所以,要在成本允许的情况下,进行综合考虑,尽可能将比较重要的业务放入灾备系统中。因此我们要将业务数据根据重要性进行划分,一般可以分为:核心业务、重要业务、一般业务。
(1) 核心业务要求24小时不间断运行,其重要性不言而喻。这些业务数据肯定要进入灾备系统,才能在数据中心迁移时以最短的中断时间实现迁移的目的,同时将来数据中心出现问题时,备份中心能保有最新的核心业务数据。比如上图中原系统中的核心业务系统,包括业务主机系统和信息系统。
(2) 重要业务中,要根据允许中断时间、业务重要程度进行划分,将重要程度很高、中断时间要求很短的业务,尽可能放到灾备系统中,将重要程度一般、中断时间可以时间比较长的业务系统考虑不放在灾备系统中。比如上图中连接到SAN环境中的“前置系统1”、“前置系统2”。
(3) 一般业务正常情况下都不进入灾备系统,在数据中心迁移时要进行较长时间的业务中断,中断时间就是一般业务的系统关机、物理搬迁、开机的时间。比如不在上图中示意的其他系统。
4. 迁移需求分析:
按厦门建行的需求,整个系统迁移只能在凌晨进行,而且系统迁移造成的业务中断时间不能超过2小时。也就是说,我们在系统迁移过程中,应用系统关闭、数据迁移、应用系统启动的整个过程占用的时间不能超过2小时。按此要求,我们在设计中要特别注意系统迁移的性能。
5. 性能需求分析:
厦门建行对SRDF性能的要求是系统响应时间不得超过原来的5%。这个需求是针对数据中心搬迁后,新旧数据中心的灾备系统而提出的。基于这个需求,需要对传输的数据量进行估算。
按厦门建行的应用情况,通过对多日的数据量的分析,发现在系统在正常运行中的IO量不大,SRDF完全能满足要求;但是,当应用系统数据库在做Checkpoint的时候,IO量急剧增大。假如每秒IO数据量10M,则SRDF性能要求也是 10*8=80 Mbps。
四、数据中心迁移系统设计
数据中心要进行迁移,既要考虑未来最终使用的情况,也要考虑数据迁移过程的实现。根据厦门建行的系统现状,我们的总体设计思路时:考虑建立一套新数据中心,新旧数据中心采用SRDF进行互联,然后在数据搬迁时利用SRDF进行异地数据迁移,在数据中心搬迁后建立最终的新旧中心灾备系统。
因此,我们的系统总体设计要将重点放在灾备系统设计中,我们要从存储系统硬盘分布、SRDF同步模式的选择、灾备网络方案的确定、灾备软件的匹配等方面的进行分析设计,最终确定总体架构。
1. 盘分布设计:
盘分布设计主要包括两方面的考虑:
(1) 确定哪些应用系统放在灾备系统中。在进行业务数据需求分析完成后,我们就可以确定哪些应用系统、哪些应用数据要放到灾备系统中,我们就可以确定硬盘的可用容量。在厦门建行的应用系统中,将核心业务系统和部分重要系统放在灾备系统中。
(2) 放在灾备系统中的应用数据的盘分布。 在整个主机系统中,I/O的性能是至关重要的。存储系统的I/O性能的提高是整个核心系统性能提高的关键。其中,硬盘的分布是重中之重。在盘分布设计中,我们主要采用两点思路:
核心业务使用的硬盘采用Raid-1,而不采用Raid-5。这样,数据在得到双重保护的同时,又不降低性能 。
核心业务使用的硬盘尽可能放在不同的物理硬盘上。这样,将使核心业务的I/O分摊到不同的I/O通道中,使I/O性能进一步提高。
核心业务使用的硬盘尽可能放在不同的通道上。这样,将使核心业务的I/O分摊到不同的I/O通道中,使I/O性能进一步提高。
2.SRDF同步模式选择
SRDF数据镜像技术支持三种工作模式:同步模式、半同步模式、异步模式,其中半同步模式使用较少,同步模式对于同城灾备最合适,异步或自适应模式适合数据的迁移,对主机端的I/O性能影响最小。但是若一套系统仅用于一次数据迁移,既可以异步模式来实现,也可以用同步模式来实现。
按照厦门建行的需求,我们不仅使用SRDF来实现数据迁移,同时将来还要做同城灾备。因此,为了减少对业务的影响,我们可以提前同步,从而在迁移切换时,数据已经处于同步状态,可以使数据迁移的切换时间大大缩短。
3.网络方案的确定:
在SRDF灾备实施中,为保证实施灾备系统的运行,网络传输速度是至关重要的。在明确迁移需求和系统负载后,以及联机和批量对磁盘更新量以后,进行SRDF带宽设计。包括SRDF Synchronous Delay、VOLUME WRITE I/O LIMIT,具体方法可参考有关资料,这里不详述。
一般情况下,10km以内的两套系统互联,只需要使用裸光纤互联就可以,连接接口采用长波单模光纤接口。采用裸光纤、普通光纤接口的传输速率理论上能达到1Gbps,实际数值也能达到500Mbps以上。
而对于超过10km的两套系统互联,可以采用磁盘间SRDF连接为2根ESCON通道,两地采用NORTEL或CISCO等网络设备厂商提供的DWDM设备作通道延伸,两端DWDM间用DARK FIBER连接。这时就要根据系统的负载需求来确定传输线路的速率了。
因为厦门建行新旧大楼之间距离小于10Km,因此采用裸光纤直连方式进行,通过计算,超过200Mbps的数据传输速率能满足厦门建行数据传输的需要。
4.软件版本的匹配:
在我们的设计中,需要我们和厂商关注的一点是灾备系统两端的微码版本是否匹配,是否能满足SRDF的运行需要。只有EMC公开文档明确支持SRDF运行的微码版本才能发到两端的存储系统上运行,以确保将来SRDF运作的稳定性和可用性。
5.系统架构:
根据需求的分析,我们要利用SRDF技术我们最终的目的是要建立一套基于SRDF的数据灾备系统,同时满足数据中心迁移的需要,同时将来作为数据灾备系统,当新数据中心出现问题时,旧数据中心能得到最新的业务数据,并利用旧数据中心拥有的部分主机实现部分核心业务。
因此,我们在总体设计是要按将来是一套SRDF 同步系统来考虑,主存储是EMC 8530,灾备存储是3830。大部分主机将搬迁到新数据中心,旧数据中心只保留很少的主机。数据中心搬迁后的系统最终的总体结构图如下:
图三 最终的系统结构示意图
五、数据中心迁移过程
在数据中心的迁移过程中,不仅要将原数据中心大部分设备毫发无损地物理搬迁到新数据中心,关键还要将数据准确无误地在最短时间内迁移到新中心地存储系统中。
因此,在系统架构设计完成后,还要进行系统迁移过程的设计和实施。系统迁移过程的设计主要针对迁移过程的流程进行设计,若有必要,可能对系统架构设计提出修改要求。
主机系统数据分为系统数据、应用数据,系统数据包括操作系统、配置文件等,这些数据与硬件密切相关,实时性要求不高,同时系统数据与客户数据没有直接的关系;应用数据指与客户数据密切相关的数据,如数据库数据、应用系统配置文件、中间件系统配置文件等。
对这两种数据我们采用不同的迁移方法。对实时性不高、与硬件密切相关的系统数据采用一次性磁带拷贝、物理搬迁的方法,提前迁移,先建立完整可用的系统平台;而对实时性要求很高的应用数据采用SRDF技术进行磁盘同步镜像迁移,同步完成后在已有系统直接启应用系统,然后作网络切换,完成数据中心迁移。
以厦门建行的数据中心搬迁为例,一般的数据中心搬迁可以包括以下步骤:
(1) 迁移前提:
新数据中心机房已经验收完成;
新数据中心网络系统已经完备,并与旧数据中心互联;
新数据中心主机系统、存储系统安装和测试完成。
(2) 迁移前的存储系统准备工作:
分析、规划、调整应用数据的磁盘卷使用,为迁移准备数据源;
在两地主机系统安装、裁剪SRDF软件和其他Symmmetrix相关软件如Timefinder等;
升级两端Symmetrix盘机的微码到相同level,根据两端磁盘卷同步映射关系制作盘机的BIN FILE,并装入存储系统;
对现有的存储系统进行一致性检查;
采用同步贝方式初始同步所有应用数据卷到新中心。
(3) 迁移前的主机系统准备工作:
要迁移的应用系统都做好一套双机系统,这包括业务主机系统的双机、信息系统双机系统、前置系统的双机系统。
双机系统经过演练测试,确保可以将应用放在一台机器上运行。
新旧中心进行多次数据迁移切换演练测试。
需要将SRDF分离,将数据盘挂到新中心的测试主机上,检查数据是否正确。
迁移准备工作完成后的系统结构状态如下图所示:
图四 迁移准备工作完成后的系统结构示意图
(4) 非核心单独系统的搬迁:
这些数据是银行中一些小的前置系统,他们不连接到存储中,是自己独立的小系统,他们的迁移要与核心业务系统的迁移分开。考虑到这些系统的重要性比较低、可中断时间比较长,一般可以选择周末或者夜间提前将这些机器关闭、物理搬迁到新数据中心。
(5) 非灾备系统的重要业务系统的迁移:
这些数据是银行中非核心业务系统中的数据,他们原来存放在3830上,而新系统要求他们存放到8530上,而且他们的业务可以中断,可以在晚上或者周末进行搬迁。这些数据迁移的做法是:在8530上建立一样的文件系统,利用磁带或者远程拷贝将数据备份、恢复到8530上;然后在晚上或者周末将对应的主机物理搬迁到新数据中心,然后与8530进行互联,最后将应用系统在主机和8530上运行。
(6) 利用SRDF技术进行数据中心核心业务系统的迁移切换:
搬迁第一步:搬迁一半主机到新中心。
a) 原中心变双机为单机运行:将业务主机双机、信息主机双机、前置主机双机系统的应用系统都切换到一台主机上运行,将主机系统中的另一台拆出,搬迁到新中心,与新的存储系统互联。
b) 将原数据中心两台SAN 交换机搬迁一台到新中心,与原有一台新的SAN Switch组成新的SAN。
c) 确认新存储和主机系统的可用性。将新主机和存储系统连接后,进行必要的应用测试,检查主机、存储系统已经具备运行条件。
d) 第一步搬迁后的结构如下图所示。
图五 第一步搬迁后的系统结构示意图
搬迁第二步:新旧数据中心的新旧存储进行SRDF数据重新同步,以旧存储为主卷,新存储为备份卷,以确保新存储的数据与旧存储保持一致。
搬迁第三步:启用新数据中心。
a) 关闭旧数据中心的应用系统,使数据处于某种明确的状态;
b) SRDF分离;
c) 修改主机系统配置:包括IP地址、网络路由、应用配置等。
d) 启用新中心的主机和存储系统,检查应用系统运行是否正常,这些应用包括核心业务系统、信息系统、两套前置系统等。这时新数据中心处于单机运行状态。
e) 新数据中心成为生产中心后的系统结构示意图如下图所示。
图六 第三步搬迁后的系统结构示意图
搬迁第四步:原数据中心剩余主机搬迁到新数据中心。将原中心主机、备份设备搬迁到新中心,并与生产主机、存储进行互联,形成原有的双机系统。将原来在新数据中心进行测试的主机搬迁到旧中心,作为灾备系统的备份主机。搬迁后的结构如“图五、第四步搬迁后的系统结构示意图”所示。
图七、第四步搬迁后的系统结构示意图
这样核心业务系统搬迁到新数据中心,搬迁工作宣告完成。但是此时新旧存储之间仍处于SRDF断开状态。
(7) 实现新中心到旧中心的同城数据灾备,形成一套可运行、可操作的灾备系统,并进行测试验证。
检查SRDF配置;
SRDF反向同步:以新存储为主卷,旧存储为备用卷。灾备系统实施后的系统结构图如“图三、最终的系统结构图”所示。
进行灾备系统的测试。
六、数据中心搬迁中应注意的问题
数据中心的搬迁是一个复杂的项目,有了详尽的系统设计和搬迁方案,应该说,整个数据中心的搬迁条件已经基本具备,但是我们在实施过程中发现,在数据中心搬迁过程要注意以下问题:
1.系统等级划分
系统等级划分是系统规划中基础的一环,主要要根据业务系统、信息系统、前置系统、独立业务系统等的重要性不同进行等级划分,核心的系统列入高等级系统,普通的业务系统列入低等级系统。高等级的系统要重点保证,它们要在很短的时间内得到系统恢复。系统等级划分完成后,才能将相关系统的数据按等级不同的需要分别放在灾备系统、非灾备系统、独立系统中。
2.完善的方案
一个成功的项目的前提是完善的系统方案,数据中心的迁移要成功,要进行全面的系统设计,系统设计至少要有以下要求:
(1) 要有详尽的实施步骤。实施步骤中从实施前、实施过程中、实施完成后续处理等过程中,要有完备的流程,每个步骤要确定责任人、明确实施的时间、实施的前后顺序。
(2) 要有详尽的应急方案。对各种可能出现的异常要做好应急准备,包括物理搬迁问题、硬件故障、操作系统故障、数据库故障、存储故障、网络故障等。
3.充分的测试
一个成功的项目背后是完备的系统测试,数据中心的迁移也必须经过充分的系统测试,以确保迁移的成功,数据迁移测试至少要包括以下内容:
(1)性能测试:主要包括网络传输速率测试和灾备系统的测试。网络传输速率测试主要用于确认网络系统是否满足灾备系统的传输要求。灾备系统测试主要检验灾备系统实施后带来的性能降低是否在用户可忍受的范围内。
(2)双机切换接管测试:主要进行原系统的双机接管测试,以确保在搬迁过程中任何一个单机能负责原来双机运行的业务,也确保搬迁过去的机器能连接到新存储中使用。
(3)数据迁移切换测试:主要在数据中心搬迁之前,先做旧存储到新存储的SRDF同步,然后断开SRDF,在新中心利用测试主机将新存储上的业务系统挂上来,检验能否正常进行应用处理。
4.良好的项目管理
(1)充分的人员保证和组织管理:由于搬迁工作的复杂性,在项目组中要有专职项目经理,要有网络工程师、系统管理员、数据库管理员、应用系统负责人、业务人员等。
(2)良好的沟通机制:沟通不仅要在银行内部,包括业务部门、行领导、行内技术人员等,还要包括合作伙伴,包括厂商、集成商等。
(3)严格的进度控制:由于是生产系统的迁移,项目的实施有严格的时间限制,因此在项目实施过程中要对实施进度进行严格控制,并制定详细的应急方案。
(4)完善的质量保证:由于是生产系统的迁移,所有的操作都要保证其准确性,要切保操作流程、操作步骤万无一失。因此,项目实施过程中对所有的实施步骤要进行充分的测试验证和审核,以确保实施的质量。
七、结论
数据中心的搬迁是一个复杂的系统工程,很多银行和企业都可能会面对。这样的工程不仅要采用成熟的技术,更要通过严密的组织、规划、设计,才能圆满实现。
以上通过厦门建行使用SRDF技术成功实施数据中心搬迁的实践,我们可以看出:SRDF技术是一种成熟的、可靠的、适用于灾难备份和数据迁移的解决方案。
我们希望本文能对将要使用灾备技术进行数据中心搬迁和灾难备份的银行和企业有所帮助。