对于企业的IT故障,企业的IT运维人员最有发言权,从他们那里可以得知,“磁盘阵列(Redundant Arrays of Inexpensive Disks,RAID)数据灾难”是让他们很头痛且最致命的安全事故,也是发生得最多的一种严重的故障类型。
RAID的主要功能是容错和高吞吐量性能。根据各种条带和校验算法,RAID分为很多等级,常用的有 RAID0,RAID1,RAID5,RAID6,RAID10等,以及各个存储厂家的一些变种RAID,比如HP的双循环RAID5,HP ADG,IBM的RAID1E、5EE等。但最常见但还是RAID5,RAID5从性能、价格和安全性上有一个完美的平衡,以致于目前大部分存储上是用 RAID5做的底层。
RAID5另加一块磁盘做热备,就可以同时支持两块磁盘出现故障,容错性上已达到RAID6的级别,但性能却比RAID6强很多,价格也低很多。然而人才是最终因素,如果没有及时更换故障磁盘,故障磁盘超过RAID限制的数量后,RAID便决然的崩溃,数据丢失。
北京北亚数据恢复中心专业的RAID数据恢复工程师:杨晓龙向小编讲述一个特殊而严重的RAID数据灾难事故:
河北某公司4块2TB硬盘组成的RAID5阵列,无热备,阵列总容量5.4T,使用了4T多容量,是整个公司的文件服务器,文件系统为NTFS,因为两块盘故障离线导致RAID崩溃。此RAID上的数据极其重要,并且相当着急使用,在当地寻求数据恢复,被告知大约需要20多天才能做完,而且没有那么大容量的空间,还需要自己准备硬盘。后来经业内人士推荐找到了北亚数据恢复中心,只有北亚能在短时间内完成恢复。
北亚数据恢复中心的工程师首先对4块源盘同时做了完整的镜像,共花费时间8小时。然后分析RAID结构,吃惊的是此RAID的 Block Size(块大小)才是1扇区,仅512字节,这直接导致恢复过程变得极其缓慢。RAID块大小一般是128/256扇区的据多,管理员根据自己的需求进行设置,如存储大量小文件的存储块大小相应较小,跑数据库则相应要较大,但最小不过64扇区最大不过2048扇区,此块大小为1扇区的,仅是少数几种品牌的小型RAID盒子使用。这给恢复带来难度的同时,也可以想像真实应用上RAID的I/O将是多么缓慢。
分析出原始RAID组成参数后,再分析出此RAID中早已出现故障的2号磁盘,2号磁盘因出现坏道故障,RAID控制器早已不使用它,排除2号磁盘,使用其它3块磁盘进行虚拟RAID重组,数据一切正常。
此RAID块大小为1扇区,通常的RAID虚拟重组软件几乎都不支持,北亚数据恢复中心的工程师对能支持的几款进行了测试,恢复导出大约需要20 天。显然这不现实,不过有多年RAID成功恢复经验的北亚数据恢复中心早已针对此类超小的Block Size的RAID研发出一款快速恢复软件。
采用北亚数据恢复中心自行研发的RAID大缓冲生成恢复软件搭建虚拟RAID环境将整个虚拟RAID镜像生成到北亚数据恢复中心安全存储池中,共花费时间20小时。
下图是RAID大缓冲虚拟重组软件的主界面。
后来重新在此公司的服务器上搭建RAID,将数据倒回,整个恢复过程花费时间两天,数据完美恢复。
虽成功解决了此例事故,但带来后期更多的思考,数据的安全隐患,如RAID原理、设置等。有条件的话最好做好容灾工作。或许,我们也该真正重视这些一直被我们忽略的问题。