数据存储产业服务平台

谷歌数据中心被雷击 数据丢失0.000001%

谷歌在云平台(CloudPlatform) 官网上发布公告称,在欧洲west1-B区上运行谷歌Persistent Disks的用户因为闪电和旧存储设备故障的原因,导致数据丢失,被迫要从快照中恢复数据。

这件事发生在上周五,许多客户数小时连接不上Persistent Disks——可独立存在的虚拟机磁盘,这一问题在上个周末都没能解决。

谷歌公布了分析报告称:“欧洲数据中心的电力系统遭受连续四次电击导致europe-west1-b区内存储GCE实例的磁盘存储系统断电”(原文附:谷歌的人告诉我们说这次声明是不准确的,并不是谷歌自己的设备被电击了,而是当地电网被雷劈了)

“尽管自动辅助系统迅速恢复了供电,存储系统也有备用电池,一些最近写到存储系统的数据因为也受到了断电的影响,很可能是由于停电的延长或电池耗尽引起的,”谷歌解释说。

“大多数情况下数据能被稳定的存储下来,有时候需要人工干预来恢复正常服务状态,极少数情况下数据是不能恢复的,导致Persistent Disk上数据永久丢失”。

大约百分之五的磁盘在数据中心的比例在事件中记录了“至少有一个I/ O读取或写入失败”。读取故障持续到周一约0.05%的用户和谷歌现在说的磁盘空间仅仅0.000001%已被证明无法收回。

这次故障中,数据中心存储的5%的数据报过“至少一次IO读写错误”,用户的读故障在周一仍维持在0.05%,谷歌最后表示大约有0.000001%的磁盘数据是不可恢复的。

这其实还不错的,即使给许多客户带来了不便,但至少快照或者其他的备份都能用来做恢复。

“谷歌的停摆完全是谷歌的责任,”然后继续写道“还是必须要向用户强调:“GCE实例和Persistent Disks是一个单一的数据中心,因此当灾难出现时不可避免的会出现错误。”

但是,我们知道,闪电可以来两次,但是数据中心出故障了你不能用同一个理由来搪塞。

谷歌也忏悔的表示“我们正在进行一个存储硬件的升级计划,新的硬件可以更好的抵抗类似这次遇到的问题。大部分的Persistent Disk都运行在这样的硬件上了”,谷歌还表示“正进行一次事件回顾,正在通过一些手段来增强物理和程序上的弹性”。

原文地址:《Act of God damaged data on Google cloud disks》
 

未经允许不得转载:存储在线-存储专业媒体 » 谷歌数据中心被雷击 数据丢失0.000001%