谷歌在云平台(CloudPlatform) 官网上发布公告称,在欧洲west1-B区上运行谷歌Persistent Disks的用户因为闪电和旧存储设备故障的原因,导致数据丢失,被迫要从快照中恢复数据。
这件事发生在上周五,许多客户数小时连接不上Persistent Disks——可独立存在的虚拟机磁盘,这一问题在上个周末都没能解决。
谷歌公布了分析报告称:“欧洲数据中心的电力系统遭受连续四次电击导致europe-west1-b区内存储GCE实例的磁盘存储系统断电”(原文附:谷歌的人告诉我们说这次声明是不准确的,并不是谷歌自己的设备被电击了,而是当地电网被雷劈了)
“尽管自动辅助系统迅速恢复了供电,存储系统也有备用电池,一些最近写到存储系统的数据因为也受到了断电的影响,很可能是由于停电的延长或电池耗尽引起的,”谷歌解释说。
“大多数情况下数据能被稳定的存储下来,有时候需要人工干预来恢复正常服务状态,极少数情况下数据是不能恢复的,导致Persistent Disk上数据永久丢失”。
大约百分之五的磁盘在数据中心的比例在事件中记录了“至少有一个I/ O读取或写入失败”。读取故障持续到周一约0.05%的用户和谷歌现在说的磁盘空间仅仅0.000001%已被证明无法收回。
这次故障中,数据中心存储的5%的数据报过“至少一次IO读写错误”,用户的读故障在周一仍维持在0.05%,谷歌最后表示大约有0.000001%的磁盘数据是不可恢复的。
这其实还不错的,即使给许多客户带来了不便,但至少快照或者其他的备份都能用来做恢复。
“谷歌的停摆完全是谷歌的责任,”然后继续写道“还是必须要向用户强调:“GCE实例和Persistent Disks是一个单一的数据中心,因此当灾难出现时不可避免的会出现错误。”
但是,我们知道,闪电可以来两次,但是数据中心出故障了你不能用同一个理由来搪塞。
谷歌也忏悔的表示“我们正在进行一个存储硬件的升级计划,新的硬件可以更好的抵抗类似这次遇到的问题。大部分的Persistent Disk都运行在这样的硬件上了”,谷歌还表示“正进行一次事件回顾,正在通过一些手段来增强物理和程序上的弹性”。