无论是硬盘固件bug,还是人为删除,数据丢失会对用户业务造成极大影响。
根据2020年IBM数据泄露调查报告(The 2020 Cost of a Data Breach Report)显示:在美国,由于数据丢失带来的损失平均达到860万美元,有94%的企业经历过数据丢失而无法恢复的情况,更惊人的是,70%的中小企业在发生大规模数据丢失后一年内出现破产……
当我们把目光聚焦于数据存储时会发现,造成数据丢失的原因有很多,根据第三方调研机构Kroll Ontrack的分析报告显示,有67%的数据丢失是由于硬盘或者系统故障造成的,14%是由于人为误操作,10%的数据丢失源于软件失效。想要避免数据丢失就需要提高硬件的可靠性并尽可能降低人为误操作带来的风险。
目前,市面上的数据存储解决方案都填充着各种功能或机制,看似可靠性很高,实则缺乏完整的数据保护闭环。一旦发生故障,往往依然采用“头痛医头脚痛医脚”的方式打补丁。基于这一洞察,深信服分布式存储EDS构建了事前主动防御、事中自动处理、事后快速兜底的数据保护框架,重新定义了存储可靠性,通过软硬件协同设计,以期充分保障用户核心业务数据的安全可靠。事前阶段的“防患于未然”更是重中之重。
事前主动防御——潜在风险提前布防
对于硬件而言,故障发生往往充满随机性且难以预测,与其“坐以待毙”不如“主动出击”,深信服EDS针对潜在故障,结合硬件故障预测、数据冗余保护、容灾备份等构建了主动防御体系。
1.硬盘亚健康预测机制——省心的“硬盘看护”
EDS对硬盘进行了全方位保护,结合AI算法模型,推出了硬盘坏道预测、扫描修复及SSD寿命预测等一系列功能——
硬盘坏道预测:通过收集10万+块坏道硬盘的1800多万条特征数据,进行机器学习算法训练,最终将算法内置到EDS存储软件中,可以实现提前15天发现出硬盘是否出现坏道,预测准确率达98.5%,如果预测到某块磁盘将出现坏道,则调取坏道扫描和修复进程对磁盘进行扫描和修复。
自动坏道扫描及修复:主动对预测将产生坏道的磁盘进行扫描,如果扫描发现潜藏的坏道,则立即触发数据修复,即利用冗余机制将坏道上的数据修复至硬盘保留扇区。
预测和检测结果及时通知:预测和检测结果都会以页面告警、邮件告警等方式及时通知用户风险等级,用户可根据风险等级提前预备备件。
除了对硬盘坏道的预测、检查和修复完整闭环流程外,EDS还支持对卡盘、慢盘、SSD寿命到期、IO错误等硬件亚健康问题的闭环处理,切实保障数据可靠。
2.副本、纠删码机制——故障后的“重构”、“推算”实现复原
针对块存储,EDS采用多副本机制,除了多份数据副本之外,还同时存在仲裁副本,保存少量校验数据即可完成故障后的数据重构。而针对文件、对象存储,EDS采用纠删码机制,对不同节点冗余不同级别的主机/硬盘故障。
3.数据容灾机制——故障发生有“兜底”
针对用户业务系统或者生产数据,深信服提供完整的备份解决方案,针对结构化数据提供实时备份能力;针对海量非结构化数据,通过永久增量与快速扫描技术提供高效的非结构化数据备份和恢复方案。
事中自动处理——实时业务维护与快速故障修复
当故障发生之时,需要考虑两件事,一个是如何保障业务依旧正常运转,另一个是如何做到故障快速修复。不仅要求存储具备“自愈能力”,还要做到“轻伤不下火线”。深信服EDS针对各种难题提供了有效的处理方式。
1.针对硬盘静默错误,通过配置一致性检查策略,自动检查并修复由于硬盘静默错误产生的数据不一致问题。
2.针对无法修复的硬盘,EDS触发自动修复实现数据的自动重建。
3.对于业务系统,当主机/网络出现异常时,业务IP自动切换到可用节点,最大程度保障业务不中断。
事后快速兜底——业务数据找回及时止损
在故障发生后,用户必须要进行业务数据找回以将损失降到最低。深信服EDS实现发生物理灾难性故障后,通过备份容灾系统,帮助用户尽快恢复数据;当发生逻辑错误时,可以通过快照克隆、回收站进行数据恢复。
其中,回收站可以根据需要进行灵活设置,一旦配置回收站策略,符合策略的文件在删除后会进入回收站,当删除操作为误操作或恶意行为时,管理员通过回收站可以找回删除的数据,实现快速恢复。
如今,数据已经成为一种新型生产要素,和所有的行业、所有单位、企业,甚至是我们每一个人都是密不可分,而想要挖掘数据的价值,首先就要保障数据的可用性及可靠性,而可靠性是数据的根基。深信服EDS存储基于数万家用户服务的积累,构建了完整的数据保护闭环,提供99.9999%的可靠性,致力于实现用户业务永无宕机。