数据库破坏产生的后果,不止是机密数据泄露导致商业信誉受损,更多的是导致组织无法正常运转,影响业务运行。
去年,暴雪娱乐与网易公司旗下的《炉石传说》因为遭遇数据库故障而最终不得不选择服务器归档——意味着只保留历史归档数据。
为什么暴雪娱乐与网易公司这样的游戏行业领导者,仍会遇到数据库破坏,并且没有进行数据备份这样的事故呢?
在某个周六下午,当时没有太多的人在加班。15:20数据库由于供电意外中断的原因而产生故障,导致数据损坏。
暴雪与网易的工程师们来不及反思数据损坏发生的原因,第一时间着手进行抢修——重启数据库并且尝试数据恢复。看起来问题应该很快就能够解决。
但不幸的是,由于相关备份数据库也出现故障,这些尝试均未成功。
暴雪娱乐与网易尝试了各种解决方案仍未能有效解决数据损坏事故。此时,服务器的维护时间也已超过24小时。服务中断,用户仍焦急等待,直接收入损失预计达数百万。最终不得已通过数据归档——游戏回档的方式让服务器继续运转。
事后,暴雪娱乐与网易公司也认为出现这样的事故是不可接受的。
一开始我们提到了墨菲定律:如果事情有变坏的可能,不管这种可能性有多小,它总会发生。我们可以得出这样一个结论:技术风险能够由可能性变为突发性的事实。
通过反省并学习此次事故所带来的经验,我们需要更注重优化的监测。IT负责人通过监测能否回答好两个问题是关键。数据库是否安全?备份数据是否安全?
如果把数据库比作仓库,那么备份系统就如同消防栓一样,是最后的一道安全线。一旦发生重大险情,需要通过消防栓进行灭火。仅仅部署了消除栓是不够的,仓库管理员仍然需要时刻关注仓库的各项异常指标,例如温度、湿度等;安全管理员则需要定期检查消防栓。这两项工作作为生活中必须的两道程序,对于存放着核心信息的数据库系统却没有规范到位。
在这种情况下,一旦出现数据库故障,IT运维人员能否及时发现问题、第一时间智能定位问题、在最短的时间内快速解决问题?在数据库无法修复的情况下,备份数据是否正确?备份是否完全?数据恢复是否能够顺利解决故障?这对于大多数IT运维都是难以回答的问题。
一、保障数据库自身安全
AnyRobot 内置数据库异常检测引擎、数据保护引擎,能够实时监控数据库安全,第一时间发现数据自身层面上的数据异常、内部层面上的违规操作、外部层面上的入侵检测。同时,使用机器学习风险预测,为管理员提供安全改进措施及风险预防措施的告警。管理员收到告警后,AnyRobot为用户提供以告警对象为核心的可视化报表。“哪台数据库主机有问题”、“那个数据库实例有问题”,管理员一目了然。完成定位后,AnyRobot能够捕获异常关键日志及信息,帮助管理员在最短的时间内解决问题,管理员也可以通过关系图谱、安全报表、机器学习等途径进行深度下钻,挖掘风险来源。
二、灾备可视化,深度保障灾备数据安全
企业部署了灾备系统,不能停留在只设置备份任务或者只关注备份完成情况。这是远远不够的,网易的数据库事故就是一个很好的例子。对于灾备系统首先要做到灾备可视化,了解备份效率、数据积压、灾备成效等。其次还需要对备份的有效性进行深度透视,例如在系统定期停机断电前,是否能够及时完成备份,断电突发导致的事故需要保证备份措施能够仍然有效。
• 数据安全可视化
• 全方位告警中心+机器学习风险预测
• 关系图谱——探索式关联分析
• 机器学习——备份积压风险预测、数据库风险预测
一.秒级部署,集中统一管理
二.数据安全可视化
数据库安全可视化能够实时监控数据库安全。数据库安全作为数据安全的关键,需要在日常工作中时刻关注。AnyRobot日志云一旦出现数据风险,立即发送告警通知系统管理员;帮助运维人员及时发现问题,然后智能定位问题,最后快速解决问题;结合内置的告警策略、机器学习风险预测为数据库安全保障提供了囊括“事前-事中-事后”的规范解决思路。
灾备可视化能够实时监控灾备系统运行状态。灾备作为企业数据安全的生命底线,需要保证能够在关键时刻正常运转。AnyRobot日志云让管理员在实时掌握备份动态的同时量化衡量备份的价值,例如备份效率如何、是否存在数据积压、备份成效如何、能否保证发挥备份功能等待一系列的灾备盲点。
对于不同的角色,AnyRobot 可视化报表提供了不同角度的价值。
运维管理员对数据安全、备份数据安全一目了然,可以清楚地看出系统是否在稳定运行。同时支持大屏展示。
运维人员通过可视化报表,能够快速进行检查工作。对大量的数据库、备份数据库实现统一管理,提高运维效率。一旦收到AnyRobot的数据安全警报,能够第一时间智能定位故障数据库,并且日志云能提供信息帮助运维人员在最短的时间内排除故障,避免影响业务正常运行。
三.全方位告警中心+机器学习风险预测
一旦出现数据库风险和备份风险,AnyRobot会立即发送告警通知管理员,管理员通过可视化报表和关系图谱能够快速定位和解决问题。
四.关系图谱——探索式关联分析
备份任务出现异常情况时,是什么原因导致的?除了系统风险还可能存在人为风险,例如操作不当或者恶意修改备份策略、备份对象出错等等。通过关系图谱可以以管理员或者以任务为中心展开关联分析。可以清楚地看到管理员对哪些对象做了具体什么操作?备份任务什么时候被创建了、什么时候被修改了、什么时候被暂停了、什么时候被删除了。帮助管理员实现从业务角度对备份效果进行关联分析。
五.机器学习——备份积压和数据库风险预测
AnyRobot内置异常检测引擎,能够对数据库风险、灾备风险进行预测。
在备份过程中,往往存在数据积压,如何积压过多或者备份不及时,那么对于数据安全是一种潜在的风险。
AnyRobot能够预测未来数据积压情况和备份完成度。如果未来数据积压过多,那么管理员可以根据预测量增大备份速度或者合理增加备份主机;积压的数据需要多久才能够清空,如果在数据维护和物理断电前无法完成,那么管理员必须及时采取措施,保证备份系统能在发生维护意外、断电意外导致的数据事故时正常运转。
在日常运维中,通过安全可视化报表对数据安全一目了然,并且为用户监控“备份安全底线”。在事前避免潜在的数据风险,在事中帮助企业快速定位问题、解决问题,在事后能够提供深度的分析报表、帮助企业事故溯源的同时改进安全策略。想要了解AnyRobot更多信息,请登录爱数官方网站www.eisoo.com。