董唯元认为,实现智能化的数据中心运维,要从减少IT系统运维对专业人士的依赖入手,借助智能化辅助管理,由人工智能解决系统解决众多琐碎的细节问题,提高效率。在判断数据中心复杂的系统故障时,无论是应用端还是在设备端,几乎所有防范故障的手段存在冗余,而智能化手段可以准确做出预判。
系统磁盘数据量太大时,多核磁盘可能会同时出现故障,先智数据具备主动式故障预测能力,同时防范诸多隐患,不仅如此,还能通过人工智能技术,预测磁盘寿命,先知先觉,为企业降本增效。
以下内容根据演讲实录整理:
先智数据,大家看这个名字觉得好像跟人工智能有点关系,公司成立已有五年时间,我们起和智能相关的名字时,人工智能还没有那么热,我们的团队大多是原先做存储的研发人员,存储领域多年来在应用上始终存在一定的局限性,所有的动态都须配上预测能力,当磁盘空间不够时再去解决,这个动态没有太多意义。
预测能力在数据中心里到底能干什么?意义又是什么?
先智数据的愿景就是连接存储与未来的人工智能,宏观来讲,是人工智能与基础架构之间的关系,在基础架构领域,很多人工智能的应用起到了替代人工或部分替代人工的应用,或者说,它替代了基础架构原理本身的工作模式。所以人工智能在数据中心的应用,首先是减少对专业人士的依赖。面对数据中心可能出现的故障,我们所能做的就是作最坏的打算,到底哪里会有故障,其实是不可知的,所有的防范故障的手段都是冗余,冗余不是出现在应用端就是在设备端,纯靠冗余并不能堵住问题,除了堵,就是作疏堵结合,通过智能化手段作预判,相对比较准确地预知未来情况,虽然故障可能还会存在,但大大减轻了面对故障时的人为压力,明确知道故障原因,选择应对手段就会变得更轻松。运维思路发生变化,这种转变就是预测能力带给数据的比较基础的意义。
预知能力可以解决哪些具体实际问题?
现有技术大多还是在于后期“治病”阶段,先智数据充当“算命”角色,算出设备使用多久会坏,并不做后期治病的事情。例如,两副本或三副本存储,是比较奢侈的配置方式,在这种配置方式下,我们产品的可靠性得到了充分保证,为1PB的数据扩展出3PB的空间,但实际上,两副本或者三副本,这种副本保护机制并没有想象中那么强,所以我们要得出系统总体的健康概率时,就要用到一个叠加的方式,这个原来叫副本安全分布边界。
总之当系统磁盘数据量太大,多核磁盘可能会同时出现故障,为保障可靠性,限制磁盘总数上限,这个数可能远低于大家的直观感觉,大家觉得我用了那么奢侈的副本保护,还是有局限性。
磁盘故障了要修复,这会影响前端的应用,存储不光可靠性这一点重要,还有性能的可靠性,这是存储里最核心的两条腿,如果VDI出现风暴,早晨九点钟左右,这个时候VDI的压力是最大的,硬盘坏了,到底是修复还是不修复?如果修复,同事们打开邮件的就会慢,如果不修复,或者用最低的资源去慢速修复它,可能修复过程要一周左右,对用户来讲实际上很不愿意看到鱼和熊掌的选择,这是真实需求,今天由于技术的局限不可能做到这一点的根源,其实是说所有故障修复手段是在事后进行的,如果能提前预知故障,修复手段还是原来的修复手段,但是我可以把这些动作提前到故障发生之前,就可能解决太多现在不方便解决的问题,不管是可靠性脆弱的问题,还是可靠性与性能互斥的问题,都可以迎刃而解。但如果有预知能力,相当于给系统增加了一个纬度,原来很难逾越的障碍在新纬度上很轻松就可以跳过去。同时,提前预测这种机制实际可以提前避免准故障状态带来的隐患,可以不用再面临准故障状态不好不坏说不清的过程。
我们具体的工作原理主要是基于磁盘的SMART信息,和它所运行环境的CPU内存的应用负载状态,两个因素叠加在一起,我们看到有一些比较类似的做磁盘诊断的工具,我们今天要解决的就是这个问题,就是要附加上很多所处工作环境的信息。通过两个东西的叠加才能得出来时间延续的预测。包括国内的互联网厂商做的预测基本上都是基于建模的方式,这种方式做出来的效果有点像天气预报,今天下午很准,明天上午还比较准,一周后甚至一个月之后就无法准确预测了,这种基于建模方式做的预测其实都有这个问题,就是近期准,我们为了做长周期的预测,采用比较复杂的神经网络诊断。
这个预测最核心的要素其实不是神经网络怎么建,最核心的要素是你有没有数据去训练它,比较有核心价值的地方是,我们有将近十万个磁盘在连续四年的时间里,每一天都有连续的状态记录,这样加在一起一共有6000万左右的样本量,我们才训练出今天的神经网络,可以相对来说能比较准确地预测磁盘寿命。