北明软件王华标:《Dorado闪存实际应用案例——快速数据保护》
[导读]2015年8月5日,由DOIT传媒和存储在线联合主办的2015中国闪存峰会在北京盛大开幕。本次峰会以“闪存加速数据经济变革——颠覆方式和速度”为主题,超过500位各行业用户代表,数十位顶级学者、产业精英和技术专家出席,以圆桌讨论和主题演讲等形式,从不同角度深入探讨“闪存加速数据经济变革”这一话题。
2015年8月5日,由DOIT传媒和存储在线联合主办的2015中国闪存峰会在北京盛大开幕。本次峰会以“闪存加速数据经济变革——颠覆方式和速度”为主题,超过500位各行业用户代表,数十位顶级学者、产业精英和技术专家出席,以圆桌讨论和主题演讲等形式,从不同角度深入探讨“闪存加速数据经济变革”这一话题。
在下午的主题演讲中来自北明软件的首席架构师王华标发表了题为《Dorado闪存实际应用案例——快速数据保护》的演讲,他以企业数据保护技术问题为切入点,介绍了全面灾难防御的重要性并分享了具体相关案例及解决方案。
以下是演讲实录:
王华标:很荣幸跟大家分享一下我们北明公司对闪存的理解和我们自己使用的一些案例。
刚才我一直在底下听四位CIO他们自己对闪存的期望也好或者说对闪存的担忧也好。总体突出几个点,还是闪存的自己的特点组成。
第一说我期望它,因为它速度快。速度快能不能对我的应用有一个很大的提升。闪存相对来说成本高,寿命相对来说短。我们北明公司作为服务集成商来说是面向客户,你要为客户着想。四个客户提出来他的担忧,他的期望。我们要怎么样解决呢?这就体现在我们对方案的设计上。我怎么设计这个闪存用的人最合适。
下面我分享一下我们在闪存方面应用的一些实际案例,这是做一个快速数据保护的案例。
一般说闪存劣势有几个:寿命问题、价格问题、容量问题、概念问题。概念先不讲,你如果前面三个问题解了,概念也会被大家接受。
价格问题这些年闪存的价格已经下降的越来越快,当然还不到原来存储的水平,已经可以到慢慢可以接受的情况。第二是寿命问题,技术不断创新,寿命也会增加,今天上午讲可以到20年,如果到20年已经基本满足我们的需求。开场白闪存可以被咱们来使用了。我在什么地方用或者我怎么用更好?会有哪些的问题呢?在客户场面经常碰到的问题,对业务终端用户来说经常会碰到我业务访问的时候业务中断,我业务访问不了,这些问题怎么办。对于存储的系统管理人员来说,经常说我存储坏了,数据丢了。对应用端来说我这个升级宕掉了,用不了了。这些问题我们怎么解决?我提到今天先要讲的是数据保护的一个概念,我数据也坏掉了,网站也宕掉了,有各种各样的原因造成。
这些东西真正来说我有一套数据的保护的系统,起码还可以解决我的数据丢失问题,甚至是我的性能要求更高。
我现在讲的是数据保护,数据保护有几个方面要考虑的问题。一般来说数据保护说灾难恢复、灾备、业务连续性。一般来讲数据保护,很多人讲灾难恢复,来个地震,我做灾难恢复。但是真正来说数据保护有几个方面实际上更关键。这个是银监会的标准的规定,第一是信息技术的故障。第二是外部服务中断。第三是人为破坏。第四是灾难恢复。
这是对灾难的一些划分,咱们从统计来说有25%的灾难是因为软件造成的,有20%的灾难是因为网络造成的。人为的灾难有15%,真正自然灾难只有14%。真正说灾难恢复,灾难因为地震打仗或者是洪水真正造成灾难只有14%。硬件、软件、网络、人为破坏这些东西怎么来处理?
我正要考虑的一些是逻辑性造成的一些问题。以及如何解决这个问题?
我的系统访问的时候宕掉了,有人上去把我的数据改掉了,我这个数据就已经是错的了,这种情况下怎么保护我的东西。我举个例子,这五段时间《大圣归来》很火,前些年有一个非常火的电影就是《大话西游》,有一个月光宝盒,一喊“菠萝菠萝蜜”就回去了。我出现问题,我如果把时间倒回去的话我是不是可以重新来,把我错误给避免过去,这是一个持续数据保护的最基本的想法。
首先把时光恢复,首先要有一个月光宝盒,我要能有一个工具把时间倒回去。这个月光宝盒是什么?我们就说提出持续数据保护的理念。做什么呢?把我的数据你有传统的硬盘也好,其他硬盘也好,我有一套存储虚拟化的产品帮你不断的把你的数据业务访问的IO全部通过录像方式录下来,甚至可以录到每个IO都给你录下来。当然有一个缓存,录下来存在另外一个地方。万一这个时候有人改过了,数据错了,把时间根据录像往回倒,倒到你好的那个点为止。是不是起到月光宝盒的作用,把我的坏的犯的错误的地方给它回到以前就像他救紫霞仙子,救了好几次没有救着,最终一次赶上了把她救了,避免错误发生,这是基本的持续数据保护。
这个产品的细则我们选的是CDP,有具体的厂商的东西我不细讲了。作为一个架构师来说,我们要考虑的东西可以来怎么实现。
现在有个月光宝盒,我能把时间回去了。我要回去的时间我也喊一句咒语才能回去,就是启动我月光宝盒的时间。我不能说它喊一句咒语一喊就回去了,不能说盒子一打开过了20年我才能回去,我等不及,也许我死掉了。回去时间的咒语很重要,这个咒语体现在对咒语的需要就是要快。为什么我们选择了一个快的咒语就是华为的Dorado。我们选择华为的Dorado作为我们的闪存存储就是为了启动咒语的时间,比启动月光宝盒的时间更短。你如果用传统存储有可能时间就长,你启动时间就长,你可能造成的损失更大,我们在这个地方选用了Dorado。
先讲Dorado的性能,这个我快速过一下,产品的性能不是我们主要的。Dorado来说,闪存来说是IOPS高,它的时延相对来说变化的幅度没有那么快。如果传统存储你这个变化速度会快一些,对闪存相对来说IOPS和性能会表现更优势一些。
第二性能比较高,一个性能从这对比来说传统的200毫秒,使用闪存以后我可以降到24毫秒。我的TPC-C值降到原来88%,性能提升很明显。
讲讲组合方案,它有好处也有坏处,怎么利用它的长处,扬长避短。第一我要讲数据保护,第二启动月光宝盒,第三快速的启动,所以我需要一个闪存来作为我的中间存储。这两个结合才能召开我一个合适的方案,能起到快速的时光倒流恢复。怎么来实现?我利用飞康做了持续数据保护,CDP的劣势通常情况下是怎么做的?是在传统存储跟应用层之间加一套存储虚拟化的网关。我每次访问都会通过存储虚拟化网关再去访问存储。造成了时延增加,这是非常本身的缺点。它的优势是做了一个时光可以恢复的月光宝盒,可以把东西恢复过来。我怎么扬长避短?我利用它的优势,我还要避开它的劣势,他这个时延太长。我用一套闪存做了存储虚拟化的缓存。我每次访问的时候读写我都先从缓存再走我的传统存储。这样的话第一我本身存储的性能提高了,原来读写都是直接访问传统存储。第二我又避免了它的寿命的问题,我走的是缓存。我在中间这里读一下或者写一下,写到缓存,只要我对缓存的操作完成的,我的应用可以继续该怎么跑就怎么跑。应用的时间成倍的提升,但我的数据生命或者数据的稳定性没有任何损失。这两个优势互补,组成完整的一套方案叫时光回溯。
咱们这套方案可以用在什么样的场景,我有数据保护,我有缓存,实际上很多地方都可以用。除了传统的灾备领域,我的数据的迁移,数据的重新整合等等都可以用,甚至是一些云环境、虚拟化环境,比如做桌面云。咱们桌面云被人诟病的地方,就是一开机大家就说有一个开机风暴,每天早上上班一开机,1000个人开机关机宕了,访问不了。出在你访问的时间窗堵在一个地方了。堵的地方使才用一种闪存的技术,把统一镜像放到闪存里面,不放到存储里,这个问题也解了。或者你走一套缓存的机制,这是另外一种方法,可以应用到场景。
还有存储系统的升级,我原来的存储系统,我现在想再买一套存储系统或者我用新的存储系统给它做升级,怎么做升级?原来的数据都在这,但我现在要升级,我的业务也不能断,怎么办?所以说我有一套缓存的东西,一个闪存放在那。我可以把我的数据先倒到我的闪存里,等这边升完级再倒回来,这是最常用简单的方式。
还有一种是存储系统的分级,CDP是存储虚拟化的网关,下面可以构建各种不同型号的存储。比如中石油大的客户他可能不是一家的重构,可能是有惠普等等不同的存储,我怎么统一管理起来。我有一个存储虚拟化网关的话能把各种存储统一的管理机构管理起来,做虚拟化。甚至把各个文件系统存储或者说一个文件系统也好,可以划在不同的系统当中。
这是我们实际应用的案例——国内某个网省的营销系统,面临真正的问题,业务系统响应较慢。第二数据分散,因为营销系统是国网运行的,一段一段时间。第三逻辑故障,有个人上去,可能自己改改把东西存回去了,就是人为的错误。甚至某个机器有个电源坏了,上次青云宕机了,据说只是其中一个网口坏掉了。两个原因,第一被人攻击了,第二是其中交换机的网口坏了。就坏了一个网口整个系统瘫掉了,这种逻辑故障的东西我怎么能避免。最后还要把我的业务数据从各分网省,因为国网是每个网省营销系统都是自己用,把要集中到北京来。他的数据要远程迁移过来,他的数据怎么迁移。因为我业务还要在运行,我这个数据怎么迁移过来。
真正我们来实现,第一,结合我们做的架构图,有几种存储。我们加的是哪几块呢?第一加了存储的虚拟化网关是CDP。在你存储和业务应用当中我加了一套CDP,加了一套闪存。CDP的好处可以不断把你的数据录像记录下来,你有任何问题我可以回复。还有一点帮你制作一个闪存,把我的数据都写到缓存里,通过缓存写到存储里。读有一个热点,把我的热点数据放在闪存里,所有热点数据就这在闪存里直接读,不需要直接访问存储。这个真正测完之后,真正性能提升了五倍。我加了应该慢了,我使用了闪存的技术,加了缓存,访问的路径变短了,反而变快了。
还有几个问题,是不是太贵?我为什么说性价比值得做呢?比如我一个存储160T,我只是做缓存,实际上我只买了10T。还有寿命问题,你说闪存的寿命有问题,我真正的数据还是记在这,对寿命没影响。你闪存坏了,只是缓存的地方坏了,再换一个缓存就可以了,可以扬长避短。后面是说故障应急,他有回倒技术,录像技术,把你每一个IO记录下来随时随地往回倒。这是我们应用具体实际案例,现在已经落实,谢谢大家。
欲知更多关于2015中国闪存峰会的精彩内容请点击查看闪存峰会全程直播报道专题。