面对全闪存初创公司的猛烈炮火,大厂没Hold住
西瓜哥 发表于:14年09月19日 00:00 [原创] 存储在线
存储在线专栏文章:这两天忙参加HCC,没有关注其他新闻。今天有点时间,去老地方转了转,发现在Pure Storage领头的全闪存阵列初创公司的猛烈炮火下,大厂已经乱了阵脚,形势一片混乱。
首先是前段时间思科宣布,由于质量问题,全闪存阵列Whiptail(收购后改名Invicta)暂停出货。
这两天,EMC说XtremIO的软件从V2.4升级到3.0,需要破坏性升级,网上咋开了锅。
今天,NetApp急忙发布了一个半成品FlashRay,只有单控,不支持Scale out,为啥这么猴急?
大厂们,别乱了阵脚啊,Hold住!
啥,Hold不住,赶快求助Hold住姐啊。
闪存相关架构太新,对存储的架构设计师是一个巨大的挑战。总是到大量使用的时候,发现原来的底层设计考虑不全面,需要破坏性的升级。
在分享XtremIO的升级问题之前,我们先来看两个定义。
NDU:Non-Disruptive Upgrades (非破坏性升级)
DU:Disruptive Upgrades(破坏性升级)
DU一般指影响到业务运行的升级,最少需要停机,严重的需要数据删除,然后再从备份恢复。
因此,针对关键业务,NDU是一个重要特性。也是高端存储区别与其他存储非常关键的特性。
EMC在去年GA XtremIO产品的时候,承诺系统的可靠性很高。NDU是其承诺的一项(见下图第3点):
"XtremIO eliminates the need for planned downtime by providing non-disruptive software and firmware upgrades to ensure 7×24 continuous operations."
但是,XtremIO最新发布的软件版本XIOS 3.0,居然要求用户采用DU升级。因此,用户愤怒了,竞争对手也幸灾乐祸。
EMC内部人士Virtual Geek在其博客中解释了为什么需要DU升级的原因,下面有很多用户或者竞争对手的反馈,建议存储的架构师好好看看,绝对涨姿势。文章很长,文后有链接,西瓜哥简单说一下概要。
Virtual Geek说, XtremIO 2.4->3.0的DU升级其实不奇怪,业界经常发生。一般来说,存储软件的数据布局结构层或者元数据映射层有一个发生改变,就很难保证NDU升级了。
而XIOS 3.0在这两个层面都发生了变化,在数据布局结构层,原来的重删块是4K大小,现在调整为8K。而在元数据映射层,由于引入在线压缩的功能,因此这层也发生变化。
重删的块从4K调整到8K,据说是为了减少元数据的数量。大家知道,XtremIO是采用内存计算的方式,元数据都在内存里,随着Flash容量越来越多,元数据膨胀太快了。
西瓜哥认为,XtremIO才发布半年,就需要这么伤筋动骨的改动,这些教训,希望各位存储架构师要吸取,预见性要做足一点。
Virtual Geek举了一些DU升级的例子:
EMC的CLARiiON和VNX都有过ND升级的情况,比如Rockies update。
NetApp从ONTAP 7-mode升级到c-mode。
VMWare从VMFS-3升到VMFS-5。
很多初创公司,宣传NDU前,其实已经多次DU过了。
一个中心思想,软件为了提高性能,增加新功能,动了上面的说的数据布局层和元数据映射层,DU就是必须的了。当然,可以采用版本向下兼容,但这样做难度很大。
Virtual Geek也让大家放心,这种DU升级不会很频繁。从XtremIO这两年的路标来看,要增加动态scale-out功能(现在做不到动态负载均衡),远程复制功能,甚至升级到haswell硬件平台和以后的新平台都可以保证NDU,不需要DU。
当然,用户可以选择不升级,但西瓜哥认为这个不现实。不升级没有新功能,而且以后厂商也很难维护老版本。
如果是VMware环境,可以考虑用vMotion功能来规避业务宕机。
从后面很多反馈来看,大约有以下观点:
XtremIO的用户或潜在用户:很生气,后果很严重。销售骗了我们,告诉我们可以NDU的,呜呜,其实已经是你们第二次DU了,你赔,你赔......
Pure Storage:我们的架构没有这个问题,我们GA以来,都可以NDU的
NetApp:我们也没有这个问题啊,我们从ONTAP 7.x升级到8.x都可以NDU的啊。那个从7-mode升级到c-mode,那是两个平台切换好不好,不是版本升级
......
哎,XtremIO,这个屁股不好擦啊。
说完EMC,我们再来看NetApp的FlashRay。
FlashRay的定位以前和大家分享过:
这个产品已经跳票,推迟发布了。但今天NetApp还是没有Hold住,发布了一个半成品,来应对Pure Storage等Startup公司的竞争。
为啥西瓜哥说这是一个半成品,因为现在只能支持单控,也没有提供scale-out功能,关键业务谁敢用。
不过,FlashRay有几个特点,也应该是亮点吧:
支持变长重删和压缩,而且号称粒度是byte级别压缩
采用cMLC,这是除HP 3PAR外,第二个大厂采用cMLC
新的OS号称从头设计,名字叫Mars(火星) OS,又是一个来自星星的你。据说底层数据保护还是采用闪存优化的RAID-DP。但没有说是否还采用WAFL,这个NetApp成名的武器。WAFL的原理其实大家都清楚,最大的特点就是Write Anywhere,也就是磁盘转到哪里就写到哪里:
但和其他的日记文件系统一样,当容量比较满的时候,需要寻找新空间,做类似闪存FTL层类似的垃圾收集工作,性能会有影响。WAFL经过NetApp十几年的优化,在机械盘时代无人能及,成就了NetApp的NAS性能。但在全闪存时代,WAFL这些针对机械硬盘的优化,几乎毫无价值,因为Flash不在乎你写是随机的还是连续的(这也许FAS不把闪存作为主存而是只做Cache的原因吧?)。
也许这是Mars OS老跳票的原因吧,确实需要从头设计。
但目前的FlashRay发布太仓促了吧?会不会造成类似EMC的DU问题?
看来,Pure Storage等来势汹汹,大厂们有的Hold不住了。在国内的市场上,西瓜哥也看到有些场合,本来是传统高端存储的地盘,但为了搞差异化,大厂的销售纷纷用自己的全闪存阵列去替换自家的高端存储,是否相煎太急?
看来,相对传统的高端存储市场,全闪存阵列的可靠性还是有不少距离啊。新架构必然要经历这个过程,大家都理解,只是希望宣传的时候不要太激进。作为用户,也应该冷静看待新产品的宣传。记得以前做金融入围的时候,大行有一个入围原则,这个架构必须是市场使用过3-5年后的架构,当时就觉得太保守了吧,不给新厂商和新产品机会。现在西瓜哥似乎比较理解这些原则了。
好,今天随笔就分享到这里,西瓜哥水平有限,观点也许比较尖锐,仅代表个人观点,各位大厂粉丝,欢迎技术攻击,人身攻击的不要。
希望大家积极反馈你的意见和建议,微信扫描如下二维码,关注微信公众号“高端存储知识”,与作者微信互动。通过掌上DOIT移动客户端,您可以订阅西瓜哥专栏,第一时间获得知名专家和业界领袖的深度剖析与趋势分析。