在撰写“重复数据删除竞争白热化:软硬结合成关键”和“惠普StoreOnce单一技术:叫板EMC备份组合实力?”的过程中,笔者曾经觉得惠普StoreOnce B6200磁盘备份系统和IBIRX X9000 Scale-out集群NAS存储有些“形似”。
左侧为惠普IBIRX X9000的基本组成单元:从上到下依次为性能模块(2台ProLiant DL380 G7服务器)、存储模块启动包(两台P2000 G3 SAS MSA双控阵列),以及存储模块扩展包(JBOD硬盘扩展柜)。而右边StoreOnce B6200的一对节点起始配置,也是2台服务器加上P2000 MSA存储,并可以进一步向上扩展(Scale-up)容量和向外扩展(Scale-out)到最多8个节点的重复数据删除引擎。
IBIRX X9000 NAS和StoreOnce B6200的节点间互连应该都是通过万兆以太网,而B6200由于提供VTL(虚拟磁带库)功能,因此需要在服务器上安装8Gb/s FC HBA卡提供光纤通道主机接口。
在看过下面这篇文章之后,我终于确定了自己的判断。以下内容转载自网络,供有读者参考,不完全代表比特网观点。
昨天培训Tony提出了一个问题,问为什么NAS上面没有dedupe(De-duplication,重复数据删除)的功能,我认为这个问题要澄清一下,应该问“为什么NAS上面没有类似B6000的消重功能”。其实原因很简单,看一看(惠普StoreOnce)B6200就知道答案了。 B6200是什么?基本上它就是个专业NAS,然后以NAS为基础,针对文件对象做在线切块变长滑动窗口消重再压缩的处理,要么直接share(共享)出去,要么仿真成磁带再export(VTL导出)出去。
上面这段文字来自Evaluator Group的HP StoreOnce B6200实验室测试报告,其中提到B6200的(节点间)网格扩展和HA功能基于惠普IBRIX X9000存储的集群文件系统。目前IBRIX家族产品支持的全局命名空间为16PB;而B6200满配按照20:1的典型数据缩减比例计算,其逻辑容量可达10.2PB。
设想一下,当文件被“消重”之后,你再要访问它读取它的时候,它一定要“再水化”(即展开还原)才可以用,不管是谁去做这个“再水化”—— Target NAS、DMA Server、App Server(DMA Client),总之一定要有人去做这事儿。难道读一次就“再水化”一次?另外,文件用着用着改了,内容里改了一个字儿,或者换个名字重新保存了,更别说文件系统上还有加密的要求,这些都需要重新“消重”,就算是用滑动窗口的消重也必须要再跑一遍计算把消重引擎该做的那点事儿给做了。系统里有多少文件?上百万、上千万、还是上亿?消重软件忙得过来么?假如说微码或者DMA为了这个功能做了优化,比如为频繁读取的文件提供一些Cache作为避免反复再水化的手段或者提供一些性能加速,那么多少Cache够用?多少CPU周期够用?当然不排除将来的NAS具有现在十倍甚至百倍的性能,而消重引擎的效率通过引用新技术和固化到ASIC里也得到相应的提高,那么可能性还是存在的,特别是当NAS被用于T1应用(严格要求响应时间和文件并发操作数)的时候。现在的发展基本上是两个方向:软件;用SSD去提高消重效率,这可以说是偷换概念,没啥意思,或者反过来说因为SSD还是太贵,所以要通过消重来“省着点儿用”。
所以我们来看看市场上是谁大吹特吹在NAS上的“消重”呢?答案是NetApp,为什么呢,因为这事儿是他们首先玩起来的。“文件级消重”消除的是同一个文件在系统内的多处重复,那么解决方案很简单,把元数据和文件本身分开,分别单独管理,这有点“对象存储”的味道在里面。而更重要的是因为这家公司只有FAS/Data ONTAP这一个好东西(平台,不包括收购自LSI以OEM业务为主的E系列,编者注),为了存活和增长,所以想用这一个东西去打所有的市场和应用,所以就用它去支持所有“该有”的功能,既跑DB又做文件共享还做备份,妄图通吃从Block到File从Tier-1到Tier-N的所有市场,碰巧中国很多客户又非常不专业,要么是利用这个概念达到其它目的,要么就是被这个概念诱导了,觉得一个东西什么都有实在是好啊!但其实道理很简单,就好比一个人,什么都懂也可以说就等于什么都不懂,什么都会也可以说就等于什么都不会。就像希望得到一个具备“所有”功能特点的傻瓜式操作的便携式相机,这是中国人最普遍的消费心理,就不知道西方有句俗语“you give peanuts, what you get? Monkey!”这些可都是西方人发明的技术和产品,连销售方法论也都是西方文明的产物。
我认为(HP IBIRX)X9000的“技术进步”其实算是非常快的,你和EMC的NAS发展过程比较一下就知道了,X9000很快就具备了当今专业NAS所应具备的大多数主流功能。