数据存储产业服务平台

2011存储Benchmark盘点,意义何在?

引言、SPECsfs2008文件系统测试介绍

记得笔者曾经在去年初,也就是1月18日EMC于全球三地同步推出VNX统一存储等41款新品之前,发表过《EMC VNX发布会猜想 Intel Xeon也给力?》一文。其中提到了“EMC宣称将在业内公认的文件存储基准测试SPECsfs2008中取得100万IOPS的好成绩”。后来VNX阵列确实打破过SPECsfs纪录但没有达到1M IOPS(只有一半的50万不到),可是它却拉开了企业存储厂商基准测试大战的帷幕。IBM、华为赛门铁克、被EMC收购的专业集群NAS产品Isilon、NetApp和Avere等厂商陆续加入这个战团。

然而,在数字不断被刷新之后,越来越多的人开始对SPECsfs2008之类的基准测试提出质疑。去年11月我就提出过“SONAS退出sfs竞赛?带宽突破100GB/s”的话题,无独有偶,国外媒体也有一篇《存储基准测试进入军备竞赛阶段》。基准测试能否反映出实际应用环境中的性能?Benchmark是否成为厂商堆磁盘/闪存的游戏?打破纪录的测试配置对用户而言有多大参考意义?除了性能之外,能否体现出扩展性、性价比等方面水平…

在本文的4页中,我们就将总结并分析2011年公布的SPECsfs2008测试结果,并尝试解答以上问题。

SPECsfs2008测试软件用于评估网络文件系统(也就是人们通常所说的NAS或者文件服务器)的IOPS性能,目前的版本包括NFSv3和CIFS两种协议的工作负载

SPEC(www.spec.org)的全称是Standard Performance Evaluation Corporation(标准性能评估组织)。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。SPEC的成员包括AMD、苹果、Cisco、戴尔、EMC、富士通、日立、惠普、IBM、Intel、微软、NEC、Novell、NVIDIA、Oracle、Red Hat、SGI等软硬件厂商。

SPEC现有的测试软件包括:CPU、图形/工作站应用、高性能计算(MPI/OMP,消息传递界面)、Java客户端/服务器、邮件服务器、网络文件系统(NFS/CIFS)、电源功耗、虚拟化和Web服务器等方面 ,可以看出都是企业级而非PC的应用领域。由于笔者之前的从业经验,对SPEC GWPG(图形和工作站性能小组)推出的SPECviewperf和SPECapc系列专业显卡OpenGL性能/3D设计软件测试可以说是最为熟悉。

初步对比:全年6款系统不断“打破纪录”

SPECsfs2008_NFS.v3测试对比(按成绩公布时间排序)

上表是我们从SPEC网站SFS2008测试结果中选取的一部分,从上到下按照发布时间排序(上面2行IBM SONAS和EMC VNX同时出现SPEC在网站);并且每一个系列的产品,比如Isilon S200和NetApp Data ONTAP 8.1只列出了最高(也就是节点数最多的)配置。

这里面比较的性能其实就是“吞吐量”一列,通过数字从上到下不断提高,可以看出各厂商就是为了破纪录而来的。

众所周知,集群NAS存储系统通常能够提供比常规NAS更高的IOPS和带宽性能。上表中只有EMC VNX是个例外,它使用了VG8网关(5个XBlade NAS机头,其中还有一个备用)处理文件系统,后端则是VNX5700 SAN阵列。而且EMC在这里的内存、驱动器数和输出容量都远小于其它系统,仅457个驱动器就提供了497,623 IOPS(平均每个盘超过1000),显然是SSD固态盘而非传统机械硬盘。

除此之外,表格中列出的所有系统都提供万兆以太网接口。IBM SONAS(Scale Out Network Attached Storage)1.2的文件系统输出容量最大;Isilon S200使用的节点数(140)、驱动器和网络接口的数量最多;24节点的NetApp Data ONTAP 8.1集群模式总内存容量最大(都是DRAM?)。而它们的性能都没有“后来者”Avere FXT 3500高,看来我们需要了解更多的测试配置细节。

NetApp一同公布的6款Data ONTAP 8.1 Cluster-Mode配置测试结果,节点数从4~24个FAS6240统一存储阵列不等,可以看出性能几乎是同比例的线性提升(由于没有看到更多的数据,不敢保证超过24节点还能达到这样的扩展效率)。NetApp收购的Spinnaker集群文件系统终成正果。另外,Isilon S200随节点数扩展的效率也差不多。

SPECsfs2008_CIFS测试对比(按成绩公布时间排序)

NFS文件访问协议广泛应用于Linux和UNIX环境,而CIFS的推动者则是微软(Windows)。针对2种不同环境下的典型应用存储访问特点,SPECsfs2008的NFS和CIFS测试建立的负载模型也是不同的,这就是相同配置普遍能够在后者中获得更高IOPS(见上表)的原因。有些厂商认为CIFS在企业级数据中心环境不具备广泛的适用性,因此不会进行SPECsfs2008 CIFS测试,在这里我们只能看到前面6款系统中的3款,仅供参考。

深入分析影响企业存储性能关键因素

这就是我们从测试报告中归纳出的更多内容,接下来的分析将有助于理解不同产品/厂商之间的差异和影响性能的因素。

首先是节点数。IBM SONAS系统中包括接口节点、存储节点及其后端连接的块存储RAID阵列(含控制器);EMC VNX是典型的NAS网关+SAN(相当于原来的Celerra+CLARiiON)的统一存储形式;华为赛门铁克Oceanspace N8500集群NAS前端使用8个引擎处理文件系统,后面也是提供块访问的S5600阵列;EMC Isilon和NetApp Data ONTAP 8.1集群模式分别使用的是对等的140节点/24控制器,不过前者的硬件专门为集群NAS而设计;Avere的产品则比较特别,严格的说它应该属于文件系统加速器,44个FXT 3500节点放在4台运行OpenSolaris系统的NFS服务器(大容量存储)和访问主机之间,前后端都通过NFS协议连接并实现缓存加速。

系统内部的互连网络也能反映出各自的特点。首先,IBM SONAS和EMC Isilon这两款专门设计的集群NAS软硬件系统,节点之间(SONAS是接口和存储节点)都使用了高速的20Gb/s InfiniBand网络;EMC VNX的X-Blade和SPE之间通过8Gb/s光纤通道连接;华赛N8500虽然给出的细节较少,但它使用了8Gb/s的FC交换机和驱动器(4Gb/s FC-AL);24控制器的NetApp Data ONTAP 8.1集群模式值得一提,它全部的72个10GbE接口中有48个用来处理节点间的通信(剩下24个连接主机),可见并行文件系统需要的通信量之大;每个Avere FXT 3500节点和后端大容量存储各自提供1个万兆网口,很容易看出前后端的带宽限制为4*10Gb/s,不过大部分来自主机的访问应该都被缓存处理了。

再来看看驱动器(硬盘/闪存)。传统机械硬盘部分我们觉得不需要多说,下面看看SSD和闪存部分。EMC VNX使用了436个200GB SSD的全闪存配置,性能自不必说,不过考虑到闪存容量价格比的因素,估计没有几个用户会在实际应用的NAS中这样做。

Isilon S200在每个节点上都安装了一个200GB的SSD,它们不是用来存放用户数据,而是以镜像方式保存文件系统的元数据(这里也可以看出 InfiniBand互连的重要性),NAS系统的元数据处理能力在小数据块IOPS类应用中容易成为瓶颈,SSD的高随机访问能力正是为了解决这一点。

NetApp Data ONTAP 8.1集群模式中每个FAS6240节点上都有一块PCIe接口的PAM II Flash Cache闪存卡(据说已经成为免费的标配),用于WAFL文件系统的读缓存可显著提升IOPS性能。正是这部分一共12288GB使该系统在前面表格中的内存容量大幅领先。

Avere系统中的4个200GB并不是放在FXT 3500加速节点,而是位于4台后端大容量存储服务器上存放ZFS文件系统的日志(这就是为什么会安装OpenSolaris系统)。

在文件系统/RAID这部分,我们主要关注的是命名空间的数量和驱动器冗余保护的方式。IBM SONAS使用的GPFS、Isilon OneFS、NetApp Data ONTAP 8.1集群模式和Avere FXT 3500都是单一命名空间,但底层的实现方式有所不同。IBM的GPFS文件系统跨越208个RAID 5建立;Isilon OneFS则是自身处理13+1的硬盘Parity(奇偶校验);NetApp每个FAS6240统一存储本地的WAFL文件系统未必整合,而底层是96 个硬盘的RAID-DP(双校验盘,类似于RAID 6);Avere最为独特,每个FXT 3500加速节点上各自配置了15个600GB 10KB驱动器,作为DRAM内存之后的第二层缓存,再加上后端4台存储服务器中88个3TB 7.2K硬盘21+1 RAID 5(通过ZFS文件系统配置的软件RAIDZ)组成分层存储的架构。

这里剩下EMC VNX和华赛N8500特别一些,倒不是说底层为RAID 5还是RAID 10,而是它们在测试中都使用了8个文件系统,也就是说8个单独的NAS命名空间。据笔者了解,EMC从Celerra时期继承过来的UxFS单个文件系统支持的最大容量为16TB,NetApp Data ONTAP 7.x也是如此(Data ONTAP 8支持100TB,而8.1集群模式显然突破了这个数字),所以我们称它们为传统NAS而非集群NAS产品。

华赛N8000系列产品使用的VxFS(Veritas File System)来自于赛门铁克,华为回购合资公司股份后名称估计早晚会改变,技术上的合作笔者说不好。根据资料N8500单个文件系统最大支持512TB(戴尔收购Exanet后推出的DSFS目前为509TB,二者很接近),不过在SPECsfs2008测试中可能是为了获得更好的性能,在8个Engine上各自运行了一个文件系统。

最后是CPU和内存。记得有一位同行曾经问过笔者,当今的企业存储系统性能瓶颈存在于哪里?笔者简单思考了一下:介质方面——单个SSD驱动器动辄能够提供数万IOPS,PCIe闪存卡甚至可达数十万;I/O方面——最新的16Gb/s FC HBA和10GbE网卡(FCoE/iSCSI访问)可以实现100万IOPS,那么只剩下CPU了?其实对于传统双控制器阵列或许如此,但从现在Scale-out(横向扩展)的EMC Symmetrix VMAX、惠普3PAR和Scale-up的HDS VSP这些高端存储系统来看,真正影响性能的关键因素应该在于整体架构设计,包括内部I/O互连、缓存算法以及软件内核优化等。

回到SPECsfs2008文件系统测试上,我也曾想过性能结果是否与CPU的处理能力总和成正比?经过本文的分析之后,答案显然是否定的,140个节点的Isilon S200一共在这里拥有数量最多的280颗4核Intel Xeon E5620处理器,而它并没有保持性能纪录到年底。相比之下,EMC VNX处理文件系统的仅有4颗6核Xeon X5660(每个X-Blade上一颗),SSD却使其曾经处于“冠军宝座”。

需要说明的是,我们列出的有些系统在各种节点中使用了不同数量/型号的至强CPU,华赛N8500后端的S5600甚至采用AMD Opteron,这些都不是重点。内存容量(有的系统没有将NVRAM全部列出来)同样也是仅供读者参考的数字,NetApp Data ONTAP 8.1集群模式拥有庞大的分布式Flash Cache闪存层, Isilon S200的DRAM总量也不低于Avere FXT 3500(只是分散在更多的节点上),而它们最后还是被超越了。

总结:基准测试的意义与展望

其实对于NAS存储设备而言,相对于块存储阵列增加了维护文件系统的开销,因此主要针对的是非结构化数据用途。通常很少有人将Oracle数据库等典型的OLTP交易型应用放在NAS上;如果是服务器/桌面虚拟化的磁盘镜像文件会有IOPS性能方面的需求;媒体/娱乐业(包括广电行业中的视频采集/编辑)、高性能计算这些主要还是对大数据块的带宽性能较为敏感;而归档存储的顺序写入模式性能要求相对更低;最近开始流行的大数据分析则可能混合有不同类型的工作负载。

总之,可能会有相当部分的NAS(甚至集群NAS)用户不在乎IOPS,但目前的情况是该领域只有一款得到业内公认的SPECsfs2008测试软件,于是就出现了本文开头所写的尴尬情况。不过可喜的是,经过我们的详细分析,相信每一位关注企业存储行业、热爱技术的读者都能有所收获——基本搞清了影响测试结果“背后”的因素。

同时本文也印证了“闪存被高效利用”、“完善的自动分层存储技术”这些截至目前,乃至将贯穿2012的大趋势。它们将继续带来绝对性能、存储效率和性价比的提高,并且应该会成为包括Scale-out扩展方式集群NAS在内的企业存储系统发展方向。毕竟对于速度这东西来说,谁不想要更快的呢?

未经允许不得转载:存储在线-存储专业媒体 » 2011存储Benchmark盘点,意义何在?