按照美国管理学家柯维先生的时间四象限法,可以把事务划分为重要紧急、重要不紧急等四种状态。其中,重要紧急的事情,是要立即投入付诸实践的事情,也就是常说中的重中之重。如果按照这个标准来划分,在存储系统选择和应用上,怎样合理分配闪存、软件定义和对象存储的权重和优先级呢?
从数据临界点说起
IBM存储有一个数据临界点的说法。按照IBM的诠释,所谓数据临界点不仅包括海量数据, 同时也包括对于数据使用。其实,不论是海量数据存储,还是存储数据的使用,都是用户当今的痛点。
有数据显示:2020年全球数据总量会达到40ZB。到2019年,大数据存储容量需求将达到20EB,其存储设备价值会达到27亿美元。也许会有用户认为,其来自数据的压力并不大,实际上,更有可能的情况是:用户数据保护方式以及业务应用进展水平有所欠缺,例如每天的邮件数据、工作日志、甚至办公文档,这些各种各样的资料并没有得到保护,很多时候,用户还在删除这些数据,弃之如敝履。
不可否认,随着科研和业务应用的不断发展会产生大量的数据,以清华大学国家蛋白质设施计算中心蛋白组学研究为例,对同一个生物蛋白质样品,冷冻电镜需要以量取胜,要产生几十万张照片来研究该蛋白质样品。该中心配有4台世界顶尖的电镜,这类电镜全球不超过20台,一张按照7GB计算,单台电镜每天产生的存储量就有28TB之多,加起来每年就会有接近10PB的数据存储量,可谓规模惊人。如果未来电镜照相机有进一步革新,这个数据量还会提升。
类似的中体彩掌管着全国的体育彩票,不同于福利彩票,其IT系统采用全国统一模式,为遍布全国的15万彩票终端站以及在线系统提供集中发行、销售、管理、兑奖等一系列服务。随着移动互联网的发展,电子彩票势在必行,届时预估其日均并发交易量峰值,将会达到每秒钟8000笔,这个交易量将接近淘宝,尽管每笔交易金额比较小,只有2元钱,但是数据规模惊人。如何保障交易的平滑流畅,庞大数据量如何存储,如何应对机房空间不足以及能源的挑战,这都会成为现实的问题。
在一年前,中国闪存联盟面向100个行业,征求100个典型存储应用场景和需求,包括IBM、集成商、独立软件开发商在内的智库专家,将针对这些这些据存储的痛点提供针对性解决方案。从进展的情况来看,征集上来的需求涵盖政府、金融、医疗、制造业、房地产、能源、通信、交通、教育、零售等十余个行业,项目的需求基本上就是围绕着数据存储以及数据的使用,与IBM数据临界点的判断完全吻合。
兵来将挡,水来土掩
针对数据临界点的不同需求,需要采取不同的应对之策。
在100典型应用场景中,海通证券的情况比较具有典型性,据海通证券信息部副总经理王洪涛先生介绍, 2013年,海通证券客户规模达到了500万,如遇券商之间并购,则系统并发访问需求还会激增,实际上,当时高峰期间系统的访问量已经超过了每秒1万笔的水平,如果同时满足查询需求,系统就已经有缓慢迹象,用户体验变差。此外,这个期间,系统的清算时间长达6个小时,加上证监会数据报送,以及证券投资者保护基金等,系统的性能接近预警。与此同时,由于采用托管机房,其空间和电力资源非常紧张。
针对存在的问题,海通证券对系统进行了更新,鉴于集合竞价、盘中突然跳水、或者尾市集合竞价的业务特点,几个交易密集时间点的系统IOPS要求较高,为此,他们选择使用了IBM FlashSystem V9000全闪存阵列的方案。系统上线之后,系统I/O明显得到了改善,以往I/O等待在8%~10%左右,如今,I/O等待的情况基本消失。系统并行清算也从以往耗时8小时降到2小时左右,系统性能大大提升。与此同时,系统能耗从以往的3000W~5000w,降低到300w左右的水平;空间的节省更是显著。
“以往很多行业将生产淘汰的系统利旧用于测试,我觉得这样的观点应该更新一下,我们所有测试设备都是用最新、最好、最快的设备,如此可以加快测试速度,提高人力资源的效率,也更加符合实际的使用情况。”王洪涛说。
谈到全闪存阵列,价格成本往往会成为很多用户的拦路虎。如果这个障碍不扫除,所谓数据临界点中,性能瓶颈不容易被打破。对此,必需要用技术的办法加以解决和克服。以IBM刚刚发布的A9000为例,加入了非常多的企业级功能,如数据压缩和重复数据删除等。对此,IBM对外有一个1:5的容量承诺,即如果用户购买的存储容量是100TB,IBM承诺用户可以使用500TB的闪存空间。从TB成本计算,IBM A9000的成本将低于传统磁盘阵列。成本障碍的扫除,显然会加速闪存技术应用和普及。
除了性能之外,云存储也是应对海量数据比较现实的选择。一方面,IBM A9000和A9000R沿用了XIV的架构,用来构建企业私有云存储;另外一方面,用户也可以单独买软件,软件授权可以用于其他产品,甚至用X86,构建自己专属的云存储系统。这个被称为“光谱软件”套件,改变了原有软件和硬件绑定的方式,赋予了用户更加广泛的灵活性。
应对海量数据压力,特别当用户数据达到PB之后,对象存储技术就会成为一个不可或缺的技术,为此IBM斥资13亿美元收购了商业对象存储公司Clversafe,其管理的用户数据规模在100PB以上,可以放在云端,也可以由客户采购,放在客户私有环境中使用,就数据存储成本来看,甚至低于公用云的水平。
海量数据存储有助于用户解决合规和监管的问题,以银行理财双录要求为例,银行需要把录音、录像资料加以存储和保存,显然这些数据将是海量的数据。但是随着市场竞争的加剧,这些数据仅仅是存储还是不够的,还要更多结合到用户服务中去。以连用科技为例,他们在Clversafe的基础上为银行用户构建了业务文件云服务,以ATM存取款为例,用户可以通过手机APP,方便调用和查询相关的影像以及数据,如此可以大幅改善服务水平,树立竞争优势。
“一方面我们提供海量数据存储应用,另一方面,我们也从用户的应用入手,帮助他们提升服务,盘活数据的价值,开展基于数据的业务创新。” 连用科技总经理张哲先生说。
他指出,目前一些开源软件也能够提供对象存储技术,很多行业工程师对此乐此不疲。但很多时候,系统在可靠性和可用性上达不到要求,导致数据丢失。“采用类似Clversafe这样的成熟商用软件,其可靠性可以达到9个9,可用性可以达到6个9,如此,我们就可以将更多精力集中在数据与业务应用结合,这才是企业级应用该有的方向。” 张哲说。
小结
无论对于存储也好,还是对于闪存也好,不同的应用场景,就会有不同的权重和优先级。并不存在一个所谓放之四海的解决方案。就像IBM所说的,数据临界点不仅有海量存储的问题,也有数据使用的问题。在这个过程中,有些需要重点解决性能的问题,有些要解决海量存储的问题,有些要结合数据应用的问题,因此应该区别对待。
另外,榜样的力量是无穷的。中国闪存联盟100个应用场景,智库专家的解决方案,接下来就如星星之火,必将推动突破数据临界点。据了解,接下来中国闪存联盟的行动会继续升级,第六季将加大对闪存生态的建设,开设万人大课堂闪存技术培训。IBM方面,也会开通7×24小时“淳哥在线”服务,不间断提供技术支持服务,加速行业应用解决方案的落地。总之一句话,一个属于数据临界点的时代已经到来!
特别提示:
云计算、大数据、移动和社交、物联网应用发展趋势背后,闪存、分布式、软件定义存储等技术源动力因素不可或缺,从2D NAND到3D NAND,替代磁盘的趋势已经不可避免。要获取更多的技术发展源动力,尽在“第三届中国闪存峰会”,6月30日,DOIT/Dostor与您不见不散!请访问http://ems.ehui.net/event/register/1825?group=报名。