IBM许亮：IBM FlashSystem 助力中国企业跨越传统数据临界点-存储在线-存储专业媒体

6月30日，主题为“关键之年，让闪存绽放”的2016中国闪存峰会在北京举行，来自产业界的众多嘉宾围绕闪存技术本身将如何演变与发展等热点问题进行了精彩的分享，在下午的闪存定义新存储架构的分会场中，IBM大中华区硬件系统部存储资深架构师许亮发表了题为《FlashSystem助力中国企业跨越传统数据临界点》的主题演讲。

IBM大中华区硬件系统部存储资深架构师许亮

以下是现场速记：

许亮：现在比较时髦的名词前面大家都听过了，用不着我费口舌。也有不好的地方，就是是不是还有更新鲜的东西可以打动大家。在座有多少是存储系统的用户？或者是研发的或者厂商。看来大家都是同行，是吃这个行业的饭的，要么是研发的人，要么是学习的人，要么是在为这个行业添砖加瓦的，很荣幸跟大家做交流。

其实大家都是同行，生在这个时代很有幸。今天下午我已经听了很多名词了，上午更多了。基本上现在目前真是一个存储发展的黄金时代。如果以我打了20年交道的用户来看，可能大部分用户一年内都不会接触到，非常有前瞻性。用户怎么选择？其实需要有人，有这种群体必须有信誉的群体帮忙做媒人，技术跟应用的衔接桥梁，可能是顾问也可能是厂商。厂商希望是负责任的厂商，而不是单纯讲IOPS，而是客户回答一个基本的问题，作为一个企业级用户要借用IDC平台的图，加了一些我自己过去20年的体会。

企业级用户环境非常复杂，很多时候讲一个新技术就讲了自己多么多么好，就好象自己可以解决很多问题。但实际到了用户哪里有一个衔接过渡的问题，每个用户都有自己的现有系统，最关键的是客户不会拒绝新技术，但是客户往往有KPI和KOS，你怎么帮他平滑地引导他上新技术，这需要很多过渡和衔接考虑。

这里面不是一步登天的，包括切换和迁移，怎么无风险过去，而且把遇到的风险让他尽可能知道周详，以及这些策略和方案带哪些地方实施过，不是所有客户都是喜欢说我要做天下之一，互联网公司是敢为天下先的，因为本身他就有动机和规模在。大多数客户，国企和央企，国家国资委的大型企业，它的IT专业技术人员的层面还是面向使用者的。所以我们很多东西跟他够的时候我们要给他以信心。

比如我最近跟很大的国家的企业聊，他说我去年用了一个著名公司的闪存，结果不方便很多次，现在我把它扔掉了。这回答什么问题？我们的技术引进真的不要把企业级用户当小孩耍，我们推出的东西要有把握，很多场景要有很周详的考虑和策略。所以这里分不同的平台，用户应用的代码可能都是二三十年前开发的第一版本了，他们的使用非常高，他们的KPI管理指标和要求也非常苛刻，这时候给他引入什么样闪存技术？第二平台，90年代发展起来的广大的开放服务器，现在也是有大任，跑着非常重要的业务，你推荐给他什么闪存？为什么说你的闪存可以解决他的问题和他的顾虑？他为新技术都有顾虑。我所了解的一些大企业还是有顾虑的。

第三平台是广大现在新型的互联网为代表，或者社交的。这里面壁垒最弱，也是大家最关注的。但是这个第三平台里面拼的是赤裸裸的成本，计价值很难体现在这里。第三平台替换到第一第二平台可以吗？说得容易做起来不简单。

我了解的企业过去两三年都在学习和适用分布式存储软件系统，他们自己基于系统的存储服务都在使用。

有些人找我说我觉得你们也可以跟我们试一下及因为两三年前我们告诉他有些时候很多宣传过于超前。但是我们的分布式存储软件会跟别人不一样吗？其实还是有不一样。

我这里说的企业级用户目前的挑战，其实挑战都没变，性能的挑战是基于业务压力来的。现在渠道越来越多，移动交易，互联网交易这么多。包括双十一这些促销，性能挑战总是存在的。新需求，所有的传统企业都在面临新的的渠道拓展，变成有可能比原来更缺乏可预见性，更需要我们有很好的技术保证品质。

再就是因为大多数企业环境还存在，还在使用这时候要引入第三平台，但是还有预算没有增加。性能、成本、效率是典型的MBI，但是在新的历史背景下讨论这个问题。新的背景下答案不例外，闪存、虚拟化、定义是良药，但是咱们怎么选择怎么去用？

现在我们把姿态回到今天的主题，刚才讲闪存是其中一味非常可口的药，尤其IBM看走过了服务器、加速卡，基于单纯加速装置，所谓闪存模块没有什么软件功能，但是硬件加速，硬件高可用做得非常到位，那个高可用就有点像今天炎热夏天穿了西装一样，看起来不必要，但就比别人多做一层，高可用能力就会好很多。再接下来在既有的环境里如何引入及我们用虚拟化具备的很好的成本效益和数据压缩，自动迁移和分层这种能力把闪存平滑引入。时至今日，看到去年北美的IBM有专门做闪存的院士说到底是什么原因阻止闪存成为企业级的存储平台。当时他提到几个原因，第一个还是成本，第二个是对效率方面，因为引入之后我的数据的提供的性能和能力，包括管理效率能不能跟上。

IBM选择了机遇原来在企业级平台非常成熟的SIV的技术平台把全闪存技术做了有效集成和融合，做了一套全新系统。所以所有的东西的出身和出处都有原因及当你需要企业级存储平台的时候我给你以企业级平台为内核，结合闪存非常高可靠的，性能非常好硬件模块各取所长搭起来。后面我会介绍我们的产品的设计师怎么设计环节考虑就会明白里面许多苦心。

今天如果有时间我还会跟大家分享IBM研究院在未来针对存储包括负载优化我们有什么研究。这个产品在美国都是针对混合云环境，混合云环境诉求是绝大多数企业对云这个技术采纳的一个自然的选择，因为它有自身的环境，它有一时间暂时或者不迁到公有云的应用，但是它又希望享受云计算带很高效率的服务品质，更高集约化的运维品质，所以更高可能采用混合云，所以这款产品针对全球考虑混合云存储解决方案，或者有条件的话有没有可能一套存储把企业存储全部容纳进去，而且是最高效，成本还合理的，针对这一类需求。这里面除了安全可靠特别强调的是管理的效率，我们所选择的平台过去有一个故事，这个平台在IBM内部有七八年历史，一直比较小众，什么小众？举个例子，我们有个科学研究机构的人跑到我们中心做了一个星期的平台的使用。第二天说一定要回去了，我说为什么？不会去我就忘记我现有的存储怎么画盘了。

这种平台客户黏性非常好，一旦用上轻易不会放弃。北美有家非常大的银行企业买了数百台，拿来做什么？拿来做每天晚上数据导入导出的流转环境，每天晚上导入导出的存储环境是什么特点？没有办法调优，每天的导入位置都不一样，没法去做这方面的优化和热点分布。说明什么？这个系统设计初衷就是不需要调优，这个用户使用场景也证明更好吻合这样的诉求。企业级存储是不是性价比很差？不是的。美国有一家著名网上交易的服务商叫易贝，它也大量采用这个平台系统做存储。

原来易贝是自己组的，自己用开元软件攒存储，后来玩不转。我们在15年前是业界第一个发布了一个纯软件定义存储的方案，是软件。后来一年之后我们就停了，为什么？你名字大，牌子大，我使用你软件出了任何问题都找你，解决出现什么问题？有的是用户的环境没有UPS，一掉电，里面的数据丢了找你。有的用户碰到硬件不兼容问题也找你算帐。大量这样的问题用户很难处理，用户处理环境里说都是X86，但是不的芯片和运行都有一大堆问题这是很多软件定义存储方案都是基于WAVE基于什么，都是要规避兼容性问题，软硬件兼容性问题还是很厉害的。互联网服务商不一样，他有量，可以投入成本研究定义标准，但是企业用户不适用这个情形，所以情景用户选择还是要有多样性，就要看是什么出发点。

所以IBM在新时代传统应用我们是厂商提供所有的存储的高级功能，包括介质，包括软件的衔接跟维护。新一代应用很多人玩纯软件定义，这时候我们受到启发，新的时期大家为软件定义接受度又来了，所以我们会把我们的传统系统和软件剥离出来，搭建出来体现这个思路。

具体来讲图上就是我们从企业级存储系统平台抽取的软件部分，有全套企业级高级的服务能力，想的快照、服务器、无性能影响的快照等等都具备，非常可靠。结合我们在底层在前几年就大受成功的为基础的底层物理闪存模块技术，本身软件架构所有处理都是并行的，是网格形式。后面可以具体看，非常像互联网的分布式。 IBM的检索，闪存的优化真的非常有必要，因为闪存引入它的性能是现在（英文）的几十倍，甚至上百倍。但是软硬件通道协议都是基于（英文）磁盘阵列，通常它的软件的STACH的协议长度、路径等等都比较长，所以才会有优化协议的要求。这一块的发展是非常火热。针对不同服务器平台都在基于服务器内或者接到服务器外的优化每个厂家都在做及IBM也不例外IBM的私有的高端平台也在做优化。IBM的研究单位在这里面做通用的优化本身就有很好投入在里头。有没有人可以针对客户的欺诈做营销分析，基于大数据环境实时的有效结果的提供，基于传统的一些T+1或者T+N的历史分析我们不讲，我们的量和算法是非常高的。有一些用例表明客户尽管堆叠了数十台甚至上百台物X86服务器都不能解决这样的实时的分析。在IBM的研究机构的参与下用3个节点加一台共享存储轻松搞定，为什么？算法的优化，包括协议的优化。我们的研究室介入之后基于它的实时分析的负载特点，改写了（英文），令性能得到上百倍提升。

还有做特定的应用场景的优化也是非常有价值的，只要那个场景够价值，够规模，够使用量，就值得做。所以大家都作为产业同仁，如果有这方面需求，如果希望大家一起共同营造一个健康的生态系统，我们也可以寻求这方面的合作。

这里之前提到过简化管理，出来了两个没有什么生气的黑盒子，一个大一点，一个小一点。大的像传统的机柜式的存储系统，看起来扩展能力很大，号称300TB 到1.8PB有效容量，甚至还有有效识别的移除的算法。一般来讲客户环境里通用的都是要现学习的，学习之后有重复才去做这样的重删处理，有没有预识别？预识别只是除零，大家都听了很多是为零，把零作为单个除存掉。但是这个系统是模式移除算法，有256种预知的算法，还可以往上增，就相当于一个平台了。性能不用讲，200万，是避免250的出现，200万了，它的扩展能力其实还可以再上。

这里有一个小的模块的情况，这个模块这种型号恰恰是现在云的服务商要的，因为它自己有自己的标准机架，只要把你的模块嵌入进去就可以，单位模块多少容量，能不能满足性能要求，满足我的标准，片面吹嘘某些（英文）其实没有意义，因为在企业级环境如果你正在做方案，其实你在乎（英文），在企业级环境完全可以做性能优化等等都不是问题，更有意义的是从整个层面端到端解决用户最想解决的问题。

这里是更生动说明看起来平淡无奇的黑柜子，其实蕴含了非常丰富的在混合云场景下需要的。比如多租户，比如加密。精简配置，没有数据写来，就算分多少卷空间实际也不占实际空间，用在管理非常方便。如果管理员把所有的卷都变成一个卷，有数据占空间，那多轻松，一百个（英文）一个卷最好了。

然后所谓的数据迁移也特别好，一个控制台可以管理多达144的机柜。不同机柜之间可以做在线迁移，一个平台内部我们可以做到很自如地数据移动性管理，可以解决很大的负担。

集成，平台的集成，很有意思，这个实验室团队特别厉害，他们的效率非常高。我记得前两年，VM发表一个功能，他们团队是业界第一个主流厂商里说我这个东西已经支持了，比原厂商的存储设备还快。所以他们对第三方，或者说整个生态环境的支持力度和响应非常好。OpenStach也是非常好。还有数据缩减，模式移除，去重以及压缩，还有跨平台管理界面。

它给用户提供的形式现在有4种，一个是基于传统硬盘的，已经存在在市面上差不多10年了，所以是久经考验的。然后针对闪存结构做优化，我们叫A9000或 A9000R，再就是以纯软件定义的方式，就是用户自己攒，再就是第三方云的服务商用它，比如说softlayer云服务就已经用了，如果用户有一定诉求也可以跟用户一起帮助跟第三方云服务商谈。这样可以集约化而且选择丰富，可以针对一种系统所能生成的形态它都存在了，都支持。其中这种形态我们在国内已经有合作伙伴，他们可以基于SIV技术搭建出自己的存储解决方案。

补齐之后发现IBM所有企业级平台存储系统都已经具备了面向纯闪存优化的型号，这个东西其实都不新鲜，5年甚至8年前都见到过，为什么没有推出？就是要找到合适的推出时机。研发角度来讲，现在市面技术，可能8年前基础技术，10年前基础技术都已经存在了，只是在寻找合适的市场时机，跟用户接触的时机。 DS8880全闪存面向的更多的是高端传统的第一平台和第二平台的高端用户，他们强调端到端垂直的操作系统的端到端的系统和深度优化。比如某一个大平台要跑一个应用，存储力的缓存和服务器的缓存不重复，可以做到这种深度优化，用了我的存储跟第三方存储，在IBM大平台做分析效率可以差出7倍，这叫深度优化。再就是关于健康和可靠性的，操作系统平台，控管平台会自动侦测我的存储的健康状况，做到什么地步？如果我做一个某一个stack有问题，我重传数据只传一个stack，不做多余的，第三方存储是不可以做到的，因为你不能界定问题到这么小的颗粒度，但是我们可以做到，这是深度定制，深度融合。令你事半功倍。那种诉求的平台下，那种用户是追求这个的。

左边紫色的叫（英文）是面向通用的第二、第三平台用户。V9000系列虚拟化非常强，令客户从现有的块存储环境接触到V系列环境，通过虚拟化能够做一个企业级的资源池平台，达到虚拟化托管的效果。最左边的XIV平台和A9000强调这个东西自我优化到极致，以至于不需要花任何精力管我，你只要以一个最终用户的非常浅显的知识就能有效管理多达一百多个存储系统的能力。毫不过

分说找一个初中生都可以管这样的系统，因为它的操作太容易了。
设计师当初怎么设计的？这是设计师亲自写的。排名第一的动机，设计9000，就是简化一切管理工作，大幅提升DBA与存储管理者们的生活品质。

第二，自主执行效果引人注目，无需任何调优工作，只要去要求系统给你做这么多容量服务，它自动均衡帮你做调优，根本不需要你自己调优，而且是在真实的环境提供性能，不是说只是跑。如果我们想跑好（英文），IBM有足够的资源把每一个（英文）竞赛跑得非常好，但是这个系统想达到的目的是说你别调优了，因为调优不是集约化运营所追求的。

下面的经济效益，可靠的模块本质，因为我们在市场推出了5年的企业级的阵列模块肯定品质是非常可靠的。然后还有一个关键是设计阶段直接由云服务商参与到需求里边，云服务商直接参与设计。它的管理和很多功能建制是符合云服务商的。

简化背后的科技：

研发人员全面理解并吸收了复杂性而使用产品易用，明白了复杂性才能把复杂性做规避，不明白复杂性谈何隔离和简化。

原来网格实践设计提升到新的境界，针对闪存的特点消灭调优需求。还有规划工作，以后不要写存储规划管理员，因为这个东西消除规划，还是说存储管理员就好了。

所有的东西都要通过一个所谓有效的革新的用户操作界面实现，所以界面的东西很多人说友好界面容易，就是图形画界面就搞定了，其实界面设计真的是很高深的学问。

这个动画就是显示它自动做，当数据一接入所谓的这些网格的时候，因为它的系统分成存储系统内部的控制器节点，跟所谓的基于成熟的FS900闪存模块，（英文）就是X86服务器建设。接入之后自动根据算法，比如自动写三份，写到三个控制器上去，有三份，三份的概念很熟悉，做高可用复制三份，写缓存到三个控制器节点上。再在后台写到存储节点上去，这是特点。然后具体数据摆放自动均衡打散，跨所有的存储节点，所有的控制器结点，全部均衡打散，自动的，不用去设计，也不用规划。

这个是所谓的新版的操作平台，这里他们给我一个名字有点像思维导图。又全新设计一版，希望更加符合，更加优化符合新时代用户的一些需求。时间有限不能给大家做演示了，现在网络非常发达，所以我没有做过多产品介绍，如果有兴趣自己去看。

性能背后是怎样去实现？它的产品本身是硬件优化，FPG去优化，去设计数据路径，数据的协议，在后端的协议。而且是针对闪存优化的，所以这是它的一个非常重要的一个基石，性能为什么那么好。

再就是前端控制器节点大量分布式，足够的节点接入，然后这个存储节点，控制器节点提供你所需要的高级功能，节点足够可以满足接入和并发的需求。

存储都是要读写访问，刚才提到写，读呢？读也有创新，因为大家知道有存储跟压缩的存储系统往往被说性能有所开销，因为它的缓存结构分上下层，写入需要性能及时效应，上层就OK了。额外的除重和压缩都是在下层的缓存做的。包括它有精选的算法，我们叫时间局限性，一起写入的数据，做一些压缩的数据我在回读的时候我尽可能把它一起回读回来，因为你们是一起一波被弄进来的，导入这个存储的，我们相信你有很大的几率。因为时间上的考虑你们有很大几率可能访问的时候也会顺便访问，这样是提高读缓存利用率。这个也是比较新的一些引入。然后做去重的时候我尽力去做就好了，不过度去做，这是一个平衡。

有很多时候大家知道一些网络的交换设备也有压缩的一些选项，压缩率优先还是延迟率优先也是在去重的均衡的考虑。

缓存机制刚才也讲了，所有的存储系统最关键的就是原数据管理，还有一种原数据管理是用户数据的原数据管理，如果数据库天生就有很好的数据管理，如果是一般的文件系统和一般的数据的原数据的管理效率，特定负载的效率值得商榷，因为它是通用的，当然这是后边的话题。

所以这么多有效的设计，有继承，有创新，我们结合在一起带来什么的表现？单机柜200万IOPS，，这样的性能足够覆盖99%以上的企业，一点不夸张。有谁的一个应用环境可以超过200万的IOPS的需求的？我没见过，互联网可能有，但是凤毛麟角。所以一个机柜足够覆盖99%以上的企业级存储。

经济性考量，由于闪存的优秀性能，允许把数据做闪存和压缩之后，单个闪存介质单位容量可以接受更高IOPS密度的请求，所以为什么闪存系统里它把存储阵列做了一个基本功能的一个稳定运行可靠之后，往往会加进压缩和除重，就是因为单位容量可以接受更高的IOPS密度，这是一个背景。

这里讲的是去重或者算法识别。比如先做模式移除，模式移除是已经有的模型，然后再去做去重，就是学习模式的去重。最后再来压缩，这是它的一个设计，很合理。

这里讲的是这个东西在控制器这一层走到存储节点是怎么优化的，这个在IBM已经超过5年了，可靠性、有效性毋庸置疑。其实更多企业级，有些大企业在关键系统里应用闪存很关心它的品质，我刚才讲的送进来的适用的产品很高故障率，你用的软件矫验，或者用单个片级的验证，不足以规避或者挖掘闪存模块闪存芯片，或者闪存卡的生命潜力。因为闪存介质特点跟磁盘非常不一样。磁盘使用长了三年以上会使用率提高，但是要分，为什么磁盘会有这样的特点？其实大家知道磁盘有很多组经验卡，我咨询过实验室的专门看品质的可靠性的专家，他的讲法说时间长、久了以后磁盘坏的主因你想不到，是它里面的微小的微轴承洒了，有的时候很多灰尘把磁盘污染了，这是外因，它自己的主因，时间长了以后。但是这个东西在闪存没有，闪存更像一个内存芯片，上面局部坏了，其实如果你有验证算法，把它得出来还可以继续用。所以就带来你要有多级别的冗余的算法保障，芯片内的，跨芯片的，因为这类芯片模块布局的，横的纵的都可以多层次多维的算法，非常有效延长生命。

我有一个用户企业级闪存卡今年以来一张没换过，同期换了上百块的硬盘了，这是非常好的对比了，可靠性非常好。只要说这真正是企业级的闪存。不是很粗鲁粗暴地简单做一些，或者借鉴磁盘的算法去做的一些验证。

IBM在控制器角度来讲，我们还额外增加了我们自己的一些验证，就像我穿着西装一样，看起来不必要，其实还增加了一层保护。
再就是我们的云的设计，是结合了很多云厂商的提供，它交付的系统。你需要云环境的接口，还是FC，你需要迁移，需要多站点的复制，都能够去支持。包括很流行的新的容器Docker的支持。

任意节点的故障，无论是控制器层的故障，或者节点故障都不会影响系统的服务，都不会中断，而且能够自愈。我刚才讲到额外的验证机制，刚才提到过。所以从硬件角度来讲，给你看从写入前端节点到后端节点怎样的多层的保护。从控制器节点到芯片级，到芯片内部都有保障，写入的时候还可以加一层验证。

刚才也给大家说了，必须理解复杂性才能设计出真正简单的系统。IBM的A9000R系列就是这样的系统。

我们研究院后面还在做很多工作，存储技术的优化一直都在这个主题，更经济更快的介质研究在做。不同层次的介质我们都在做，不同的需要场景。云技术架构，刚才的A9000仅仅是一个产品，但是我们的研究没有中断，面向服务的，面向软件定义的，面向混合型的，我们还在持续做研究的投入。

现在更流行，让大家更感兴趣的可能是针对认知应用的一些优化。具体到刚才的实时营销，实时的欺诈分析，你用了最流行的开元的互联网，或者开元的（英文）服务，当你碰到有性能瓶颈，达不到你实时服务的效果的时候，其中一个选择可以走一遍。这个时候就是大家共同营造一个健康的，能够茁壮的，能够把一个新的技术，新的介质合理优化用起来的机会，给大家一个机会。所以希望跟大家共勉，谢谢大家的时间。

IBM许亮：IBM FlashSystem 助力中国企业跨越传统数据临界点

zhupb

相关推荐

近期文章