数据存储产业服务平台

冬瓜哥:闪存会怎样改变系统架构

6月21日,由DOIT传媒、存储在线、中国计算机学会存储专业委员会、武汉光电国家实验室联合主办的2017中国闪存峰会在北京盛大开幕。本届峰会以“把握闪存绽放 追逐梦想”为主题,聚焦闪存产业链全生态发展,吸引了来自政府、企业用户、产业供应商、学术研究机构,以及主流媒体各方的共同关注。同时,有超过6000人通过线上参与了本次会议。

会上《大话存储》系列图书的作者冬瓜哥带来“闪存会怎样改变系统架构”主题演讲。演讲内容如下:

谢谢大家,这么早过来;刚才主持人说的我非常赞同也比较感慨。就是随着互联网云计算大数据人工智能这一些概念的兴起。底层的东西就越来越没人关注了。底层的CPU存储等等,这也是大势所趋吧。但是不仅如此啊,就是底层不但是没人关注了,其实它还是很多背黑锅的很角色。之前不是有一个案例要么是丢数据要么是其他一些运维的事故。很多原因其实是人为导致的。但是很不幸,我们底层的这一些故障盘存储系统大部分黑锅都背在身上,很多人说盘有问题,你这IO下去数据没保存住,各种黑锅都在底层去背了,这个也是一个巨无奈,但是又是大势所趋的这么一个现象。我今天想为大家分享的一些技术就是跟底层相关的,也是跟故障盘相关的,不会介绍太多的技术细节。主要是想大家展示一下,就是底层的技术发展对上层会带来怎样的架构方面的变化。

大家知道现在3DTLC已经在企业级广泛应用,下周国内厂商有发布一个超过10TB的盘。大家可能也了解了一些3DTLC本来是2D只是在芯片上做这么一层晶体管,现在为了提升力度,制造方面的成本在一个晶片上同样的面积上叠层。这种技术看似简单,其实看里面有很多的不为人知的复杂性。包括特殊的指令,比如说上层并不是完全的透明,需要上层的适配底下的变化。当然这种适配大家看不见,一个新盘出来了接口是一样,其实底下都能用。一个最重要的中国就是说控制器容量变大了,控制器资源变大了,里面的配置各方面都变大了,这对应的控制器就需要硬件资源对这么大容量的闪存空间做管理,包括一些校验磨损均衡都需要跟高规格的控制器了。这控制器还必须考虑向后兼容以及各个厂商不动规格的这种,这个也是一个很大的包袱。

大家知道闪存它有一套标准比如说(英文)标准,其实各个厂商标准之外搞了一些东西,你想把闪存的寿命、性能发挥得比较极致的话你必须搞这一些私有的东西,这一块底层是比较暗流汹涌的一个东西。

再就是刚才说的跟各个厂商,不同的厂商是不一样的。有一个厂商给这控制器厂商提供一个接口,给另外一个厂商不提供一个接口,这里面也是比较皈依的。比如说有一个厂商对这(英文)发出一些存储,你不告诉我质量,我发送一些私有的,但是你的那个字段八位的那你能表示2500,但是你手册里面只有1289,剩下的1289有没有呢?我不断的试,看你的返回什么我猜测会是什么样的东西,所以说控制器厂商对NAND的颗粒也是在极致的研究和控制过程中。

比如说相变存储各种介质备选,就是相变存储已经产品出来了,比如说4800S产品已经出来了,那个时间非常低,有很多人下一步会过渡到相变存储。大家看一下这个图是以(英文)控制器(英文)的图,可以看到控制器有十几个核心,为了应对这3D,首先这核心里面就是ROM、DOM就是数据支令缓存和数据缓存翻了一倍,因为你需要做更多的算法在里面,之前的容量捉捉襟见肘了。

再就是内部的DIMM频率上去了,最重要有一个变化其实在后端,控制闪存这通过道这一端变化非常大,除了加入LDPC校验最重要的是控制器后面加入了可编程的CPU进行。之前是没有CPU的,之前只是一个硬件的状态机,当然只能做一些标准指令的收发,一些标准的持续。咱们刚才也说了这一些(英文)Flash必须去研究,这种你就不适合用这种硬件状态机去做这一件事,你就要搞一个CPU上去,写一些微码上去,根据你收集到的信息动态的判断,应该给这NANDflash发送什么样的命令。

我们再看一下很多在一些测试里面,比如说最近的AMDCPU两路加上16块跑到了900多万的LPUS,这九百多万够不够用呢?对于个人肯定够用。但是特别企业级或者是互联网前端的比如说大数据、人工智能这一个业务,这性能有可能也是不够用的。比如说看似固态盘已经远远满足你需求,但是不一定保证将来,可能很快性能又不够用了,这就跟当时比尔盖茨说640K存储够用一样,当时点看可能够用的,我想对于flash盘一样,现在lash瓶颈有没有,主要是在软件,不是在硬件,硬件已经限制住了。

现在软件方面的瓶颈主要是软和硬两方面,就是现有的硬件架构,其实对固态盘也是有一定的性能影响,大家看图里面,CPU、SSD、网卡,这现在是比较热点的硬件,大家都比较清楚了。GPU是人工智能这一些计算用的,也是很流行的,包括最近的比特币的挖矿机,内存接到GPU、显卡、网卡都往CPU上接,就是以CPU为中心的这么一个架构,其实这产生了一个问题,其实CPU在系统起到什么样的作用?起到一个控制作用,比如说典型的大数据分析或者一个挖矿,挖矿谁来挖GPU来挖,因为GPU有几千个核心,因为它的并行比CPU高得多。它的挖矿的数据从哪来从固态存储里面来,或者大数据分析从哪怕来,CPU只是算,那你在中间这角色大家看一看是不是有点不太合适。

作为一个管理者你可以管理,你的生产数据也要从这儿走的话,显然瓶颈就在你这儿了,现在有新的架构,这个是什么?这是PCIe switch,因为大家看到所有的组件都是switch,网卡显卡。CPU也有PCIe switch接口,如果你以这姿势看这系统架构,以网络交换为中心,CPU它只是网络上的一个控制者而已,它启动操作系统它识别这一件设备这一些CPU来做没问题的,但是数据也要从CPU来走的话,这瓶颈CPU就承担不起的。

最好的办法是什么样呢?能不能让数据直接从SSD透过数据转化网络,这网络本身就是给数据转化用的,它也不参与计算。比如说让GPU来计算你写的程序其实它是先要把数据从盘上你是配出一段缓冲,然后调用底层的接口,底层会帮你从这数据SSD拿到缓冲里面,然后在用GPU的接口。你把这一些数据巾帼组织成数轴,比如说几百万的列,然后你这告诉GPU,你从这把数据拿走GPU就发送一掉缓存指令,这指令也会路由到网络上进入到DDRM控制器他从这数据拿过来,这数据多走了一条路。这个也是传统路径再回到网卡。再一个就是CPU NAND的瓶颈。我们看一下比较好的就是直接过来,CPU发一条指令可以发送一个指针加一个长度,这可以比较长,只要发送一次指令底下的数据就源源不断往这送。

我们看一下显卡的场景,显卡如果用这种方式它是怎么一个数据流程,首先第一步你需要到这GPU分一个值,分到GPU的显存里面。第二步你告诉SMD你把这数据直接写到GPU的显存里面,因为这是一个访存可以直接过来。第四步还是调用CUDA开始对数据进行运算,我们看一下性能提升多少,大家看一下提升是非常高的,但是你要看带宽的话,你要转换成象素每秒的话,直接P2B它相对于传统不P2B提升了大概530O,大家可以看到这成本非常高,关键的好处数据不往地面去流了,这时候CPU足够的带宽访问内存,也就是说让这CPU跑更多的计算业务,不被你这IO业务给冲击了。再看一下NVMEOFFLOADEDCOPY,耗费CPU的内存资源,有另外一种方案,比如说我在PCE网络上挂这么一块NVRAM,第一步我先让SSD写到这儿,第二部分把数据拿走写这到一面,相当于把数据这一个缓冲空间从CPU的内存里面拿出来,大家知道CPU最精于计算是逻辑控制,各种逻辑各种判断。而它不擅于计算比较少的计算,就是128V某两个大数相乘的算。

因为CPU里面有很多的分支预测流水线,它能把比较通用的场景优化的比较高。但是你如果让它专用计算它比较好的吞吐量,但是它成本就不划算了。你把这内存省下来,让CPU载入更多的计算类,而不是要让它去做数据拷贝没有意义的。或者价值比较低的事情。这边是一个Client端,传统的路径是数据、从内存里面被网络发送到这边,经过TCLP到主机端的再往后端执行,优化的路径数据直接从RAM拷贝到缓冲区这边CPU再让SSND从数据缓冲区直接拿走,整个过程不会到这数据的RAM。

有什么意义?第一个意义就是说你要么还是这CPU还是比较强的,体可以跑工作的计算业务了,因为内存带宽更大了。再就是你如果不想用比较强的,你可以用比较弱的可以省成本,甚至一些开源的这一些。因为这流量基本对它没有什么耗费,只是发行流量而已。也就是说CPU只处理了15兆的指令不是处理数据。

可以看到刚才这方案里面基本上还是需要一个缓冲的,大家有没有一种想法,就是数据能不能直接从这RAM直接发送SSD就完了,不姚先到这儿再到这儿,这个其实是需要一定的支持。就是说SSD上面需要空间,把这空间暴露出来才行,但是现在几乎没有SSD把空间暴露出来,但是你暴露真的需要准备这么大空间。比如说准备一个比较小的缓冲,这都是可以的。所以说推出这种SSD数据就可以直接从这儿过来了,网卡上的也可以暴露一些空间,这样的话数据从边客户端可以直接先拷贝到它这儿,从它这儿再过来,或者说从它这儿直接过来就不需要一个临时的缓冲区,这样的话把性能再一次提上去。

就是说现在的网络,现在的系统架构你要把整个东西发挥得比较合理不应该是以CPU为中心应该是以网络为中心,现在有很多的网络,比如说GenZ、CAPI、CCIX、QPI、NVLINK,这也是在尝试搞一个整个通用的标准,大家有兴趣可以了解一下。再就是3DXPOint,它对固态控制器怎么样?会更加简单不需要做磨损均衡这一些管理了。就是做控制器做部件的这产业,就跟这内存控制器是一样,基本上就是几大家半导体卖标准的IP了,里面没有什么可定制的区别。这种高速介质怎么用呢?它可以把内存块设备,也可以把特殊的设备到用户空间,也可以挂到网络上的存储器,放到你用户空间里面来用,来方便你的使用,这么多的技术其实还是为了提升我存储的性能,其实性能还是远远不够用的。我的分享就到这儿,也欢迎大家关注我的微信公众号,谢谢大家。

致辞:把握闪存绽放 追逐梦想

6月21日,由DOIT传媒、存储在线、中国计算机学会存储专业委员会、武汉光电国家实验室联合主办的2017中国闪存峰会在北京盛大开幕。本届峰会以“把握闪存绽放 追逐梦想”为主题,聚焦闪存产业链全生态发展,吸引了来自政府、企业用户、产业供应商、学术研究机构,以及主流媒体各方的共同关注。同时,有超过6000人通过线上参与了本次会议。

首先我们祝贺闪存峰会胜利召开!

大家都知道随着大数据时代的来临,对于存储的需求是越来越大。从我们所熟知的PB到EB甚至GB,还有更大的VB等等在不断的发展。而存储也得以快速的发展。当前据统计就是全球的存储市场在300亿美金这样。而我们国家的存储市场也超过了100亿人民币这样一个规模。但是我们也看到存在着一些问题,第一个就是我们的一些高端的存储技术还是主要掌握在国际上几大厂商,另外就是存储介质比如说闪存的颗粒、还有我们的硬盘等等的,我们都只能用国外的产品。所以这一些也是我们今后共同努力来突破关键技术,大力发展存储产业这样一个动力。而我们也看到固态的存储是当前发展一个大的趋势所在。我们现在的研究界大家比较关注的就是RAM、PEM还有TPM等等新的存储介质,但是我们看到有一些缺陷要真正的量产投入使用还需要一段的时间。所以目前来看还是闪存是我们的主力军。也就是说闪存相对来说比较成熟,并且广泛应用在各种的存储系统中间。而最近这几年由于它的价格以及3D堆叠工艺等等发展使得它的价格进一步下降,相比于两年之前我们看到下降了75%以上,并且有这样一个更进一步的趋势。所以使得我们看到闪存代替硬盘成为了一种可能,当前来说国际上的一些研究机构还有存储厂商,都推出来这种全固态的系列的存储产品,正在抢占全球的存储市场。而我们也欣喜的看到,我国在存储颗粒方面进行部署,去年国家存储基地落户武汉,也是计划耗资240亿美金来发展,国产的存储器就是3D闪存,所以这应该来说都是可喜的迹象。而从技术上面来看,现在的一些热点,或者说从我们应用的发展趋势来看,应用的热点主要有以下三个方面第一个就是这3D的技术,包括3D的闪存、3D的内存还有英特尔(英文)技术等等,特别是3DNAND的技术就是像三星、英特尔以及东芝等等都推出来产品,所以怎么样把这一些3DNAND的技术应用到我们的固态存储,全固态的分布式存储系统中间,客服它的一些缺陷,充分发挥它的优点,也是我们研究界和产业界不断推出新产品这样一个动力。

第二个就是全闪存的阵列,这就是基于整个闪存芯片的价格下降,所以导致大家一致认为我们用传统的方式,都是混合的方式。也就是说利用闪存的快速以及硬盘的大容量来做一个混合的存储方式来对于速度和容量这样各方面的需求。现在闪存价格下降趋势就是全闪存的阵列。但是到更大规模的时候我们还是要采用分层的技术,以及数据的自动迁移的技术来满足在容量和整个性能之间的这样一个折中。

第三个方面就是NVME,这就是AVME标准推出,使得我们传统PCIE上面来实现,AVME得到我们低延迟、高的LPS等等,满足我们对于性能的需求这样一个技术。而进一步的当它在分布式系统中间使用的时候,所以进一步怎么样采用IDMA,就是利用网络或者相应的互联的技术IDMA,进一步发挥闪存的优势。其实在这里我也想介绍一下我们围绕这发展的趋势,我们实验室也做了一些相应的工作,包括就是固态盘的技术,还有分布式的全闪存技术等等方面都是我们现在做的一些工作,具体包括多层、低质层的芯片怎么样客服缺陷,做损耗均衡。另外还有基于LDPC、ECC的编码技术以及数据布局还有缓存的策略还有结合底层介质的特性这种队列的优化等等。并且结合现在可重构的SCA在控制器上面做加速等这样的一些工作。也实现了PCIE商业产品的圆形还有支持NVME,还有可重构的系统,以及NV存储系统等等。在经过几年的努力,就是我们和一些厂商的合作,就是我们牵头制定了工信部的行业标准,固态盘通用规范,这规范是2016年颁布实施在此我也希望我们实验室能够多和我们产业界的同仁来合作,来进一步的进我们的技术进行转换,能够在我们的国产存储系统以及相应的方面发挥作用。我们也看到了我们这一次峰会将总颗粒、控制器还有NVME等很多个角度来介绍闪存的技术。刚才主持人也介绍了,我们计算机协会存储专委会教授,下面会有一个技术方面的峰会,在此也欢迎感兴趣的同仁一同参加探讨。最后预祝峰会圆满成功谢谢大家。

6月21日,由DOIT传媒、存储在线、中国计算机学会存储专业委员会、武汉光电国家实验室联合主办的2017中国闪存峰会在北京盛大开幕。本届峰会以“把握闪存绽放 追逐梦想”为主题,聚焦闪存产业链全生态发展,吸引了来自政府、企业用户、产业供应商、学术研究机构,以及主流媒体各方的共同关注。同时,有超过6000人通过线上参与了本次会议。

未经允许不得转载:存储在线-存储专业媒体 » 冬瓜哥:闪存会怎样改变系统架构