数据存储产业服务平台

破解AI存储难题 英特尔“存储金字塔”重塑层级结构 指引存储未来

4月24日,英特尔公布2020年第一季度业绩表现,在众多业务群中,英特尔非易失性存储解决方案事业部(NSG)实现了46%的最高同比增长,营收达到13亿美金,比数据中心事业部(DCG)的增速还高3个百分点。

这其中,究竟是傲腾贡献多还是传统NAND存储贡献多,我们不得而知,不过从英特尔中国区非易失性存储解决方案事业部战略业务开发总监倪锦峰的言语间我们能感受到,其对傲腾业务的发展态势非常满意。

英特尔中国区非易失性存储解决方案事业部战略业务开发总监倪锦峰

而在NAND存储中,英特尔此前宣布的144层QLC NAND规划也在紧锣密鼓地进行中。作为目前市场上最高层的NAND技术,144层QLC NAND的发布势必将掀起闪存普及的又一波浪潮。所以NAND存储对于英特尔NSG业务部门的重要程度也不言而喻。

从倪锦峰的介绍中了解到,2020年第一季度,突如其来的疫情面前,英特尔数据中心业务需求迎来暴增的趋势,互联网、云计算厂商对扩容都有较大需求,用户对于TLC/QLC NAND以及傲腾+QLC的组合方案的需求明显增多,倪锦峰认为,以创新闪存能力补充服务能力的做法比单纯添加服务器的做法要更具优势。

当然,闪存的快只是一方面,另一方面,闪存的容量也越来越大,这种在性能和容量上不断优化的层级就是英特尔常说的“存储金字塔”,这一贯穿整个IT架构的体系已逐步成为解决多样化存储需求不变的参照系。

在2020年4月15日举行的软件定义存储线上峰会上,倪锦峰详细介绍了AI对数据基础设施的挑战,也介绍了英特尔如何基于“存储金字塔”解决AI存储的问题。

AI带来的数据存储新挑战!

事实上,AI作为一种新的数据处理技术,它的数据管道(Data Pipeline)涵盖采集、准备、训练和推理四个阶段,每个阶段对于数据存储的要求都不尽相同。

数据采集阶段:数据从不同来源聚拢并存储起来,数据的大小和格式存在各种差异,数据类型往往是文件或者对象形式的非结构化数据。

采集过程的特点是首先要进行百分之百的顺序写入,从多个数据源进行数据的批处理或者流传输,如果存储性能跟不上,数据就会被丢弃,所以,数据采集阶段对存储性能的要求非常高。采集完后,还要将收集来的数据重新放入更大的存储池内,对读性能也提出很高要求。

数据准备阶段:由于数据大小和格式不一样,为了便于训练,必须改为统一格式,以便后续训练阶段使用。这一过程要对不同格式和尺寸的数据进行规范化处理,其快慢就取决于计算节点的内存以及存储的性能。在数据转化过程中,其工作负载跟采集过程也很不一样,包括顺序读写、随机读写,在最极端的情形下,甚至可能是50%:50%的读写混合。

训练阶段:AI训练过程的工作负载非常密集,往往需要高性能的GPU或者加速器等来执行一系列的数学函数,对资源要求非常高,在做特定训练时,AI训练所需的时间更加取决于所部署的高性能内存与高性能存储的数量。

推理阶段:推理过程是检验人工智能的重要阶段,可以真正认识到人工智能的强大之处。推理基础设施根据不同场景,所需配置的处理器、内存、存储都不尽相同。

从以上可以看出,AI对于存储的需求是复杂多变的,英特尔的思路是希望更多数据能够更加靠近处理器,建立以数据为中心的高效存储架构,也就是我们说的“存储金字塔”。

以数据为中心的高效架构解决AI存储难题

英特尔以数据为中心的存储架构中,最上层是DRAM,最下层是磁盘和磁带。其中,DRAM和英特尔傲腾持久内存提供超高性能和超低延迟,英特尔傲腾固态盘以及英特尔TLC、QLC大容量、高性能固态盘相配合则作为更好的温热数据存储层。

因为每一层级间的容量和时延特性有一个数量级的差距,所以系统可根据不同数据的工作负载进行冷热分层,然后根据需求和成本预算来不断优化性能,解决各种存储难题。

作为一种革命性的技术,英特尔傲腾是过去20多年以来,在内存和存储方面的革命性进步,它的出现让“存储金字塔”真正完整起来,成为解决各种存储难题的杀手锏。

相比传统的NAND、HDD技术,革命性的傲腾技术具有以下重要特性:

第一,支持就地写入(Write in Place),不需要像NAND一样先擦除再写入,引起对IO工作负载不利的问题,例如垃圾回收(Garbage Collection)等。

第二,支持字节寻址(Bit addressable),最大程度的获得超低的延迟。

上图展示的是硬盘在70%/30%的随机读写工作负载下,所展现的IOPS/TB扩展能力。

随着容量提升,机械硬盘的IOPS并没有什么提升,SATA NAND固态盘受接口限制,容量和性能提升也有限,PCIe固态盘受限于NAND介质的特性,扩展能力有限。而英特尔傲腾则从介质层突破种种限制,展现出良好的性能可扩展性,成为低性能存储的有益的补充。

同时,英特尔傲腾P4800X固态盘的延迟极低,一致性及寿命表现非常强。

据上图最左显示,在不同的随机写入负载下的平均读取延迟,随着写入压力的不断增加,NAND固态盘的读延迟也在不断增加。相比之下,英特尔傲腾固态盘的超低延迟始终没有变化(横轴蓝色线),在图例中的极端情况下,傲腾固态盘比NAND固态盘的读取延迟能降低63倍左右,差异非常显著。

此外,英特尔傲腾P4800X固态盘有超高的寿命,通常我们用DWPD来表示写入寿命,英特尔傲腾固态盘的DWPD便多达60 DWPD,相对英特尔的NAND SSD比如P4600、P4610只能支持3DWPD,傲腾固态盘在寿命上的进步是非常可观的。

低延迟、高寿命的傲腾也带来极高的系统效率,比如,可以用更低的缓存比例,来实现更好的性能,同时又承受巨大的写入压力。

在人工智能场景中,四个阶段通常用一个存储数据管道来支撑,需要的是持续的、一致的吞吐量,以及超低的延迟,英特尔傲腾加上英特尔QLC 3D NAND的组合方案可以帮助改善客户的超融合或者相应的软件定义存储的解决方案,为即将到来的人工智能的爆发,做好相应的准备。

在落地应用方面,百度已率先于2018年发布了基于英特尔傲腾固态盘加英特尔QLC 3D NAND固态盘技术的存储解决方案,这一解决方案极大提升了AI、Big Data、Cloud的存储性能。比如说在AI的训练场景中,相比原来的磁盘方案可以得到21倍的性能提升, 96%的延迟下降,同时TCO也下降了60%左右。此外,这一解决方案很好地解决了性能以及容量的可扩展性,百度对于该方案非常满意。

以数据为中心的高效架构面向广泛应用场景

除了解决AI存储难题,以数据为中心的高效架构在许多其他场景中都展现出了巨大价值。

例如在VMWare vSAN方案中,将高性能缓存从NAND PCIe固态盘换成英特尔傲腾固态盘以后,虚拟机密度提升了60%,同时系统整合率能够提升30%,也就是说,可以节省更多的服务器,更多的空间,减少更多的功耗等。

在Hadoop方案中,将英特尔傲腾固态盘作为Hadoop的临时数据缓存,吞吐量或者性能可提升40%左右。

在开源分布式存储Ceph方案中,英特尔傲腾固态盘替换NAND固态盘存放Journal,作为元数据(metadata)缓存,能够使得99%延迟降低73%,同时IOPS性能提升了大概40%左右。

微软Azure Stack HCI使用英特尔傲腾固态盘作为缓存盘,每个系统、每个节点所能够支持的虚拟机数量提升达60%左右,同时虚拟机的跑分也提升了80分。

此外还有很多国内企业也在积极利用英特尔傲腾技术进行创新,在本届软件定义存储峰会上可以看到的浪潮、VMWare、XSKY、QingCloud青云等都有相应的方案展示。

结语

在如今应用类型越来越复杂多样,数据类型和数据存储需求也多种多样的发展趋势下,我们也许无法预测未来的存储技术是什么,但可以肯定的是未来存储将由工作负载来驱动。

英特尔不断推动存储技术演进,满足不断变化的需求,通过傲腾持久内存以及傲腾固态盘使得数据更加靠近CPU,通过QLC 3D NAND固态盘为海量数据存储提供一个最佳选择,英特尔所打造的“存储金字塔”已在当下这个工作负载多样化且密集的时代成为解决不同存储需求的一大利器,而在各层级产品不断演进的过程中,我们也有理由相信这一“金字塔”架构将在数据负载的指导下发挥出更大的价值。

未经允许不得转载:存储在线-存储专业媒体 » 破解AI存储难题 英特尔“存储金字塔”重塑层级结构 指引存储未来