随着Cloud、AI技术的应用和普及,随着各行各业数字化转型的不断加速,分布式存储已经成为用户口中的热门话题。我们不禁会问,分布式存储的春天已经到了吗?今天,我们就来一探究竟。
数据爆发式增长,呼唤分布式存储
随着8K、5G、IoT、大数据、AI等系列技术的发展,数据量迎来了爆发式增长。IDC在《Data Age 2025》的报告中预测,从2018年到2025年,全球数据将从33ZB急速增长到175ZB,其中非结构化数据占比将超过80%。分布式存储凭借高扩展性和易管理能力,成为承载海量数据的重要选择,Gartner 2019年新定义的第二存储阵列,更是专门强调形态上必须是Scale Out的。
IDC数据增长趋势预测
IDC指出,⽬前每年存储下来的数据只有新创建数据的1%左右,其中真正挖掘出价值的数据量不⾜存储数据的10%。数据资产已成为企业数字化转型的核心,未来随着大数据和AI技术的发展,数据存储比例和挖掘比例必将大幅提升,需要专业的分布式存储来提供更高的存储容量和并发性能。Gartner定义的第二存储阵列也将大数据分析作为其典型应用场景,认为未来的大数据分析会为分布式存储带来海量的数据和性能需求。
分布式存储市场表现
IDC将分布式存储归入了软件定义存储来跟踪,IDC发布的《中国软件定义存储(SDS)及超融合存储(HCI)系统市场季度跟踪报告,2019年第二季度》显示,中国区软件定义存储已经连续多个季度同比大幅增长。
IDC中国区SDS存储2017Q2-2019Q2销售数据
按IDC的预测,中国区SDS存储销售从2018年到2023年将保持20%以上的年化增长率;随着5G、物联网和人工智能快速发展,到2023年,全球40%左右的存储系统都将是分布式存储架构。另一家调研机构Zion Market Research更是预测,全球分布式存储的销售额将从2018年的20亿美元快速增长到2027年的285亿美元,年化增长率高达34.7%。无论从过去几年的销售数据还是未来几年的销售预测来看,分布式存储的春天已经到来,以Ceph为代表的开源分布式存储蓬勃发展,以EMC、华为为代表的专业存储厂商重兵投入,同样也印证了这一结论。
IDC中国区SDS存储2018-2023年销售数据预测
分布式存储技术发展趋势
分布式存储是未来的发展方向已成为业界共识,那么分布式存储技术上又有哪些发展趋势呢,这点可以从Gartner分布式文件&对象存储关键能力要求和各大主流厂商的产品方向上来看一下:
极致效率
Gartner对第二存储的定义是:首要目的是经济高效地支持延迟和IOPS不是必需属性的非结构化数据工作负载, 典型用例包括长期归档,大数据分析应用程序的存储库,深度历史研究以及备份/恢复软件的备份/恢复目标。这就意味着,分布式存储的首要目标是提供极致效率的数据存储方案。
从Gartner分布式文件&对象存储关键能力要求来看,效率主要体现在几个方面:
Ø 扩展性:整集群应具备扩展到几百甚至上千存储节点的能力,简化管理;单文件系统或单桶需要支持几百甚至上千亿文件,应对现在及未来的海量文件挑战。
Ø 互通性:以自动驾驶为代表的新型应用已经越来越多的使用了文件、对象、HDFS多种访问协议,多协议互通可以避免文件的多次拷贝,有效提升文件的共享访问效率。
Ø 存储效率:分布式存储需要使用大比例EC(Erasure Coding)替代传统的副本技术,获得更高的存储利用率;应具备重删、压缩等数据缩减能力,相同硬件可存储更多的用户数据;应支持高密硬件,应对海量数据的空间占用和功耗问题;应具备数据分级能力,热、温、冷数据可以使用不同的存储硬件;
极致性能
分布式存储不以支持低时延和高IOPS为首要目标,但并不意味着性能对分布式存储就不重要了。IDC在《Data Age 2025》的报告中预测,实时数据占比将逐年提升,到2025年实时数据占比将达到30%,这么大规模的实时数据,很大一部分是需要借助分布式存储实现数据采集、存储和分析的,这就需要分布式存储能够提供极致性能来应对。
IDC全球实时数据占比预测
比较典型的如金融的风险评估、交通的自动驾驶、新兴的AI应用,都需要从海量数据中快速获取所需的信息并进行实时分析,这就要求存储提供亚毫秒级的响应时延,同时以高扩展性应对高并发处理性能需求。业界主流厂商如EMC、PureStorage、华为等都推出了基于全闪存的分布式存储产品,通过存储软件、专有硬件、网络的深度配合,来满足上层应用的极致性能需求。
智能管理
传统数据中心多采用中心管控、集中运维的方式,故障定位多依赖专家的经验,随着存储集群规模的增大和新技术的发展,这一模式运行的成本越来越高。各主流厂商纷纷推出“AI in Storage”的概念,利用云上云下技术结合,实现存储的智能管理。
云下数据中心,以服务化的方式统一管理不同存储设备,实现资源的自动化分配和数据在线流动,简化业务发放;云下设备侧,内嵌AI能力学习用户的操作习惯和IO模型,和云上模型库匹配实现性能自动优化。云上统一运维侧,分析云下海量设备的容量和性能增长的共性规律,实现容量和性能风险提前预测;分析云下设备的故障处理共性规律,提供故障预测能力及自动处理方案。
小结
随着Cloud和AI时代的数据爆发式增长,分布式存储的春天已经到来,用户已经越来越多的选择分布式存储。通过协议互通、EC、重删压缩、高密等技术达成极致效率是分布式存储的核心竞争力;软硬件深度配合,云上云下协同,实现极致性能和智能管理成为分布式存储发展的重要趋势。