众所周知,如今我们正身处信息爆炸的时代,随着新基建的逐步深入,各行各业都在快速推进数字化转型,随之诞生的各类创新技术层出不穷。这些新技术的发展,大多都围绕着海量数据这个主题展开。如人工智能,就是以海量数据为生产要素;5G技术的成熟应用,为海量数据快速生成与传输筑造了通路基础,区块链又为海量数据的去中心化交易提供了技术支撑。此类新技术的应用与推广必然带来海量数据的规模化聚集,数十甚至数百PB的存储系统,将成为业界常态。应对海量存储压力,绝是不仅仅靠设备堆砌来解决容量问题这样简单。容量的上的叠加也将引发技术的质变,存储系统面临诸多关键技术上的挑战。
曙光是国内第一家专注海量存储系统研制的厂商,2009年第一代全自研ParaStor分布式存储系统诞生,奠定了构建海量数据存储最佳解决方案的基石。同年,我们为用户构建了当时国内最大的16PB单一存储系统。在10多年的发展过程中,曙光始终围绕海量分布式存储系统进行架构的深度优化甚至局部重构,以应对云、人工智能、区块链等技术带来的海量数据新的挑战。今天,曙光ParaStor在科研教育、气象环保、生命科学、能源、区块链等领域打造了一个又一个海量存储最佳实践,完成了从单套系统23PB、56PB到百PB级别的自我技术超越,获得了市场的高度认可。
基于多年技术积累以及多套百PB级别超大规模存储系统研制和运维经验,曙光公司认为,只有拥有如下核心技术研发实力,才能更好的应对各行业海量数据存储的挑战。
先进、创新的底层存储技术基座
在基础架构层面,传统集中式存储架构由于Scale-up扩展方式的局限性,无法对海量数据的容量与性能需求实现良好的支撑,天然适合此类场景分布式存储架构逐渐成为市场主流。为了应对海量存储的挑战,曙光ParaStor除了采用分布式架构之外,还可灵活选择对称与非对称部署两种模式,以更具性价比的硬件构建成本,支撑千亿级别文件、EB级存储空间的扩展需要。
除了架构之外,决定存储系统先进性的另一关键要素是底层数据管理技术。目前业界分布式存储系统,大多采用ext4、xfs等开源文件系统进行底层磁盘管理,以降低代码开发量,缩短产品研发周期。但这种间接的磁盘管理方式,无法更直接、高效地发挥磁盘性能。特别是在配置了数千甚至上万块磁盘的海量存储系统中,单个磁盘的性能衰减会成指数级放大,最终影响存储系统的整体性能和可靠性。为解决这个难题,曙光在ParaStor上创新性地开发了OBS本地对象管理系统。利用OBS可以精细化控制磁盘IO,使应用层的多个小随机IO智能组合为大的顺序IO,减少磁盘操作,使数据布局和负载更均衡,显著提升多事务并发、IO异步处理等海量数据应用场景的系统性能。并为热点数据加速、自动分层、重删压缩等进阶数据管理服务的高效运行打下了良好的基础。
海量并发应用场景下的深度性能优化
海量数据应用场景下,应用IO模型复杂多样、文件粒度差异很大,为了匹配不同应用对带宽、IOPS、延时的个性化需求,要求存储系统具备从磁盘管理、网络层到协议层整个IO路径上的深度优化能力。同时,随着参与数据存储和处理节点数量的增加,由此带来的资源开销也会攀升,同样需要针对性的优化设计。
从建设成本角度考量,海量存储系统仍以机械磁盘为主角。机械磁盘由于寻址方式的物理设计,在处理随机小文件IO时会有先天的性能劣势,单纯依靠硬盘数量的增加无法应对海量小文件的性能挑战。曙光ParaStor基于底层OBS管理系统实现与闪存介质的深度融合,使用少量闪存高效覆盖热点IO需求,另一方面通过小IO合并、元数据缓存、动态智能预读等多种方式,显著提升海量大、小文件混合应用场景的整体用户性能体验。
同时,曙光ParaStor通过高性能网络Infiniband RDMA协议支持、专属高性能POSIX客户端等技术,针对具体的应用场景,单流带宽可优化至18GB/s,在首届中国海量存储系统MassStor100排行榜中,一套裸容量为100PB的存储系统,其系统聚合带宽高达1TB/s,代表了业界最高水准。
随着存储系统规模的扩大,存储客户端对于CPU等资源的占用、数据网络的负载和管理压力也会增加,一旦某个节点由于上述原因出现阻塞,将对存储系统的性能甚至可用性造成重大影响。曙光ParaStor分布式存储系统,针对大规模集群的资源占用进行了多重细粒度的优化措施,保障了存储系统性能的恒定发挥和数据访问的可用性。
超大规模下的数据一致性和可靠性保障
在数据一致性保证层面,海量存储系统必然伴随着大量客户端的并发访问需求。通过软件层面的高效调度,保障所有客户端数据访问的强一致性,避免对同一文件的并发读写对彼此数据的破坏,是一个成熟海量存储系统的必备素质。ParaStor存储在分布式锁(Distributed Lock Management,DLM)的使用与优化方面投入了大量精力,不断提升大规模分布式锁获取与释放的性能与可用性,并增加了可重入、非阻塞等特性,有效保障高并发共享访问场景的顺序、秩序与效率,在气象环保、能源地质等海量数据处理场景得到了广泛的应用。
在可靠性保障方面,硬件单点故障的防范只是海量存储系统的初级需求,智能化故障预处理与高效无感知的系统自愈才能让系统真正可靠稳定运行。以磁盘为例,对于磁盘的单点故障,我们可以通过成熟的多副本、纠删码、RAID等技术实现数据重构,对于中小规模存储系统,磁盘故障属于小概率事件,用户只需要在某一段时间内对前端业务性能与重构性能做简单取舍即可。但对于一个管理着上万块磁盘的百PB级海量存储系统而言,意味着平均每天会有约2-5块磁盘故障,存储系统大部分时间内都处于业务与重构的资源争用状态。如果没有妥善的处理方式,用户每天都会面临着要保障生产业务性能还是保障数据安全的灵魂拷问。曙光ParaStor存储系统为大集群场景定向开发了内部资源动态调度管理算法,在充分发挥硬件处理能力的基础上有效避免资源争抢,同时通过多重技术显著缩短故障数据重建时间,解决了性能与可靠性冲突这个海量存储故障处理的主要矛盾。
智能化运维挑战上千节点的管理
在运维管理方面,维护由数百甚至数千节点构成的海量存储系统,仅靠传统的管理方式显然是不可行的,各节点间的信息实时同步开销会成为存储系统的不可承受之重。曙光ParaStor在集群通信管理模块中,将节点按照不同角色抽象成多个管理分组,以分组为单位进行管理信令交互,增大了信息传递颗粒度以降低通信频度,实现管理流量的去中心化错峰交互,集群信息秒级同步,使系统中所有节点都能“统一思想,明确目标”,提升存储系统的整体战斗力。
积土成山,风雨兴焉;积水成渊,蛟龙生焉。正如常规软件处理方式无法应对巨量数据集合的捕捉、管理与计算,而必须引入大数据等新型数据处理模式一样,海量数据存储在基础架构、数据管理、性能优化、数据一致性、可靠性保障、运维管理等需求也需要全方位的定向深度优化才可能完美承载。曙光ParaStor在海量存储领域持续深耕,正在为全国数千家用户管理着超过10EB的核心数据,为云计算、轨道交通、气象环保、基因测序、能源勘探等行业用户的海量数据管理提供了坚实稳定的保障。放眼未来,曙光存储将继续总结与吸收海量数据存储系统优化与运维过程中积累的宝贵经验,并在数据全生命周期管理,在线实时数据处理,以及与区块链、AI、容器等新兴技术深度融合等方面加强投入,为用户提供更快速、更可靠、更智能、更便捷的一站式数据管理服务。