据IDC《2019数据及存储发展研究报告》,数据或所谓海量数据的多元化和非结构化已成为新常态。为应对这一局面,存储系统的架构和技术不断变革,客户越来越多选择扩展性好、并行处理能力强,规模大的分布式存储系统。
两大分布式存储系列让系统性能指标“齐飞”
作为数据系统公司的极道,一直致力于高性能计算(HPC)、大数据分析和人工智能训练等应用技术的融合,分布式存储系统是极道系统的三大核心组件之一。极道的存储系统在解决数据存储空间和数据持久化的同时,也在追求极致的性能,也就是一个字“快”。
但什么是存储系统中的“快“呢?
带宽(吞吐量)和每秒I/O操作数(IOPS)是衡量存储性能的两大指标。在实际应用中,想要得到更“高”的IOPS,就需要尽可能减少每次数据存取请求涉及到的盘数;如果希望吞吐更“大”(高带宽),就需要聚合更多个盘的带宽。显然,带宽与IOPS两项指标像不可兼得的鱼和熊掌,不可能在一套存储系统中都优化到极致。
为此,针对不同的应用场景、不同的IO模型、不同的空间密度和性能需求,极道设计了两个系列的分布式存储系统:
极道的第一个分布式存储系列取名为ALAMO。ALAMO是分布式文件存储系统,可聚合所有多个存储单元的容量、处理能力和带宽资源,便于大量客户端的同时数据访问。ALAMO通过灵活的设计结构,既可以全部对称部署,又可以在超大规模的情况下非对称部署,实现大数据容量和小的元数据聚合代价。满足海量复杂数据对大容量、高宽带和频繁元数据操作的要求。
ALAMO可轻松扩展至上百节点,达到PB甚至EB级容量。ALAMO灵活的数据冗余策略,以及高可用架构完美的满足了客户对数据高可靠、高可用性的需求。
极道的第二个分布式存储系列取名为ANNA。
ANNA也是一款高性能、高可靠的非结构化(文件/对象)分布式存储系统,面向高IOPS和元数据密集型应用。ANNA的性能随节点数量增加线性增加,并且高度智能化,可根据数据热度提供智能存储分层策略,利用负载均衡策略消除性能瓶颈。 同时ANNA还提供融合应用容器的支持,利用存储节点的剩余计算能力直接运行应用程序,极大减轻网络负荷。
极道的存储系统根据行业应用的特点,针对带宽型、IOPS密集型、数据局部性要求、元数据密集型等各类不同场景提供了结构性优化和深度适配。通常而言,如果没有合适的方法和人工干预,存储只能根据当前的IO特性,以确定的缓存策略和数据一致性策略,甚至数据的摆放位置来为应用提供服务,无法根据应用的特点实现对存储特性的精确动态调优。
如何让存储感知应用是极道团队在设计存储系统时的关注点,也是极道实现差异化产品研发的重点。
应用感知,新一代存储技术的关键词
极道团队为了让存储能够感知应用的数据访问模式,一场场头脑风暴天天上演。虽然思维的火花转瞬即逝,但这些存储江湖上驰骋多年的高手最善于捕捉那一丝的灵感。
通过对用户数据处理模式的研究,极道团队决定从计算任务调度入手,控制计算任务的调度执行,让计算在开始执行之前给存储发送提示性信息,协助存储系统预判此次任务的IO模式,以做出策略选择和定向优化。高性能计算、AI训练和大数据分析对应的数据访问模式是不同的,极道存储在不同的时间段,不同的配置区域为应用的不同计算阶段提供尽可能高的存取效率和并行能力。
极道作为最早将应用感知概念引入存储系统的成功实践者,使存储系统变得可控、可视、可变,为存储赋予了自我调节性能、感知应用、主动适配上层业务场景的能力。
“存算”协同,提供极致的数据存取效能
极道从一开始就强调存算协同,团队在开发存储系统的同时,也同步开发了另外一个核心组件ABC融合计算系统,产品取名为“河神”(ACHELOUS),其中的A代表AI,B代表大数据Big Data,C代表Computing即传统的高性能/高通量计算和新兴的图计算。
极道并非只是提出了一个大而全的概念,而是真正用实力设计出了能够动态的构建计算框架的分布式计算系统。以跨“ABC”不同类型计算的智能数据流系统将各种异构计算汇聚,共享硬件资源,按需动态地构建计算框架,调度各种类型的数据计算、处理和分析任务,使用户不再需要同时维护多套集群,轻松构建同构、甚至异构的数据分析流程。该系统取名ACHELOUS,原意是希腊神话中的“河神”,体现了系统随意切换计算形态的灵活性和极道团队超越市面上各种数据“流”系统的勇气和信心。
极道ABC融合系统高度智能化的计算框架动态构建和系统资源统一调度,不仅使多调度器之间相互合作,突破了计算集群规模瓶颈;智能的执行引擎还可以帮助用户按照自身业务需要快速构建可视化、可编辑的数据分析流程,获得极致的数据并行处理和高效的分析计算,实现业务的敏捷开发。
值得一提的是,通过智能调度,ABC融合计算系统可以动态感知应用的IO类型,并根据数据流动态调节每一个计算阶段所需的计算框架、分配合适的计算资源,让每一阶段计算都极速高效。同时,辅以应用感知提高计算和存储的协同,让计算在存取数据过程中与存储有更多的协作,以便在计算过程中采用更好的缓存策略、数据一致性策略,甚至将数据调度到合适的存储位置,获得更好的数据存储效能。
应用感知,让存储无所不能
得益于应用感知和存算协同,极道分布式存储系统能够自动地根据应用的IO模式进行适配,具有不同性能特点的应用得以“物尽其用”,实现数据存取性能的最优化。这是极道“储治”之道中“储”和“治”的一部分内涵。
极道的数据“储治”之道中的“治”涵义广泛,不但包含了数据的处理、计算、分析和学习,也包含了数据特征的有效管理。数据管理作为极道“治”的概念中的另一重要组成部分,在极道产品家族中也扮演着重要的角色。至于极道存储与数据管理系统之间的更多奥义,我们将在后文中详细分解。