国家发改委对“新基建”的定义是:新型基础设施是以新发展理念为引领,以技术创新为驱动,以信息网络为基础,面向高质量发展需要,提供数字转型、智能升级、融合创新等服务的基础设施体系。
新基建涵盖了众多的数字化基础设施:云计算、人工智能、工业互联网、5G、物联网、数据中心、智能计算中心等信息基础设施,以智能交通、智慧能源为代表的融合基础设施。可以看出,新基建技术中最核心的资产便是数据。物联网让采集的数据种类和数量越来越多,5G让数据传输的速率越来越快,云计算在不断地对数据进行计算处理,AI在不断地挖掘数据的价值,这些技术连接的关键纽带便是存储。在新基建推动的当下,存储可以说是推动产业向高端化发展的刚需。
根据国际咨询机构IDC的预测,到2025年智能终端数量将达到400亿个,全球数据总量也将从2020年的44ZB跃升到180ZB,其中30%属于实时数据,75%来自边缘和终端,而这些数据中,将会有80%的数据是非结构化数据。
数据不仅总量巨大,增长速度也十分惊人。举个例子,一个大型三甲医院每天生成数TB数据;一个智能质检的生产线每天生成数百TB数据;一座智慧城市每天产生的数据量更是高达数百PB。基于此,IT技术人员不得不重新考虑存储的效率以及架构问题,“新基建”需要以数据为核心的“新存储”。
图1:杉岩数据创始人兼CEO陈坚
新存储特质之一 ——海量数据的可持续高效存储
面对如此庞大的数据存储量以及可预见性的数据增长量,新的存储架构必须要考虑的第一个点就是如何以更高扩展性、更高吞吐/低时延以及更高性价比实现容量管理。首先要有高扩展性,满足因为业务量、数据精细度提升导致的数据量增加的随时扩容需求;其次要有高吞吐/低时延,保障在海量数据、海量小文件场景下,数据可以快速地读取和调用;当然用户也很看重整体方案的性价比。
数据存储到公有云是一种可选解决方案,租用公有云厂商的存储空间节省自建存储的硬件采购成本,根据数据存储量采购相应存储空间。不过,数据调用的成本也在随着数据量的增加而增加,数据使用成本甚至超过了原有的硬件采购成本。
以分布式技术为核心架构的新存储,摆脱了传统存储数据共享困难、扩容受控制器性能限制等问题,通过将软件部署于通用服务器,用去中心化架构支持弹性扩展和高并发访问,消除了容量和性能的约束,实现更优秀的存储能力,可以轻松支撑EB级存储规模;千万级IOPS和TB级聚合带宽能够满足高并发访问需求,加之部署简单、灵活扩展的特点,为当下日益增长的海量数据提供极致容量、极致性能、极致可靠和极致性价比的存储系统底层支撑。
新存储特质之二 ——海量数据的高效管理
仅解决了数据存储的问题,对于新基建的需求来说远远不够,还要进一步解决存储数据的管理问题。
数据就像我们人一样,也有着它的生命周期,从产生到消亡,有很多个阶段。举个例子:一个病人去医院就诊拍摄X光片,刚产生的结果数据我们称之为热数据,这类数据对于数据的读写效率和即时性有很高的要求。就诊结束之后的一至两年内,病人会进行复诊,诊断数据不需要实时读取但也需要能够快速获得,这类数据称之为温数据;病人康复后,根据医疗行业就诊数据需要至少保存20年的要求,就诊数据可以保存到成本相对较低的存储介质中,待有需要时再调取,这类数据我们称之为冷数据。因此,新基建所需的新存储系统需要具备数据生命周期管理的能力。
另外不得不提的一个数据管理场景便是边缘计算和中心计算,云边协同的数据管理能力对存储系统支撑数据中心与边缘之间的数据汇聚和分发至关重要。特别是5G的发展,工业互联网、物联网技术的应用,数据更多会从摄像头、传感器、移动设备等不同的边缘端产生,而传统的SAN/NAS存储只能在局域网内访问,无法提供云边协同统一的数据管理能力。新存储需要打破传统存储访问协议的限制,能够基于互联网协议实现数据跨网络的统一管理和访问,从而能够直接与数据中心之外的物联网设备、智能终端直接交互数据,满足当前和未来数据交互的需求。
当下应用度较高的混合云场景数据也需要进行数据管理。众多公有云大厂都已经推出了相应的部署模式,出于安全和成本的考量,部分企业选择将互联网相关业务部署在公有云,同时将重要数据存放在私有云,以兼顾业务灵活和数据安全。企业私有云存储需要和公有云存储结合起来,实现业务无感知的数据上云、下云的融合和流动。在这样的发展趋势下,需要新存储能够提供与公有云存储相兼容的协议,以及可跨互联网数据传输的能力。将公有云存储与私有云存储打通,形成混合云存储的共同底座来构建企业数据湖,这也是发展的必然。
任何技术的变革都需要一个过渡阶段,新存储的部署越来越多,传统存储也还会长期存在并在其生命周期中继续发挥作用。因此,通过对异构存储的整合实现数据统一管理,不仅有效保护客户既有投资,也应该是新基建趋势下对新存储系统的要求。
新存储特质之三 ——海量数据的价值挖掘
数据最终的价值呈现一定是为应用服务的,人工智能和大数据分析技术的发展,驱动数据产生更多的应用价值。所以在数据的价值挖掘,我认为新存储系统的终极需求必须能够更好地利用人工智能、服务于人工智能,赋能大数据价值挖掘。
在利用人工智能方面,传统SAN/NAS系统因为受限于访问协议的限制,无法感知数据,只能在存储底层利用数据访问IO分类、使用容量统计、存储硬件错误码等信息进行统计分析,来实现存储系统自动化运维与管理等维度,以存储系统自身管理效率改进为目标的“基础智能”。
而真正的智能存储,我认为最重要的核心价值应该是基于数据感知,能够对数据进行加工和处理,进而赋能应用对数据的价值挖掘和价值呈现。所以新存储系统需要能够预集成一些通用的、面向业务场景的数据预处理功能和算法,然后通过与业务系统进行数据感知,充分利用存储系统闲置的计算能力,实现某种程度上的数据处理功能卸载和垂直优化,降低业务对存储的访问压力,从而大幅提升应用系统数据处理和分析效率。
另外,基于海量非结构化数据的价值挖掘分析,基本都要依赖机器学习、深度学习等人工智能技术。在人工智能场景中,数据要经历采集、清洗、训练、推理、归档等过程。人工智能各个阶段对存储系统要求差异非常大,比如在采集阶段,需要存储系统支持互联网远程访问协议、吞吐量要大;在数据清洗阶段,需要存储系统支持基于标签的检索,最好能支持视频自动抽帧等能力;而在训练阶段,则要求存储系统具备高并发低时延的高性能能力;最后在归档阶段,则需要低成本的存储系统。如果采用传统存储产品,一般需要不同类型存储系统来搭配使用,以满足成本、性能、检索等多方面要求,但这又势必造成数据在不同存储系统之间的孤岛。因此,新智能存储应该具有基于标签的数据检索、多种访问协议接口互通能力、满足高性能、低延时,以及低成本归档能力,从而实现机器学习不同AI管道阶段数据的统一存储,避免产生数据孤岛,并且提高数据在各个AI管道的流转效率。
图2:杉岩数据杉岩客户价值模型
总而言之,新基建为中国的产业升级清晰地指明了方向,数字化基础设施的广泛建设以及随之产生的新型应用需求将带来数据爆发式的增长。海量数据蕴含巨大的价值,存储必将是新基建坚实的底座。更多样化的数据模式、日益复杂的数据管理以及高效的数据利用对存储提出了更高的要求,无论是对于传统存储厂商还是创新型存储厂商,是挑战,更是机遇。