2020年,美股市场剧烈震荡,科技股成为下跌的“重灾区”。然而,伴随“股神”巴菲特押注科技股的美国云数据仓库公司在纽交所上市,存储圈一阵叫好因为,业内专业人员注意到,这家云数据仓库中,使用的是对象存储,对象存储不仅可以存储大规模的数据,还可通过机器学习算法等应用进行数据处理。
对象存储的广泛被应用,充分验证了对象存储不仅能解决非结构化数据,还能解决OLAP结构化数据的存储问题。对此,专注于对象存储的杉岩数据颇受鼓舞。
眼下,国内互联网应用的发展奇快,数据量、用户量、交易量及其增量已经是世界第一,其非结构化海量大小数据的存储需求面临前所未有的困境!面对新兴技术的兴起,实际应用场景的四处延伸,对象存储将何去何从?在2020中国数据与存储峰会上,笔者有幸与国内软件定义存储厂商杉岩数据CTO邱尚高做了一次关于对象存储的技术交流,听到了很多新的见解。
杉岩数据“最大”的标签是对象存储,邱尚高表示,从市场角度而言,当前分布式文件存储的市场更大,但从场景应用角度方面而言,以5G、大数据、人工智能为代表的新兴技术深入行业应用,智能在“端、边、云”延伸,数据的种类和数量越来越多,企业对数据价值的诉求也更趋强烈,对象存储因互联网而生,面对海量数据场景具备天然优势,逐渐成为大数据时代存储界的后起之秀。
观中国SDS市场:对象存储或将替代文件存储
对象存储,业内称之为第三大存储类型,其综合了NAS和SAN的优点,同时具有SAN的高速直接访问和NAS的数据共享等优势,提供了高可靠性、跨平台性以及安全的数据共享的存储体系结构。
在对象存储与文件存储的对比中,特别是在大量文件的并发性能方面,对象存储比文件存储要强的多,同时,在系统中存入大量文件后的性能稳定性方面,对象存储的表现也比文件存储要强的多。
从技术角度看,由于文件存储要维护庞大且复杂的文件目录,当文件数越来越多,目录越来越复杂,文件存储的性能就越差。而对象存储的可扩展性比文件存储要好的多,对象存储把文件存在单一命名空间下,采用哈希的查找方式来找文件,效率和性能要高很多,文件数再多也几乎不影响性能。
邱尚高表示,对象存储将文件管理规模提升了100倍以上,为大数据海量智能存储提供底座。对象存储与文件存储相比,在新技术的支持上更有优势,如容器的支持场景,面对容器大规模的剧增,成百上千的POD启动时执行挂载操作(属重型操作)对存储性能提出更高的要求,甚至出现挂载失败的现象;而使用对象存储,POD启动无需挂载存储,只有在业务访问文件时,才会跟存储建立连接,所以在POD批量创建/启动变得轻松自如。
当然,对象存储并非能完全取代文件存储,源于一些特定场景的因素,如HPC场景、个人办公文件共享场景、老旧业务系统,但也非绝对,未来企业网盘将替换个人办公文件共享场景,而企业网盘的关键技术为对象存储。
读第一阵营:探秘杉岩对象存储的场景化能力
在云计算领域,公有云服务商都不约而同支持对象存储,对象存储为公有云提供技术基础,为数据上云注入技术力量,通过对象存储提供数据分发、备份、分析等数据存储服务,提供在互联网任何位置的数据存储和访问服务,提供空间租赁服务等等。对象存储的应用,能使云上创新顺利嫁接到企业私有云环境中,从技术生态来看,对象存储对于企业IT架构转型至关重要。
对企业来说,对象存储能解决用户使用公有云资源的需求,想搭建混合云架构的需求,想构建数据湖来容纳各种数据类型的需求,想做大数据分析挖掘数据价值,想用人工智能赋能业务创新,想使用容器以及云原生技术架构加速业务创新的需求…….在诸多场景中,对象存储的都能发挥什么的价值呢?
针对诸多应用场景,邱尚高从技术角度解释了对象存储的场景化能力。
场景一:数据湖场景
谈及数据湖场景,邱尚高表示,对象存储作为整个数据湖架构的核心要素,承载着企业近乎全部的数据资产。数据湖需要存储万亿级别的文件数、EB级别的容量,且数据类型不同、资源对接区域不同、应用场景类型不同,数据存储的压力非常大。对象存储采用弹性的分布式架构,灵活对接各类应用,可汇聚不同类型、不同大小的数据资源(包括结构化、半结构化、非结构化数据,大文件、小文件)。
首先,对象存储的扩展性保证了能存下大量数据;其次,对象存储的灵活性既能支持传统应用,也能支持云原生应用;再者,由于与云端采用了一致的对象存储标准,帮助企业构建了混合云架构的数据底座,帮助企业将公有云的能力延展到企业内部。
数据湖虽未大范围部署,但优势显而易见,前景广阔。邱尚高认为,数据湖是一个循序渐进的概念,企业不会为了建数据湖而建,数据湖是一张蓝图,数据湖是需要一步步推动的结果。对象存储的采用,为未来一步步搭建数据湖打下了基础。
场景二:大数据场景
在谈到大数据场景时,邱尚高谈到了大数据存算分离的趋势,究其原因,是在于原来的Hadoop方案升级扩展不够灵活,计算和存储必须同时进行,操作难度和运维成本是问题。而有了存算分离后,可以用对象存储替代HDFS,让对象存储和Hadoop独立扩容和升级,减少了Hadoop新版本升级的障碍。
同时,由于对象存储采用的是EC纠删码和冷热分层技术来提升磁盘利用率,相比原来HDFS三副本的设定,成本效益非常明显。而且,相对于只适合大文件的HDFS,对象存储对小文件也更友好。
场景三:AI/ML场景
在AL/ML场景中,数据准备阶段和训练阶段对存储的需求各不同,杉岩数据对象存储方案用一套架构满足了该场景的需求。比如,数据准备阶段可能会有大量的图片和标签数据,如果都存在文件存储上,NAS的图片检索压力会很大,如果引入NoSQL,那么架构会更复杂。
在训练阶段,NAS文件存储在面对海量小文件时的性能压力可能会成为瓶颈。此外,由于数据准备阶段和训练阶段的对应不同的存储设备,需要进行数据迁移拷贝的操作,费时费力耗空间。有了对象存储之后,这些问题全都迎刃而解了。
杉岩数据的对象存储提供AI/ML场景的全生命周期管理,全过程在一套存储上完成,无需进行任何数据复制拷贝操作。在数据准备阶段,可以用标签来直接检索图片。在训练阶段,对象存储高性能文件网关能解决海量小文件存储性能的问题。
场景四:智能化、自动化的数据处理场景
很多数据都是先处理后存储,杉岩数据对象存储依托智能数据处理引擎,将数据处理能力下沉到存储系统内部。基于策略触发,自动完成图片转码、视频抽帧、OCR识别等处理任务。以智能制造为例,杉岩MOS已经帮助UTAC(联测优特半导体)提升智能质检效率,通过生命周期管理策略设定,在MOS内部完成质检图片的存储、格式转换、冷热分层和过期自动删除,节省80%存储空间,大幅降低成本并简化了业务流程。
杉岩数据的对象存储能自动将BMP图片转化为高压缩率的JPG图片,将数据压缩为原来的四分之一,极大地节省了存储空间。与此同时,它还提供了自动化的分层和策略化管理,充分利用分布式处理的能力,减少了主机和存储间的数据搬运,提高了系统运行效率。
此外,邱尚高还提到了对象存储平台在原生云OLAP场景上,在IPFS场景方面的优势。特别是在将OLAP数据库的查询条件卸载到存储,针对IPFS的时空证明专有接口方面所表现出来的性能优势令人印象深刻。以上多个场景中,都展示出了对象存储与上层应用垂直优化时,相比传统存储的软硬件垂直优化的优势,在关键性能方面更能达到数量级的提升。
从邱尚高的介绍中能感受到,对象存储作为基础架构领域最具发展前景的存储类型,在许多新的场景中都得到了应用,这与对象存储本身的灵活可编程的特性有很大关系,当许多创新都围绕对象存储展开的话,选择对象存储就为未来更多新技术做好了准备。
展望未来:对象存储如同八九点钟的太阳“崭露锋芒”
对象存储,谈起来容易,实现起来并非轻而易举,在技术特性、软件功能上需要不断打磨。作为国内对象存储市场份额位列第二的杉岩数据,在新技术、新功能、新性能、新应用上不断加大投入,研发投入已达数亿元,这种对产品的“单磕”,使得杉岩数据在对象存储的技术创新方面独具优势。
前不久,杉岩数据2 EB超大规模数据中心存储项目引起了圈内人士的广泛关注,这是对杉岩数据技术能力和实践能力的认同,也是市场对于对象存储的 认可。
IDC预测,未来5年,对象存储在中国SDS市场的增长率将达到制高点,5G+AIoT时代,智能存储应用场景越来越丰富,数据增长规模如“洪流”般凶猛,对象存储优势将进一步放大。
邱尚高表示,现阶段对象存储使用率高的行业有金融科技、医疗影像、制造业、智慧交通等,许多行业处在向对象存储切换的过程中。一些备份软件、企业网盘、大数据分析应用中把S3作为标准接口,在一定程度上,对象存储已打开局面。
杉岩数据专注于对象存储,而非投入更多精力深耕文件存储,邱尚高表示,杉岩数据的关键业务仍以对象存储为核心,以新一代智能分布式存储技术为依托,致力于打造云计算、人工智能、物联网等领域的数据存储基石,不忘初衷方得始终。对象存储正值攀登的好时期,如同八九点钟的太阳,让我们一同迎接朝霞。
另外,从市场竞争及发展的方向看,杉岩数据正处在快速发展阶段,作为中国存储市场的新势力,将继续加强生态建设,以更大的力量为用户提供“对象”服务,打造更完善的私有云、混合云智能存储服务。