AI是大家关注焦点,但数据存储不是;然而如果从技术角度切入,那么AI的挑战,就是数据存储技术的挑战?
为什么这样说呢?
我们知道:生成式AI受益于算力、算法和数据。
首先是大量数据准备,然后才是预训练。试想,如果数据加载出现性能问题,那么算力再强大,算法再精妙,也没有办法发挥威力。为了解决数据加载性能的问题,NVDIA为GPU配套了NVlink,以及HBM内存,通过扩展带宽来解决问题。
这都是对计算机冯▪诺依曼架构存储器“内存墙”问题的探索。
这里的存储器并非单指存储阵列等外部数据存储设备,对于CPU、GPU而言,存储器也包括SDRAM、RAM,也就是缓存和内存。
围绕着存储器 “内存墙”问题的突破,会有很多不同的技术思路。
最为简单的就是增加存储器访问带宽,如HBM、MRDIMM等内存技术,此外就是40G、100G网络的应用。这些技术各有优略,如HBM带宽出色,但是容量偏小,价格昂贵;MRDIMM,容量大,成本低,但是带宽不如HBM出色;外部数据存储需要依靠数据网络能力进行加持。
不仅硬件,在协议和软件优化方面,也会有很多的技术可以提供帮助,如NVlink、CXL等新的协议;例如Intel提供的软件工具和平台,如SPDK (Storage Performance Development Kit)、 DAOS (Distributed Asynchronous Object Storage)、 ISA-L (Intel(R) Intelligent Storage Acceleration Library)、Intel QAT (QuickAssist Technology),这些软件工具针对数据存储和交换,提供了开发平台、类库、加密以及硬件加速等支持!企业级用户可以根据自身的业务需要,以及技术实力,构建适合自己的解决方案。
如果企业级用户自身的技术实力有限,也可以选择全闪存阵列等更加成熟的硬件解决方案。
接入大模型只是开始
对于用户来说,大多数不会自己动手训练大模型,可以进行预训练的用户少之又少。企业级用户更多是应用大模型技术,如今,DeepSeek等开源大模型无疑解决了企业级拥抱大模型的燃眉之急,很多企业级用户纷纷接入DeepSeek大模型,为方便用户部署,很多算力厂商都推出了DeepSeek一体机,简化了企业级用户拥抱大模型的门槛。
但是接入大模型就万事大吉了吗?
答案是否定的!
如果仅仅是购买DeepSeek一体机,先不论是“满血”版、还是“残血”版,提供的就是大模型的通用能力,如内部会议纪要、软件代码生成,以及PDF、图像、视频文件的分析和解读,这些都是大模型的基础能力。
企业级用户多年积累的大量私域数据,如数据库应用中的结构化数据,以及研发、生产、市场营销的大量非结构化数据,以及用户热线、反馈等数据,这些数据是企业宝贵财富,更是企业经营状况的数据呈现、客观反映和映射。
企业级用户这些宝贵的数据,是业务应用创新的基础,以大数据技术为代表的技术应用,都是为了追逐数字经济的这个目标。如今,我们已经迎来了AI的时代。
大家有没有意识到:我们认知数据的方式,在通用大模型,加持下,会迎来新一轮的突破,一切围绕AI大模型已经成为新的趋势。对于企业级用户来说,不与私域数据进行融合的大模型接入,不是真正的接入。
数据湖也好,知识库也罢,这些企业级用户的私域数据,要让大模型可以接入并进行分析,则数据准备工作必不可少,也就是要做好Data for AI的工作。如果打大模型一体机与企业私域数据彼此孤立,这样的接入,其价值非常有限,更谈不上基于大模型AI的业务创新。
专家指出:做好Data for AI的工作,对于企业私域数据进行向量化处理是非常重要的操作,需要对私域数据进行维度操作,如此才能利用大模型进行分类和洞察,以产品营销为例,如果一个客户购买了产品,扩大营销最简单的办法:就是扩大寻找同等类型的客户,此前的方法是依靠数据库结构化数据,如今,大模型技术则可以利用、文本、图像,音频、视频等非结构化数据,这也是大模型的魅力。
因此,不与用户私域数据进行融合的大模型,不是真正的大模型。
在企业死于数据向量化升维操作的过程中,数据访问“内存墙”问题依然存在! 未来存储技术发展就是要解决好“访存墙”问题,提供企业级AI大模型应用可靠性、性能,以及可用性。存储也是重中之重!
如果您对希望了解更多的推导和分析过程,敬请收看由👉DoIT总编宋家雨主持的《与生成式AI有关的这些问题,你不可错过》沙龙对话节目,上海交大教授、上海计算机学会专家吴晨涛、Intel资深存储架构师曹刚、张文涛:焱融科技CTO、CXL俱乐部专家等一种嘉宾,将为您做出精彩解读。请扫描二维码观看直播或者回看:
