至强6搭配美光CZ122，证明CXL可以提高生成式AI的性能表现-存储在线-存储专业媒体

最近发现了英特尔官网公布的一项最新测试报告，报告显示，将美光的CZ122 CXL内存模块放到英特尔至强6平台上，显著提升了HPC和AI工作负载的内存带宽，特别是在采用基于软件的交错配置（interleave configuration）时，性能优化潜力诱人。

实验中，将12根DDR5内存组成NUMA0，将另外8个美光CXL DDR4内存模组组成CXL NUMA1，考虑到性能差异可能会带来的问题，相关研究者已经在Linux内核（6.11.6）层面进行了优化。

上图清晰展示了在高负载条件下，通过将DRAM和CXL内存组合使用，可以显著提升系统带宽并降低延迟。DRAM + CXL 的优化交错配置（interleaving strategy）实现了内存资源的高效利用，特别是对于带宽密集型工作负载。

测试人员还发现，DRAM和CXL在不同读写比例下，带宽的表现会有明显差异。其中，DRAM在写的比例更多时，内存带宽会下降。而CXL利用了PCIe双向传输的能力，在写的比例越来越高的时候，带宽会越来越高。

DRAM的延迟较低，但是带宽部分其实不如CXL，在高负载场景下，DRAM的带宽瓶颈会导致性能迅速下降。CXL内存虽然内存延迟比较高，但凭借优秀的双向读写能力，能提供额外的带宽扩展，缓解系统内存压力。

这意味着，在实际应用中，如果想更好地利用CXL的优势，还得看具体场景对延迟和带宽的需求。从操作层面来看，就需要用户根据工作负载来调整使用的DRAM和CXL内存的配比。

接下来看，在实测数据中，DDR5 DRAM搭配DDR4 CXL内存模组是如何提高性能的。

在大语言模型推理任务中，研究人员使用了Intel PyTorch 扩展（IPEX），该开源工具对英特尔硬件进行了专门优化。通过采用3:1 DRAM与CXL内存比例，LLAMA3-8B-Instruct 的推理速度相比仅使用 DRAM 提升了17%。

FAISS 是由 Facebook AI 开发的高效相似性搜索库，用于密集向量的聚类和搜索。在 2:1 DRAM与CXL比例下，FAISS 工作负载的查询时间降低，性能提升了 23%。

说完了大家都比较关心的AI场景，接下来说HPC场景的价值。

OpenFOAM 是一款开源计算流体力学（CFD）软件，用于模拟各种流体动力学场景。采用5:2 DRAM:CXL比例时，OpenFOAM工作负载的执行时间缩短了22%。

HPCG基准测试侧重于稀疏线性系统的求解，强调内存访问模式和数据移动，反映真实科学和工程应用的行为。在3:1 DRAM:CXL 比例下，HPCG 基准测试实现了 27% 的性能提升。

Xcompact3D基准测试用于评估计算系统在求解不可压缩Navier-Stokes方程时的效率，尤其适用于流体动力学模拟，如3D Taylor-Green涡流。在5:2 DRAM:CXL比例下，Xcompact3D基准测试性能提升达25%。

POT3D基准测试模拟三维Poisson方程，主要用于评估系统在科学与工程计算中的性能，尤其是在分子动力学和计算物理领域。采用 5:2 DRAM:CXL 比例时，POT3D 工作负载性能提升了27%。

总之，CXL内存的引入使得系统能够有效地扩展内存带宽，解决了传统内存架构的带宽瓶颈，尤其是在大规模AI训练和高性能计算等应用中。通过DRAM和CXL内存搭配，能够根据不同负载的需求，灵活调整内存资源的分配比例，最大化带宽利用率。

实验还表明，随着CXL内存技术的逐步成熟，未来的计算系统将能更好地满足AI、大数据处理以及其他计算密集型应用对内存带宽和容量的要求。通过合理配置内存比例，系统能够更加高效地处理高读写比率的混合负载，提升计算性能和响应速度。

至强6搭配美光CZ122，证明CXL可以提高生成式AI的性能表现