DeepSeek-R1 671B满血版代表了顶尖AI模型的能力,企业在部署时都应该优先考虑满血版。然后,再按照使用场景,酌情考虑部署蒸馏版的小模型。
出于安全和数据隐私等方面的考虑,国内多数企业都想在本地部署,然而,部署推理DeepSeek-R1 671B满血版并不容易。
最近,超聚变FusionOne AI在满血DeepSeek-R1一体机中,嵌入了自主研发的推理加速引擎,通过软硬件协同优化提升了运算效率,模型性能也不打折扣。

从官方介绍中看到,超聚变仅用1台FusionServer G8600服务器,内置8张英伟达H20显卡即可运行原生满血模型DeepSeek-R1 671B,而且用的是DeepSeek官方默认的FP8精度,让模型智能水平无损释放。
超聚变提到,得益于自研推理加速引擎的优化,原本需要8张141GB显存显卡(也就是H200)才能做到,现在仅96G显存的H20即可做到,显存使用量降低30%。

如上图所示,这里使用8张141G显存H200(上图的H20应该是笔误)显卡来部署满血版,这套方案已经可以视为高性价比的版本了,如果换成8张96G显存H20之后,显然性价比又上了一个台阶。
超聚变通过对推理引擎的深度优化和KV Cache策略的优化,单台G8600服务器跑满血大模型,性能提升50%,还支持32个并发访问,吞吐量最高可至1000 tokens/秒,属于非常高的表现了。
换算成单并发Token性能,则是能达到32Token/s。这比刚才上图中提到的20 Token/s大概提高了50%。看来,超聚变拿来做对比的就是这套8张H200的方案。
超聚变还提到,通过简单易用的容器管理平台,用户还可以灵活选择部署DeepSeek全系列的其他模型,支持选择多种AI加速卡,快速满足不同AI应用场景。