服务器MLPerf性能第一“撞车”!? 新锐厂商宁畅令人期待-存储在线-存储专业媒体

文无第一，武无第二，AI基准性能测试MLPerf不论怎么看都应该算场“比武”，有谁能够想到这场比武会出现两个“第一”？

10月22日，国内老牌服务器厂商浪潮和服务器新锐厂商宁畅，都推出文章表示旗下产品获得多项第一，“浪潮18项世界纪录” VS“宁畅30项世界第一”。对此，有媒体撰文发问“到底哪家强?”其实，详细比较双方报道，不难看出浪潮报道突出的是“整体性能”，宁畅报道突出的是定制“优化能力”。一个高举高打，追求性能；另一个强调在同配置下，追求对CPU、GPU的性能挖掘。一个“实力强”，一个“内功棒”，“赛道”不同确也都是第一。

作为老牌服务器领导厂商，浪潮表现可说在意料之中，而新锐厂商宁畅则更让人眼前一亮，其市场表现值得期待。

AI大咖云集“MLPerf”

AI确实给IT行业带来了巨大变化，但AI训练确也是一项花费巨大项目，以谷歌对Gmail邮件系统的训练为例，为实现Smart Reply功能，参加训练的数据样本就高达2.38亿封邮件，需调用庞大的计算资源，类似的谷歌翻译也对数万亿样本进行了训练。

从算力到能源消耗，AI训练以及推理都堪称“烧钱”的工作。尽管如此，钱肯定还是要烧的，这是AI训练及推理必须付出的代价。虽然如此，AI从业者还是希望让“烧钱”效率更高一些，期待对承载AI计算平台展开一场“华山论剑”，在此背景下MLPerf诞生了。

MLPerf是当前全球最具影响力的AI计算基准评测组织，由图灵奖得主David Patterson联合谷歌、斯坦福、哈佛大学等单位共同成立，每年组织全球AI训练和AI推理性能测试并发榜。

MLPerf的AI训练基准测试套件于2018年5月推出，初步结果于2018年12月公布。MLPerf推理套件发布于2019年6月24日，此次最新发布MLPerfAI推理基准测试有全球23家公司和机构参与，在数据中心及边缘等场景进行AI计算产品的性能比试。其中，数据中心部分最受关注，全部参与机构提交了507项性能测试数据。

就此次测试，11月22日，国内服务器厂商陆续发布新闻，浪潮宣称其配置

8颗第三代NVLink A100 GPU的NF5488A5，一举创造18项MLPerf推理性能记录，成为创纪录最多AI服务器。其中，浪潮NF5488A5创下了数据中心22个赛项中的13项性能记录以绝对优势领先，NVIDIA DGX取得了5项数据中心性能记录，单机性能高居榜首。

浪潮NF5488A5服务器

当天，国内服务器新锐厂商宁畅也宣布，其配置NVIDIA T4_/A100 GPU卡的Nettrix X640 G30 AI服务器，在ResNet、BERT、DLRM等基准测试中取得30项世界第一成绩。宁畅工程师表示，Nettrix X640 G30 AI服务器，最高可支持10张NVIDIA A100 PCIe卡或21张NVIDIA T4 PCIe卡。

宁畅 X640 AI服务器

对比同样搭载4张A100 GPU卡(4颗A100 GPU)的AI服务器，宁畅Nettrix X640 G30在Resnet50、SSD、RNN-T、BERT、DLRM等10项测试中分数值取得世界第一；搭载16张T4 GPU卡配置的情况下，打破6项世界纪录。搭配21张T4 GPU卡的X640 G30，测试分数斩获14项世界第一。

配置/环境不同，成绩众多

为什么MLPerf基准测试要发布如此多的纪录和第一呢?

作为MLPerf基准测试的开创者，为什么David Patterson、David Kanter等不做一个单一的MLPerf分数呢?其实也很简单，因为Kanter和他的同事希望MLPerf不仅能适用于广泛的工作负载，而且还能适用于大量的体系结构，因此，MLPerf不仅分为AI训练工作负载和AI推理，而且还根据图像分类、目标检测和自然语言翻译等不同任务，按照Single stream、Multiple stream、Server和Offline等四个场景进行衡量，此外还有“开放(Open)”和“封闭(Close)”场景划分。

配置、环境、场景不同，测试的指标以及约束条件就不同。其中，或考察延迟、或考察流数量处理性能、每秒查询数量以及数据吞吐量等。对聚焦不同AI应用场景的从业者，就需要对Resnet50、SSD、RNN-T、BERT、DLRM等进行深人比较，从中选择最具参考价值的信息。

要追求MLPerf基准测试成绩，主要取决于AI服务器所能够支持异构计算GPU卡的类型和数量，这也是AI服务器性能首要的影响因素。正因如此，拥有8块NVIDIA A100 GPU卡的NF5488A5和搭载21张T4 GPU卡的X640 G30都取得了超10项纪录的好成绩。

配置以及环境不一样，这就是两家公司都是“AI服务器性能第一”的原因，两家强调的方向不同，一个高举高打，追求性能；另一个强调，在同配置下，通过定制化追逐对CPU、GPU产品的性能挖掘能力。

小结

高举高打也好，追求定制“优化能力”也罢!应该说，都有各自拥趸和市场。同样针对图像分类、目标检测和自然语言翻译等AI应用，实力不同，阶段不同，用户的选择侧重，自然也会不同。

作为老牌服务器领导厂商，浪潮表现可说在意料之中，而作为新锐厂商的宁畅，则更让人眼前一亮。但好产品毕竟不是只用来“打榜”或“评分”的。期待两个性能第一AI服务器的市场表现，尤其是宁畅，作为初创企业其近日消息表明已中标6000万元知名互联网公司订单，并成为UCloud的主要服务器供应商之一，势头很猛。

服务器MLPerf性能第一“撞车”!? 新锐厂商宁畅令人期待

songjy

相关推荐

近期文章