英伟达推出可用于LLM和生成式AI的推理GPU平台，可将Stable Diffusion性能提高7倍-存储在线-存储专业媒体

北京时间2023年3月22日，英伟达宣布推出四款推理平台，并且，每个平台都包含一个为特定生成式AI推理工作负载而优化的NVIDIA GPU和专用的软件：

NVIDIA L4，这是一款适用于所有工作负载的通用GPU，它可提供比CPU高出120倍的性能，同时能效提高了99%，主要用于视频解码和转码、视频流式传输、增强现实、生成式AI视频等场景。

适用于图像生成的NVIDIA L40,针对图形以及AI支持的2D、视频和3D图像生成进行了优化。与上一代产品相比，其Stable Diffusion推理性能提高了7倍。L40平台是NVIDIA Omniverse（一个用于在数据中心构建和运行元宇宙应用的平台）的引擎，Omniverse性能提高了12倍。

NVIDIA H100 NVL是规模化部署像ChatGPT这样的大型语言模型（LLMs）的理想平台。这款新的H100 NVL拥有94GB内存和Transformer引擎加速，在数据中心规模，与上一代A100相比，GPT-3上的推理性能提高了多达12倍。

适用于推荐模型的NVIDIA Grace Hopper是图形推荐模型、矢量数据库和图神经网络的理想平台。通过NVLink-C2C以900 GB/s 的速度连接CPU和GPU，Grace Hopper的数据传输和查询速度比PCIe 5.0快了7倍。

这些平台的软件层采用NVIDIA AI Enterprise软件套件，包括用于高性能深度学习推理的软件开发套件NVIDIA TensorRT，以及帮助实现模型部署标准化的开源推理服务软件NVIDIA Triton Inference Server™。

早期采用者与支持

谷歌云是NVIDIA推理平台的重要云合作伙伴和早期客户。该公司正在将L4平台整合到其机器学习平台Vertex AI中，并且是第一家提供L4实例的云服务提供商，其G2虚拟机的私人预览版已于今天推出。

快手提供了一个短视频应用程序，利用GPU对传入的实时流媒体视频进行解码、捕捉关键帧并优化音视频。然后，它使用一个基于Transformer的大型模型理解多模态内容，从而提高全球数亿用户的点击率。

快手高级副总裁于越表示：“快手推荐系统所服务的社区每天的用户人数超过3.6亿，他们每天贡献3000万条UGC视频。在相同的总体拥有成本下，相较于CPU，NVIDIA GPU将系统的端到端吞吐量提高了11倍，将延迟降低了20%。”

领先的AI制作工作室Seyhan Lee使用生成式AI为电影、广播和娱乐行业开发沉浸式体验和迷人的创意内容。

Seyhan Lee联合创始人Pinar Demirdag表示：“L40 GPU为我们的生成式AI应用带来了惊人的性能提升。凭借L40的推理能力和内存容量，我们可以部署非常先进的模型，并以惊人的速度和精度向客户提供创新的服务。”

英伟达推出可用于LLM和生成式AI的推理GPU平台，可将Stable Diffusion性能提高7倍

zhupb

相关推荐

近期文章