数据存储产业服务平台

英伟达推出可用于LLM和生成式AI的推理GPU平台,可将Stable Diffusion性能提高7倍

北京时间2023年3月22日,英伟达宣布推出四款推理平台,并且,每个平台都包含一个为特定生成式AI推理工作负载而优化的NVIDIA GPU和专用的软件:

NVIDIA L4,这是一款适用于所有工作负载的通用GPU,它可提供比CPU高出120倍的性能,同时能效提高了99%,主要用于视频解码和转码、视频流式传输、增强现实、生成式AI视频等场景。

适用于图像生成的NVIDIA L40,针对图形以及AI支持的2D、视频和3D图像生成进行了优化。 与上一代产品相比,其Stable Diffusion推理性能提高了7倍。L40平台是NVIDIA Omniverse(一个用于在数据中心构建和运行元宇宙应用的平台)的引擎,Omniverse性能提高了12倍。

NVIDIA H100 NVL是规模化部署像ChatGPT这样的大型语言模型(LLMs)的理想平台。这款新的H100 NVL拥有94GB内存和Transformer引擎加速,在数据中心规模,与上一代A100相比,GPT-3上的推理性能提高了多达12倍。

适用于推荐模型的NVIDIA Grace Hopper是图形推荐模型、矢量数据库和图神经网络的理想平台。通过NVLink-C2C以900 GB/s 的速度连接CPU和GPU,Grace Hopper的数据传输和查询速度比PCIe 5.0快了7倍。

这些平台的软件层采用NVIDIA AI Enterprise软件套件,包括用于高性能深度学习推理的软件开发套件NVIDIA TensorRT,以及帮助实现模型部署标准化的开源推理服务软件NVIDIA Triton Inference Server™。

早期采用者与支持

谷歌云是NVIDIA推理平台的重要云合作伙伴和早期客户。该公司正在将L4平台整合到其机器学习平台Vertex AI中,并且是第一家提供L4实例的云服务提供商,其G2虚拟机的私人预览版已于今天推出。

快手提供了一个短视频应用程序,利用GPU对传入的实时流媒体视频进行解码、捕捉关键帧并优化音视频。然后,它使用一个基于Transformer的大型模型理解多模态内容,从而提高全球数亿用户的点击率。

快手高级副总裁于越表示:“快手推荐系统所服务的社区每天的用户人数超过3.6亿,他们每天贡献3000万条UGC视频。在相同的总体拥有成本下,相较于CPU,NVIDIA GPU将系统的端到端吞吐量提高了11倍,将延迟降低了20%。”

领先的AI制作工作室Seyhan Lee使用生成式AI为电影、广播和娱乐行业开发沉浸式体验和迷人的创意内容。

Seyhan Lee联合创始人Pinar Demirdag表示:“L40 GPU为我们的生成式AI应用带来了惊人的性能提升。凭借L40的推理能力和内存容量,我们可以部署非常先进的模型,并以惊人的速度和精度向客户提供创新的服务。”

未经允许不得转载:存储在线-存储专业媒体 » 英伟达推出可用于LLM和生成式AI的推理GPU平台,可将Stable Diffusion性能提高7倍