AMD EPYC(霄龙)处理器助力充分实现大型 GPU 投资的价值

GPU 加速器已成为现代 AI 的主力军,在训练大型复杂模型和支持高效的大规模实时推理方面表现卓越。但要充分发挥 GPU 的潜力,您需要搭配性能强大的 CPU。

为何选择 GPU 处理 AI 工作负载?

GPU 是处理多种 AI 工作负载的合适工具。

  • AI 训练:GPU 能够利用其并行处理能力,加速大型和中型模型的训练。
  • 专用 AI 部署:GPU 为大规模部署的实时推理提供所需的速度和可扩展性

CPU 优势:

对于某些工作负载,将 GPU 的强大功能与合适的 CPU 结合可显著提高 AI 效率。以下为需要考虑的重要 CPU 特性:

  • 高频率:快速高效地处理大量数据准备和后处理任务。
  • 大容量高速缓存:便于快速访问海量数据集。
  • 高内存带宽和高性能 I/O:支持 CPU 和 GPU 之间快速无缝地交换数据。
  • 高能效核心:节约功耗以供 GPU 使用,同时有助于降低整体能耗。
  • 兼容 GPU 和软件生态系统:实现性能优化、效率提升和流畅运行。
GPU System with AMD EPYC and Instinct

AMD EPYC(霄龙)9005 处理器

AMD EPYC(霄龙)9005 系列高频处理器可助您充分释放 GPU 性能,高效处理大型 AI 工作负载。选择该系列处理器作为主机 CPU,有助于确保 GPU 一直在正确的时间处理正确的数据,这对于优化 AI 工作负载吞吐量和系统效率至关重要。  AMD EPYC(霄龙)高频处理器之所以能够脱颖而出,关键在于其高核心频率和大内存容量。如需了解这些关键因素如何提高 GPU 吞吐量,请阅读此文

行业应用

基于 AMD EPYC(霄龙)CPU 的 GPU 加速器解决方案为全球最快的一些超级计算机和云实例提供支持,通过这个经过实践检验的平台,企业能够轻松优化数据驱动的工作负载并在 AI 领域实现突破性成果。

AMD EPYC(霄龙)9005 系列处理器:充分实现大型 GPU 投资价值的明智选择

CPU 在协调和同步 GPU 间的数据传输、处理内核启动开销以及管理数据准备方面发挥着关键作用。这种“指挥”功能可助力 GPU 以更高的效率运行。

借助高性能 CPU 优化 GPU 投资价值

许多 AI 工作负载受益于具有高时钟速度的 CPU,这类 CPU 通过优化数据处理、传输和并发执行来提升 GPU 性能和效率。EPYC(霄龙)9575F 是专为 AI 工作负载打造的高性能主机节点处理器,运行速度高达 5GHz。

双路服务器搭载 8 个 GPU 加速器的性能表现

AMD 主机节点 CPU 搭载 AMD Instinct GPU 的性能表现
MLPerf® v4.1 Inference Llama 2-70B Benchmark¹
8x AMD Instinct™ MI300X + 2P EPYC 5th Gen 9575F (64 cores – 5GHz)
1.11x
8x AMD Instinct™ MI300X + 2P Xeon 8460Y+ (40 cores – 3.7GHz)
1.0x

Inference - Llama3.1-70B Inference Benchmark (BF16)²
8x Nvidia H100 + 2P EPYC 5th Gen 9575F (64 cores)
~1.20x
8x Nvidia H100 + 2P Xeon 8592+ (64 cores)
1.0x
Training - Llama3.1-8B Inference Benchmark (FP8)³
8x Nvidia H100 + 2P EPYC 5th Gen 9575F (64 cores)
~1.15x
8x Nvidia H100 + 2P Xeon 8592+ (64 cores)
1.0x

高效部署企业 AI 解决方案

第五代 AMD EPYC(霄龙)处理器集高性能、低功耗、高效数据处理及电源管理于一身,使您的 AI 基础设施能够以峰值性能运行,同时优化能耗和成本。

AMD EPYC(霄龙)处理器助力打造高能效服务器,不仅带来出色性能,而且能够进一步降低能源成本。放心部署基于 EPYC(霄龙)处理器的高能效解决方案,全面优化您的 AI 之旅。

AMD EPYC(霄龙)9005 系列处理器中采用 AMD Infinity Power Management,不仅可以实现出色的默认性能,还能针对特定工作负载行为进行优化。

Abstract illustration with glowing blue lines

安心无忧:通过备受信赖的解决方案来部署 AI

选择基于 AMD EPYC(霄龙)CPU 的多款经过认证或验证的 GPU 加速解决方案,为 AI 工作负载提供强劲助力。

正在使用其他 GPU?如需了解基于 AMD EPYC(霄龙)CPU 的解决方案,请咨询各大平台解决方案提供商,包括 Asus、Dell、Gigabyte、HPE、Lenovo 和 Supermicro 等。

基于 AMD EPYC(霄龙)CPU 与 GPU 的云端 AI/ML 实例解决方案日益丰富。

如需了解基于 AMD EPYC(霄龙)CPU 与 GPU 的 AI/ML 工作负载实例,请咨询各大云服务提供商,包括 AWS、Azure、Google、IBM Cloud 和 OCI 等。

server room photo

资源

AMD Instinct 加速器

为应对要求严苛的 AI 工作负载提供量身定制的解决方案。

AMD EPYC(霄龙)企业 AI 解决方案简介

查找 AMD 及其合作伙伴发布的关于使用 CPU 和 GPU 进行 AI 和机器学习创新的文档

播客

来自 AMD 和行业的技术专家为您讲解服务器、云计算、AI、HPC 等热门技术主题。

附注
  1. 9xx5-013:基于官方发布的 MLPerf™ Inference v4.1 Llama2-70B-99.9 性能测试得分结果,包括服务器场景和离线场景下的结果(以“token/秒”为单位),这些结果于 2024 年 9 月 1 日检索自 https://mlcommons.org/benchmarks/inference-datacenter/ 中的以下条目:4.1-0070(预览)和 4.1.0022。MLPerf™ 名称和标识是 MLCommons Association 在美国和其他国家/地区的商标。保留所有权利。未经授权,严禁使用。如需了解更多信息,请访问 www.mlcommons.org。
  2. 9xx5-014:Llama3.1-70B 推理吞吐量测试结果基于截至 2024 年 9 月 1 日的 AMD 内部测试。Llama3.1-70B 配置:TensorRT-LLM 0.9.0,nvidia/cuda 12.5.0-devel-ubuntu22.04,FP8,输入/输出 token 配置(应用场景):[BS=1024 I/O=128/128,BS=1024 I/O=128/2048,BS=96 I/O=2048/128,BS=64 I/O=2048/2048]。结果以“token/秒”为单位。双路 AMD EPYC(霄龙)9575F   (总计 128 个核心),搭配 8 个 NVIDIA H100 80GB HBM3,1.5TB 24x64GB DDR5-6000,1.0 Gbps 3TB Micron_9300_MTFDHAL3T8TDP NVMe®,BIOS T20240805173113(Determinism=Power、SR-IOV=On),Ubuntu 22.04.3 LTS,kernel=5.15.0-117-generic(mitigations=off、cpupower frequency-set -g performance、cpupower idle-set -d 2、echo 3> /proc/syss/vm/drop_caches) I/O Token、批次大小、参照系统吞吐量、Turin 吞吐量、吞吐量提升幅度 128/128、1024、814.678、1101.966、1.353 128/2048、1024、2120.664、2331.776、1.1 2048/128、96、114.954、146.187、1.272 2048/2048、64、333.325、354.208、1.063 平均吞吐量提升幅度为 1.197 倍。结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。
  3. 9xx5-015:Llama3.1-8B(BF16,最大序列长度为 1024)训练测试结果基于截至 2024 年 9 月 5 日的 AMD 内部测试。Llama3.1-8B 配置:最大序列长度为 1024,BF16,Docker:huggingface/transformers-pytorch-gpu。全新双路 AMD EPYC(霄龙)9575F   (总计 128 个核心),搭配 8 个 NVIDIA H100 80GB HBM3,1.5TB 24x64GB DDR5-6000,1.0 Gbps 3TB Micron_9300_MTFDHAL3T8TDP NVMe®,BIOS T20240805173113(Determinism=Power、SR-IOV=On),Ubuntu 22.04.3 LTS,kernel=5.15.0-117-generic(mitigations=off、cpupower frequency-set -g performance、cpupower idle-set -d 2、echo 3> /proc/syss/vm/drop_caches),得分为 31.79 个训练样本/秒。  结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。