下一步计划
您可能会好奇:AMD EPYC(霄龙)处理器已有超过 400 项世界纪录加身,还能如何更上一层楼?1 如何在目前依然非常优秀的服务器处理器基础上继续突破?1 答案是:利用“Zen 5”架构,以及它为客户带来的所有优势。
第五代 AMD EPYC(霄龙)处理器简介
第五代 AMD EPYC(霄龙)处理器专为 AI 和关键业务工作负载而设计,是新一代服务器 CPU。该系列处理器已在性能和能效方面创造了数百项世界纪录,1 如今更是依托既往成功经验AMD EPYC(霄龙)9005 系列处理器与“Zen 5”架构的加持,再度实现性能飞跃。
新款处理器至高提供 192 个核心,支持多达 384 个线程及 5GHz 的最大加速频率,几乎能够满足客户的所有业务需求。2 该系列处理器不仅比上一代 EPYC(霄龙)产品具备更多的核心和更高的频率,还支持更快的 DRAM,显著提升了处理内存敏感型工作负载的能力。
采用第五代 AMD EPYC(霄龙)处理器的服务器易于访问和部署,性能出色、密度更高、能效卓越,可支持各种部署,从企业 AI 支持计划和业务关键型应用,到大型云基础架构,都能轻松应对。
该系列产品全面具备人们熟知的 x86 软件兼容性,使客户能够在需要的地方部署所需的解决方案,同时凭借通用 ISA 支持日常业务运行,而无需对 x86 软件进行重大修改。
基于 AMD EPYC(霄龙)9005 处理器的系统可支持各种计划,从数据中心整合和现代化改造到要求日益严苛的企业应用需求,均能从容应对。这一切都要归功于高能效的“Zen 5”架构。这一引人注目的平台专为满足企业不断增长的 AI 需求而打造,同时还能帮助企业提高能效并控制数据中心的过度扩张。
这款服务器 CPU 在性能、能效和取得成果方面均无短板。
型号 |
核心 |
最大线程数 |
L3 高速缓存(MB) |
默认热设计功耗 (TDP) (W) |
DDR 通道数/最大内存容量系统 (2DPC) |
最高 DDR5 频率 (MHz) (1DPC)) |
PCIe® Gen 5(通道数) |
插槽密度 |
9965 |
192 |
384 |
384 |
500 |
12 / 9TB |
6000 |
160 |
2 |
9845 |
160 |
320 |
320 |
400 |
12 / 9TB |
6000 |
160 |
2 |
9825 |
144 |
288 |
384 |
400 |
12 / 9TB |
6000 |
160 |
2 |
9755 |
128 |
256 |
512 |
500 |
12 / 9TB |
6000 |
160 |
2 |
9745 |
128 |
256 |
256 |
400 |
12 / 9TB |
6000 |
160 |
2 |
9655 |
96 |
192 |
384 |
400 |
12 / 9TB |
6000 |
160 |
2 |
9645 |
96 |
192 |
256 |
320 |
12/9TB |
6000 |
160 |
2 |
9655P |
96 |
192 |
384 |
320 |
12 / 9TB |
6000 |
128 |
1 |
9565 |
72 |
144 |
384 |
400 |
12 / 9TB |
6000 |
160 |
2 |
9575F |
64 |
128 |
256 |
400 |
12 / 9TB |
6000 |
160 |
2 |
9555 |
64 |
128 |
256 |
360 |
12 / 9TB |
6000 |
160 |
2 |
9555P |
64 |
128 |
256 |
320 |
12 / 9TB |
6000 |
128 |
1 |
9535 |
64 |
128 |
256 |
300 |
12 / 9TB |
6000 |
160 |
2 |
9475F |
48 |
96 |
256 |
360 |
12 / 9TB |
6000 |
160 |
2 |
9455 |
48 |
96 |
256 |
300 |
12 / 9TB |
6000 |
160 |
2 |
9455P |
48 |
96 |
192 |
300 |
12 / 9TB |
6000 |
128 |
1 |
9365 |
36 |
72 |
192 |
300 |
12 / 9TB |
6000 |
160 |
2 |
9375F |
32 |
64 |
256 |
320 |
12 / 9TB |
6000 |
160 |
2 |
9355 |
32 |
64 |
256 |
280 |
12 / 9TB |
6000 |
160 |
2 |
9355P |
32 |
64 |
256 |
280 |
12 / 9TB |
6000 |
128 |
1 |
9335 |
32 |
64 |
192 |
210 |
12 / 9TB |
6000 |
160 |
2 |
9275F |
24 |
48 |
256 |
320 |
12 / 9TB |
6000 |
160 |
2 |
9255 |
24 |
48 |
128 |
200 |
12 / 9TB |
6000 |
160 |
2 |
9175F |
16 |
32 |
256 |
320 |
12 / 9TB |
6000 |
160 |
2 |
9135 |
16 |
32 |
128 |
200 |
12 / 9TB |
6000 |
160 |
2 |
9125 |
8 |
16 |
256 |
165 |
12 / 9TB |
6000 |
160 |
2 |
9015 |
8 |
16 |
64 |
155 |
12 / 9TB |
6000 |
160 |
2 |
性能:为客户描绘清晰蓝图
随着 AI 在业务领域发挥的作用日益显著,客户必须了解,他们不仅可以依靠服务器基础架构处理现有工作负载,还能轻松搞定 AI 工作负载。
AMD EPYC(霄龙)9575F 等全新 AMD EPYC(霄龙)处理器的每时钟周期指令数 (IPC) 性能比上一代提升了两位数。第五代 AMD EPYC(霄龙)处理器中新增的“Zen 5”核心经过专门设计,能够显著提升处理机器学习、高性能计算和企业级工作负载的性能。3
相较同类产品,全新处理器可助力企业实现卓越成果,例如在各类使用案例中实现突破性的端到端 AI 吞吐量性能。例如,进行 TPCx-AI 基准测试时,搭载 192 核 AMD EPYC(霄龙)9965 处理器的双路服务器可显著提高每分钟处理的 AI 测试案例数。4
在配备 GPU 加速器的环境下,当运行 Llama3.1 时,两颗 AMD EPYC(霄龙)9575F CPU 可用更短的时间,处理更多的推理请求。5,6
不仅性能出众,能效也同样出色。AMD EPYC(霄龙)9005 系列处理器为您提供高能效的服务器解决方案。
新一代尖端 AMD EPYC(霄龙)处理器现已推出,拥有足以改变人们工作方式的强大力量。在竞争激烈的 AI 时代,该系列处理器将能帮助您的客户抢占先机。请联系您的 AMD 代表或访问 AMD.com 了解更多信息。
AMD Arena
参加有关 AMD 锐龙 PRO、AMD EPYC(霄龙)、AMD Instinct 及更多产品的培训,拓展您的 AMD 产品知识。
订阅
接收月度更新,了解 AMD 新款产品、培训资源及“遇见专家”网络研讨会的新鲜资讯。

相关文章
附注
如要查看 AMD EPYC(霄龙)处理器在性能方面保持的世界纪录的完整列表,请访问 amd.com/worldrecords。
AMD EPYC 处理器最大加速频率是指,在服务器系统的正常运行条件下,处理器上任何单个核心所能达到的最大频率。EPYC-018
9xx5-001:基于截至 2024 年 9 月 10 日的 AMD 内部测试,计算了固定频率下性能提升 (IPC) 的几何平均值。8nternal testing as of 9/10/2024, geomean performance improvement (IPC) at fixed-frequency.
- 使用选定的 36 种工作负载,测得第五代 EPYC(霄龙)CPU 在企业和云服务器工作负载中的代际 IPC 提升幅度为 1.170 倍(几何平均值),采用 SPECrate®2017_int_base 所有子集分数(几何平均值)、SPECrate®2017_fp_base 所有子集分数(几何平均值)、服务器端 Java 多实例每秒最高运算次数、代表性云服务器工作负载(几何平均值)和代表性企业服务器工作负载(几何平均值)以及估计总分的几何平均值。
“Genoa”配置(全部为 NPS1):EPYC(霄龙)9654 BIOS TQZ1005D 12 核心 12 线程(1 核心 1 线程/CCD,12+1 个核心),FF 3GHz,12x DDR5-4800(2Rx4 64GB),32Gbps xGMI;
“Turin”配置(全部为 NPS1):EPYC(霄龙)9V45 BIOS RVOT1000F 12 核心 12 线程(1 核心 1 线程/CCD,12+1 个核心),FF 3GHz,12x DDR5-6000 (2Rx4 64GB),32Gbps xGMI
在 Ubuntu® 22.04 w/ 6.8.0-40-generic 内核操作系统上,所有工作负载均使用“性能确定性”设置和性能调节器。
- 使用选定的 24 种工作负载,测得第五代 EPYC(霄龙)CPU 在 ML/HPC 服务器工作负载中的代际 IPC 提升幅度为 1.369 倍(几何平均值),采用代表性 ML 服务器工作负载(几何平均值)和代表性 HPC 服务器工作负载(几何平均值)的几何平均值。
“Genoa”配置(全部为 NPS1)“Genoa”配置:EPYC(霄龙)9654 BIOS TQZ1005D 12 核心 12 线程(1 核心 1 线程/CCD,12+1 个核心),FF 3GHz,12x DDR5-4800(2Rx4 64GB),32Gbps xGMI;
“Turin”配置(全部为 NPS1): EPYC(霄龙)9V45 BIOS RVOT1000F 12 核心 12 线程(1 核心 1 线程/CCD,12+1 个核心),FF 3GHz,12x DDR5-6000 (2Rx4 64GB),32Gbps xGMI
在 Ubuntu® 22.04 w/ 6.8.0-40-generic 内核操作系统上,除 LAMMPS、HPCG、NAMD、OpenFOAM、Gromacs(使用 24.04 w/ 6.8.0-40-generic kernel)外,所有工作负载均使用“性能确定性”设置和性能调节器。
SPEC® 和 SPECrate® 是 Standard Performance Evaluation Corporation 的注册商标。要了解更多信息,请访问 spec.org。
9xx5-012:TPCx-AI @SF30 多实例 32 核心实例大小吞吐量测试结果基于 AMD 截至 2024 年 9 月 5 日进行的内部测试,测试中运行了多个 VM 实例。综合端到端 AI 吞吐量测试结果源自 TPCx-AI 基准测试,与已发布的 TPCx-AI 结果不具有可比性,因为端到端 AI 吞吐量测试结果不符合 TPCx-AI 规范。
双路 AMD EPYC(霄龙)9965(总计 384 个核心),12 个 32 核心实例,NPS1,1.5TB 24x64GB DDR5-6400(运行速率 6000 MT/s),1DPC,1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu® 22.04.4 LTS, 6.8.0-40-generic(tuned-adm profile throughput-performance、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192),BIOS RVOT1000C(SMT=off、Determinism=Power、Turbo Boost=Enabled)
双路 AMD EPYC(霄龙)9755(总计 256 个核心),8 个 32 核心实例,NPS1,1.5TB 24x64GB DDR5-6400(速率 6000 MT/s),1DPC,1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu 22.04.4 LTS, 6.8.0-40-generic(tuned-adm profile throughput-performance、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192),BIOS RVOT0090F(SMT=off、Determinism=Power、Turbo Boost=Enabled)
双路 AMD EPYC(霄龙)9654(总计 192 个核心),6 个 32 核心实例,NPS1,1.5TB 24x64GB DDR5-4800,1DPC,2 x 1.92 TB Samsung MZQL21T9HCJR-00A07 NVMe,Ubuntu 22.04.3 LTS, BIOS 1006C(SMT=off、Determinism=Power)
效果:
相关世代 CPU 中位数
Turin 192 个核心,12 个实例 6067.531 3.775 2.278
Turin 128 个核心,8 个实例 4091.85 2.546 1.536
Genoa 96 个核心,6 个实例 2663.14 1.657 1
结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。TPC、TPC 基准测试和 TPC-C 是 Transaction Processing Performance Council 的商标。
9xx5-014:Llama3.1-70B 推理吞吐量测试结果基于 AMD 截至 2024 年 9 月 1 日进行的内部测试。
Llama3.1-70B 配置:TensorRT-LLM 0.9.0,nvidia/cuda 12.5.0-devel-ubuntu22.04,FP8,输入/输出词元配置(使用案例):[BS=1024 I/O=128/128,BS=1024 I/O=128/2048,BS=96 I/O=2048/128,BS=64 I/O=2048/2048]。结果以“词元/秒”为单位。
双路 AMD EPYC(霄龙)9575F(总计 128 个核心),8x NVIDIA H100 80GB HBM3,1.5TB 24x64GB DDR5-6000,1.0 Gbps 3TB Micron_9300_MTFDHAL3T8TDP NVMe®,BIOS T20240805173113(Determinism=Power、SR-IOV=On),Ubuntu 22.04.3 LTS,kernel=5.15.0-117-generic(mitigations=off、cpupower frequency-set -g performance、cpupower idle-set -d 2、echo 3> /proc/syss/vm/drop_caches),
I/O 词元批次大小 EMR Turin 相关结果
128/128 1024 814.678 1101.966 1.353
128/2048 1024 2120.664 2331.776 1.1
2048/128 96 114.954 146.187 1.272
2048/2048 64 333.325 354.208 1.063
平均吞吐量增加 1.197 倍。
结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。
9xx5-015:Llama3.1-8B(BF16,最大序列长度 1024)训练测试结果基于 AMD 截至 2024 年 9 月 5 日进行的内部测试。
Llama3.1-8B 配置:最大序列长度 1024,BF16,Docker:huggingface/transformers-pytorch-gpu:latest
双路 AMD EPYC(霄龙)9575F(总计 128 个核心),8x NVIDIA H100 80GB HBM3,1.5TB 24x64GB DDR5-6000,1.0 Gbps 3TB Micron_9300_MTFDHAL3T8TDP NVMe®,BIOS T20240805173113(Determinism=Power、SR-IOV=On),Ubuntu 22.04.3 LTS,kernel=5.15.0-117-generic(mitigations=off、cpupower frequency-set -g performance、cpupower idle-set -d 2、echo 3> /proc/syss/vm/drop_caches)。
31.79 个训练样本/秒
27.74 个训练样本/秒
平均吞吐量增加 1.146 倍。
结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。
如要查看 AMD EPYC(霄龙)处理器在性能方面保持的世界纪录的完整列表,请访问 amd.com/worldrecords。
AMD EPYC 处理器最大加速频率是指,在服务器系统的正常运行条件下,处理器上任何单个核心所能达到的最大频率。EPYC-018
9xx5-001:基于截至 2024 年 9 月 10 日的 AMD 内部测试,计算了固定频率下性能提升 (IPC) 的几何平均值。8nternal testing as of 9/10/2024, geomean performance improvement (IPC) at fixed-frequency.
9xx5-012:TPCx-AI @SF30 多实例 32 核心实例大小吞吐量测试结果基于 AMD 截至 2024 年 9 月 5 日进行的内部测试,测试中运行了多个 VM 实例。综合端到端 AI 吞吐量测试结果源自 TPCx-AI 基准测试,与已发布的 TPCx-AI 结果不具有可比性,因为端到端 AI 吞吐量测试结果不符合 TPCx-AI 规范。
9xx5-014:Llama3.1-70B 推理吞吐量测试结果基于 AMD 截至 2024 年 9 月 1 日进行的内部测试。
9xx5-015:Llama3.1-8B(BF16,最大序列长度 1024)训练测试结果基于 AMD 截至 2024 年 9 月 5 日进行的内部测试。
- 使用选定的 36 种工作负载,测得第五代 EPYC(霄龙)CPU 在企业和云服务器工作负载中的代际 IPC 提升幅度为 1.170 倍(几何平均值),采用 SPECrate®2017_int_base 所有子集分数(几何平均值)、SPECrate®2017_fp_base 所有子集分数(几何平均值)、服务器端 Java 多实例每秒最高运算次数、代表性云服务器工作负载(几何平均值)和代表性企业服务器工作负载(几何平均值)以及估计总分的几何平均值。
“Genoa”配置(全部为 NPS1):EPYC(霄龙)9654 BIOS TQZ1005D 12 核心 12 线程(1 核心 1 线程/CCD,12+1 个核心),FF 3GHz,12x DDR5-4800(2Rx4 64GB),32Gbps xGMI;
“Turin”配置(全部为 NPS1):EPYC(霄龙)9V45 BIOS RVOT1000F 12 核心 12 线程(1 核心 1 线程/CCD,12+1 个核心),FF 3GHz,12x DDR5-6000 (2Rx4 64GB),32Gbps xGMI
在 Ubuntu® 22.04 w/ 6.8.0-40-generic 内核操作系统上,所有工作负载均使用“性能确定性”设置和性能调节器。
- 使用选定的 24 种工作负载,测得第五代 EPYC(霄龙)CPU 在 ML/HPC 服务器工作负载中的代际 IPC 提升幅度为 1.369 倍(几何平均值),采用代表性 ML 服务器工作负载(几何平均值)和代表性 HPC 服务器工作负载(几何平均值)的几何平均值。
“Genoa”配置(全部为 NPS1)“Genoa”配置:EPYC(霄龙)9654 BIOS TQZ1005D 12 核心 12 线程(1 核心 1 线程/CCD,12+1 个核心),FF 3GHz,12x DDR5-4800(2Rx4 64GB),32Gbps xGMI;
“Turin”配置(全部为 NPS1): EPYC(霄龙)9V45 BIOS RVOT1000F 12 核心 12 线程(1 核心 1 线程/CCD,12+1 个核心),FF 3GHz,12x DDR5-6000 (2Rx4 64GB),32Gbps xGMI
在 Ubuntu® 22.04 w/ 6.8.0-40-generic 内核操作系统上,除 LAMMPS、HPCG、NAMD、OpenFOAM、Gromacs(使用 24.04 w/ 6.8.0-40-generic kernel)外,所有工作负载均使用“性能确定性”设置和性能调节器。
SPEC® 和 SPECrate® 是 Standard Performance Evaluation Corporation 的注册商标。要了解更多信息,请访问 spec.org。
双路 AMD EPYC(霄龙)9965(总计 384 个核心),12 个 32 核心实例,NPS1,1.5TB 24x64GB DDR5-6400(运行速率 6000 MT/s),1DPC,1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu® 22.04.4 LTS, 6.8.0-40-generic(tuned-adm profile throughput-performance、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192),BIOS RVOT1000C(SMT=off、Determinism=Power、Turbo Boost=Enabled)
双路 AMD EPYC(霄龙)9755(总计 256 个核心),8 个 32 核心实例,NPS1,1.5TB 24x64GB DDR5-6400(速率 6000 MT/s),1DPC,1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu 22.04.4 LTS, 6.8.0-40-generic(tuned-adm profile throughput-performance、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192),BIOS RVOT0090F(SMT=off、Determinism=Power、Turbo Boost=Enabled)
双路 AMD EPYC(霄龙)9654(总计 192 个核心),6 个 32 核心实例,NPS1,1.5TB 24x64GB DDR5-4800,1DPC,2 x 1.92 TB Samsung MZQL21T9HCJR-00A07 NVMe,Ubuntu 22.04.3 LTS, BIOS 1006C(SMT=off、Determinism=Power)
效果:
相关世代 CPU 中位数
Turin 192 个核心,12 个实例 6067.531 3.775 2.278
Turin 128 个核心,8 个实例 4091.85 2.546 1.536
Genoa 96 个核心,6 个实例 2663.14 1.657 1
结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。TPC、TPC 基准测试和 TPC-C 是 Transaction Processing Performance Council 的商标。
Llama3.1-70B 配置:TensorRT-LLM 0.9.0,nvidia/cuda 12.5.0-devel-ubuntu22.04,FP8,输入/输出词元配置(使用案例):[BS=1024 I/O=128/128,BS=1024 I/O=128/2048,BS=96 I/O=2048/128,BS=64 I/O=2048/2048]。结果以“词元/秒”为单位。
双路 AMD EPYC(霄龙)9575F(总计 128 个核心),8x NVIDIA H100 80GB HBM3,1.5TB 24x64GB DDR5-6000,1.0 Gbps 3TB Micron_9300_MTFDHAL3T8TDP NVMe®,BIOS T20240805173113(Determinism=Power、SR-IOV=On),Ubuntu 22.04.3 LTS,kernel=5.15.0-117-generic(mitigations=off、cpupower frequency-set -g performance、cpupower idle-set -d 2、echo 3> /proc/syss/vm/drop_caches),
I/O 词元批次大小 EMR Turin 相关结果
128/128 1024 814.678 1101.966 1.353
128/2048 1024 2120.664 2331.776 1.1
2048/128 96 114.954 146.187 1.272
2048/2048 64 333.325 354.208 1.063
平均吞吐量增加 1.197 倍。
结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。
Llama3.1-8B 配置:最大序列长度 1024,BF16,Docker:huggingface/transformers-pytorch-gpu:latest
双路 AMD EPYC(霄龙)9575F(总计 128 个核心),8x NVIDIA H100 80GB HBM3,1.5TB 24x64GB DDR5-6000,1.0 Gbps 3TB Micron_9300_MTFDHAL3T8TDP NVMe®,BIOS T20240805173113(Determinism=Power、SR-IOV=On),Ubuntu 22.04.3 LTS,kernel=5.15.0-117-generic(mitigations=off、cpupower frequency-set -g performance、cpupower idle-set -d 2、echo 3> /proc/syss/vm/drop_caches)。
31.79 个训练样本/秒
27.74 个训练样本/秒
平均吞吐量增加 1.146 倍。
结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。