下一步计划

您可能会好奇:AMD EPYC(霄龙)处理器已有超过 400 项世界纪录加身,还能如何更上一层楼?1 如何在目前依然非常优秀的服务器处理器基础上继续突破?1 答案是:利用“Zen 5”架构,以及它为客户带来的所有优势。

第五代 AMD EPYC(霄龙)处理器简介

第五代 AMD EPYC(霄龙)处理器专为 AI 和关键业务工作负载而设计,是新一代服务器 CPU。该系列处理器已在性能和能效方面创造了数百项世界纪录,1 如今更是依托既往成功经验AMD EPYC(霄龙)9005 系列处理器与“Zen 5”架构的加持,再度实现性能飞跃。

新款处理器至高提供 192 个核心,支持多达 384 个线程及 5GHz 的最大加速频率,几乎能够满足客户的所有业务需求。2 该系列处理器不仅比上一代 EPYC(霄龙)产品具备更多的核心和更高的频率,还支持更快的 DRAM,显著提升了处理内存敏感型工作负载的能力。

采用第五代 AMD EPYC(霄龙)处理器的服务器易于访问和部署,性能出色、密度更高、能效卓越,可支持各种部署,从企业 AI 支持计划和业务关键型应用,到大型云基础架构,都能轻松应对。

该系列产品全面具备人们熟知的 x86 软件兼容性,使客户能够在需要的地方部署所需的解决方案,同时凭借通用 ISA 支持日常业务运行,而无需对 x86 软件进行重大修改。

基于 AMD EPYC(霄龙)9005 处理器的系统可支持各种计划,从数据中心整合和现代化改造到要求日益严苛的企业应用需求,均能从容应对。这一切都要归功于高能效的“Zen 5”架构。这一引人注目的平台专为满足企业不断增长的 AI 需求而打造,同时还能帮助企业提高能效并控制数据中心的过度扩张。

这款服务器 CPU 在性能、能效和取得成果方面均无短板。

型号

核心

最大线程数

L3 高速缓存(MB)

默认热设计功耗 (TDP) (W)

DDR 通道数/最大内存容量系统 (2DPC)

最高 DDR5 频率 (MHz) (1DPC))

PCIe® Gen 5(通道数)

插槽密度

9965

192

384

384

500

12 / 9TB

6000

160

2

9845

160

320

320

400

12 / 9TB

6000

160

2

9825

144

288

384

400

12 / 9TB

6000

160

2

9755

128

256

512

500

12 / 9TB

6000

160

2

9745

128

256

256

400

12 / 9TB

6000

160

2

9655

96

192

384

400

12 / 9TB

6000

160

2

9645

96

192

256

320

12/9TB

6000

160

2

9655P

96

192

384

320

12 / 9TB

6000

128

1

9565

72

144

384

400

12 / 9TB

6000

160

2

9575F

64

128

256

400

12 / 9TB

6000

160

2

9555

64

128

256

360

12 / 9TB

6000

160

2

9555P

64

128

256

320

12 / 9TB

6000

128

1

9535

64

128

256

300

12 / 9TB

6000

160

2

9475F

48

96

256

360

12 / 9TB

6000

160

2

9455

48

96

256

300

12 / 9TB

6000

160

2

9455P

48

96

192

300

12 / 9TB

6000

128

1

9365

36

72

192

300

12 / 9TB

6000

160

2

9375F

32

64

256

320

12 / 9TB

6000

160

2

9355

32

64

256

280

12 / 9TB

6000

160

2

9355P

32

64

256

280

12 / 9TB

6000

128

1

9335

32

64

192

210

12 / 9TB

6000

160

2

9275F

24

48

256

320

12 / 9TB

6000

160

2

9255

24

48

128

200

12 / 9TB

6000

160

2

9175F

16

32

256

320

12 / 9TB

6000

160

2

9135

16

32

128

200

12 / 9TB

6000

160

2

9125

8

16

256

165

12 / 9TB

6000

160

2

9015

8

16

64

155

12 / 9TB

6000

160

2

 

性能:为客户描绘清晰蓝图

随着 AI 在业务领域发挥的作用日益显著,客户必须了解,他们不仅可以依靠服务器基础架构处理现有工作负载,还能轻松搞定 AI 工作负载。

AMD EPYC(霄龙)9575F 等全新 AMD EPYC(霄龙)处理器的每时钟周期指令数 (IPC) 性能比上一代提升了两位数。第五代 AMD EPYC(霄龙)处理器中新增的“Zen 5”核心经过专门设计,能够显著提升处理机器学习、高性能计算和企业级工作负载的性能。3

相较同类产品,全新处理器可助力企业实现卓越成果,例如在各类使用案例中实现突破性的端到端 AI 吞吐量性能。例如,进行 TPCx-AI 基准测试时,搭载 192 核 AMD EPYC(霄龙)9965 处理器的双路服务器可显著提高每分钟处理的 AI 测试案例数。4

在配备 GPU 加速器的环境下,当运行 Llama3.1 时,两颗 AMD EPYC(霄龙)9575F CPU 可用更短的时间,处理更多的推理请求。5,6

不仅性能出众,能效也同样出色。AMD EPYC(霄龙)9005 系列处理器为您提供高能效的服务器解决方案。

新一代尖端 AMD EPYC(霄龙)处理器现已推出,拥有足以改变人们工作方式的强大力量。在竞争激烈的 AI 时代,该系列处理器将能帮助您的客户抢占先机。请联系您的 AMD 代表或访问 AMD.com 了解更多信息。

AMD Arena


参加有关 AMD 锐龙 PRO、AMD EPYC(霄龙)、AMD Instinct 及更多产品的培训,拓展您的 AMD 产品知识。

附注
  1. 如要查看 AMD EPYC(霄龙)处理器在性能方面保持的世界纪录的完整列表,请访问 amd.com/worldrecords。

  2. AMD EPYC 处理器最大加速频率是指,在服务器系统的正常运行条件下,处理器上任何单个核心所能达到的最大频率。EPYC-018

  3. 9xx5-001:基于截至 2024 年 9 月 10 日的 AMD 内部测试,计算了固定频率下性能提升 (IPC) 的几何平均值。8nternal testing as of 9/10/2024, geomean performance improvement (IPC) at fixed-frequency.

  4. -  使用选定的 36 种工作负载,测得第五代 EPYC(霄龙)CPU 在企业和云服务器工作负载中的代际 IPC 提升幅度为 1.170 倍(几何平均值),采用 SPECrate®2017_int_base 所有子集分数(几何平均值)、SPECrate®2017_fp_base 所有子集分数(几何平均值)、服务器端 Java 多实例每秒最高运算次数、代表性云服务器工作负载(几何平均值)和代表性企业服务器工作负载(几何平均值)以及估计总分的几何平均值。

    “Genoa”配置(全部为 NPS1):EPYC(霄龙)9654 BIOS TQZ1005D 12 核心 12 线程(1 核心 1 线程/CCD,12+1 个核心),FF 3GHz,12x DDR5-4800(2Rx4 64GB),32Gbps xGMI;

    “Turin”配置(全部为 NPS1):EPYC(霄龙)9V45 BIOS RVOT1000F 12 核心 12 线程(1 核心 1 线程/CCD,12+1 个核心),FF 3GHz,12x DDR5-6000 (2Rx4 64GB),32Gbps xGMI 

    在 Ubuntu® 22.04 w/ 6.8.0-40-generic 内核操作系统上,所有工作负载均使用“性能确定性”设置和性能调节器。

    - 使用选定的 24 种工作负载,测得第五代 EPYC(霄龙)CPU 在 ML/HPC 服务器工作负载中的代际 IPC 提升幅度为 1.369 倍(几何平均值),采用代表性 ML 服务器工作负载(几何平均值)和代表性 HPC 服务器工作负载(几何平均值)的几何平均值。

    “Genoa”配置(全部为 NPS1)“Genoa”配置:EPYC(霄龙)9654 BIOS TQZ1005D 12 核心 12 线程(1 核心 1 线程/CCD,12+1 个核心),FF 3GHz,12x DDR5-4800(2Rx4 64GB),32Gbps xGMI;

    “Turin”配置(全部为 NPS1):   EPYC(霄龙)9V45 BIOS RVOT1000F 12 核心 12 线程(1 核心 1 线程/CCD,12+1 个核心),FF 3GHz,12x DDR5-6000 (2Rx4 64GB),32Gbps xGMI 

    在 Ubuntu® 22.04 w/ 6.8.0-40-generic 内核操作系统上,除 LAMMPS、HPCG、NAMD、OpenFOAM、Gromacs(使用 24.04 w/ 6.8.0-40-generic kernel)外,所有工作负载均使用“性能确定性”设置和性能调节器。

    SPEC® 和 SPECrate® 是 Standard Performance Evaluation Corporation 的注册商标。要了解更多信息,请访问 spec.org

  5. 9xx5-012:TPCx-AI @SF30 多实例 32 核心实例大小吞吐量测试结果基于 AMD 截至 2024 年 9 月 5 日进行的内部测试,测试中运行了多个 VM 实例。综合端到端 AI 吞吐量测试结果源自 TPCx-AI 基准测试,与已发布的 TPCx-AI 结果不具有可比性,因为端到端 AI 吞吐量测试结果不符合 TPCx-AI 规范。

  6. 双路 AMD EPYC(霄龙)9965(总计 384 个核心),12 个 32 核心实例,NPS1,1.5TB 24x64GB DDR5-6400(运行速率 6000 MT/s),1DPC,1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu® 22.04.4 LTS, 6.8.0-40-generic(tuned-adm profile throughput-performance、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192),BIOS RVOT1000C(SMT=off、Determinism=Power、Turbo Boost=Enabled)

    双路 AMD EPYC(霄龙)9755(总计 256 个核心),8 个 32 核心实例,NPS1,1.5TB 24x64GB DDR5-6400(速率 6000 MT/s),1DPC,1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu 22.04.4 LTS, 6.8.0-40-generic(tuned-adm profile throughput-performance、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192),BIOS RVOT0090F(SMT=off、Determinism=Power、Turbo Boost=Enabled)

    双路 AMD EPYC(霄龙)9654(总计 192 个核心),6 个 32 核心实例,NPS1,1.5TB 24x64GB DDR5-4800,1DPC,2 x 1.92 TB Samsung MZQL21T9HCJR-00A07 NVMe,Ubuntu 22.04.3 LTS, BIOS 1006C(SMT=off、Determinism=Power)

    效果:

    相关世代 CPU 中位数

    Turin 192 个核心,12 个实例 6067.531 3.775 2.278

    Turin 128 个核心,8 个实例 4091.85 2.546 1.536

    Genoa 96 个核心,6 个实例 2663.14 1.657 1

    结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。TPC、TPC 基准测试和 TPC-C 是 Transaction Processing Performance Council 的商标。

  7. 9xx5-014:Llama3.1-70B 推理吞吐量测试结果基于 AMD 截至 2024 年 9 月 1 日进行的内部测试。

  8. Llama3.1-70B 配置:TensorRT-LLM 0.9.0,nvidia/cuda 12.5.0-devel-ubuntu22.04,FP8,输入/输出词元配置(使用案例):[BS=1024 I/O=128/128,BS=1024 I/O=128/2048,BS=96 I/O=2048/128,BS=64 I/O=2048/2048]。结果以“词元/秒”为单位。

    双路 AMD EPYC(霄龙)9575F(总计 128 个核心),8x NVIDIA H100 80GB HBM3,1.5TB 24x64GB DDR5-6000,1.0 Gbps 3TB Micron_9300_MTFDHAL3T8TDP NVMe®,BIOS T20240805173113(Determinism=Power、SR-IOV=On),Ubuntu 22.04.3 LTS,kernel=5.15.0-117-generic(mitigations=off、cpupower frequency-set -g performance、cpupower idle-set -d 2、echo 3> /proc/syss/vm/drop_caches),‎

    I/O 词元批次大小 EMR Turin 相关结果

    128/128 1024 814.678 1101.966 1.353

    128/2048 1024 2120.664 2331.776 1.1

    2048/128 96 114.954 146.187 1.272

    2048/2048 64 333.325 354.208 1.063

    平均吞吐量增加 1.197 倍。

    结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。

  9. 9xx5-015:Llama3.1-8B(BF16,最大序列长度 1024)训练测试结果基于 AMD 截至 2024 年 9 月 5 日进行的内部测试。

  10. Llama3.1-8B 配置:最大序列长度 1024,BF16,Docker:huggingface/transformers-pytorch-gpu:latest

    双路 AMD EPYC(霄龙)9575F(总计 128 个核心),8x NVIDIA H100 80GB HBM3,1.5TB 24x64GB DDR5-6000,1.0 Gbps 3TB Micron_9300_MTFDHAL3T8TDP NVMe®,BIOS T20240805173113(Determinism=Power、SR-IOV=On),Ubuntu 22.04.3 LTS,kernel=5.15.0-117-generic(mitigations=off、cpupower frequency-set -g performance、cpupower idle-set -d 2、echo 3> /proc/syss/vm/drop_caches)。

    31.79 个训练样本/秒

    27.74 个训练样本/秒

    平均吞吐量增加 1.146 倍。

    结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。