全新第五代 AMD EPYC(霄龙)处理器

AMD EPYC(霄龙)9005 系列处理器专为加速数据中心、云计算和 AI 工作负载而设计,助力企业将计算性能提升到全新水平。   

面向 AI 的卓越 CPU1

AMD EPYC(霄龙)9005 处理器性能卓越,全方位满足 AI 处理需求。  

充分提升每台服务器性能

使用 AMD EPYC(霄龙)9005 处理器,在机架数量减少多达 86% 的情况下仍能实现与原有硬件相当的整数性能2,大幅减少了物理占用空间、功耗和所需软件许可证数量,从而为运行全新或扩展的 AI 工作负载腾出空间。

卓越的 AI 推理性能

基于 AMD EPYC(霄龙)9005 CPU 的纯 CPU 型服务器能够高效处理大量 AI 工作负载,如具有 130 亿个及以下参数的语言模型、图像和欺诈分析或推荐系统。与上一代产品相比,运行两个第五代 AMD EPYC(霄龙)9965 CPU 的服务器可实现高达 2 倍的推理吞吐量提升。3

充分助力 GPU 加速

AMD EPYC(霄龙)9005 系列中的有些型号经过专门优化,在搭载 GPU 的系统中用作主机 CPU 时可帮助提高特定 AI 工作负载的性能,从而提高每台 GPU 服务器的投资回报率。例如,运行 Llama3.1-70B 时,在相同情况下使用高频 AMD EPYC(霄龙)9575F 处理器且搭载 8 个 GPU 的服务器在系统性能上可提升高达 20%。4

了解第五代 AMD EPYC(霄龙)处理器如何助力整个数据中心提升 AI 效率和性能。无论是为数据中心节省空间,提供强大性能,还是支持直接在 CPU 上运行推理,亦或是助力优化 GPU 性能,AMD EPYC(霄龙)处理器都在推动企业 AI 向前发展

经过优化的企业级性能

AMD EPYC(霄龙)9005 处理器在提供出色性能的同时实现卓越能效和总体拥有成本 (TCO) 价值,可解决企业迫在眉睫的关键需求。

业界卓越的整数性能

基于 AMD EPYC(霄龙)9005 CPU 的服务器借助全新“Zen 5”核心在主要性能指标上表现出色,其中整数性能是同类产品的 2.7 倍。5

专为云计算而生

AMD EPYC(霄龙)9005 系列处理器兼具卓越密度和性能,非常适合云计算工作负载。旗舰级 AMD EPYC(霄龙)9965 处理器拥有 192 个核心,能够支持更多的虚拟 CPU (vCPU) (1 个 vCPU 对应 1 个核心)。

卓越能效和 TCO 优势

如今,数据中心对能源的需求远超以往。AMD EPYC(霄龙)9005 处理器继承了 AMD EPYC(霄龙)处理器的传统优势,带来出色的能效和总体拥有成本 (TCO)。 

非凡性能、密度和能效

AMD EPYC(霄龙)9005 系列处理器配备多达 192 个“Zen 5”或“Zen 5c”核心,具有出色的内存带宽和性能。  创新的 AMD 小芯片架构成就高性能、高能效解决方案,并且根据不同计算需求进行全面优化。

“Zen 5”

AMD Zen 5 chip

“Zen 5c”

AMD Zen 5c chip

广泛的生态系统支持,备受行业翘楚青睐

众多解决方案提供商与 AMD 开展合作,选择采用 AMD EPYC(霄龙)9005 处理器。全球各地的公司和组织也都选择使用 AMD 处理器来处理其关键工作负载。

资源

附注
  1. 9xx5-012:TPCx-AI @SF30 多实例 32 核心实例大小吞吐量测试结果基于截至 2024 年 9 月 5 日的 AMD 内部测试,测试中运行了多个 VM 实例。综合端到端 AI 吞吐量测试结果源自 TPCx-AI 基准测试,与已发布的 TPCx-AI 结果不具有可比性,因为端到端 AI 吞吐量测试结果不符合 TPCx-AI 规范。
    双路 AMD EPYC(霄龙)9965(总计 384 个核心),12 个 32 核心实例,NPS1,1.5TB 24x64GB DDR5-6400(速率 6000 MT/s),1DPC,1.0 Gbps NetXtreme BCM5720 千兆以太网 PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu® 22.04.4 LTS,6.8.0-40-generic(tuned-adm profile throughput-performance、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192),BIOS RVOT1000C(SMT=off、Determinism=Power、Turbo Boost=Enabled)
    双路 AMD EPYC(霄龙)9755(总计 256 个核心),8 个 32 核心实例,NPS1,1.5TB 24x64GB DDR5-6400(速率 6000 MT/s),1DPC,1.0 Gbps NetXtreme BCM5720 千兆以太网 PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu 22.04.4 LTS,6.8.0-40-generic(tuned-adm profile throughput-performance、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192),BIOS RVOT0090F(SMT=off、Determinism=Power、Turbo Boost=Enabled)
    双路 AMD EPYC(霄龙)9654(总计 192 个核心),6 个 32 核心实例,NPS1,1.5TB 24x64GB DDR5-4800,1DPC,2 个 1.92 TB Samsung MZQL21T9HCJR-00A07 NVMe,Ubuntu 22.04.3 LTS,BIOS 1006C(SMT=off、Determinism=Power)

    结果:
    CPU、吞吐量中值、相对于基准的提升幅度、代际提升幅度
    Turin(192 个核心,12 个实例)、6067.531、3.775、2.278
    Turin(128 个核心,8 个实例)、4091.85、2.546、1.536
    Genoa(96 个核心,6 个实例)、2663.14、1.657、1
    参照基准(64 个核心,4 个实例)、1607.417、1、不适用
    结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。TPC、TPC 基准测试和 TPC-C 是 Transaction Processing Performance Council 的商标。
  2. 9xx5TCO-001B:此场景包含许多假设和估计,尽管基于 AMD 内部研究和最佳逼近原则,但应视为一个示例,仅供参考,不能用作实际测试的决策依据。AMD 服务器和温室气体排放总体拥有成本估算工具 v1.12 比较了提供 39100 单位 SPECrate2017_int_base 总体性能所需的 AMD EPYC(霄龙)服务器解决方案,采用了截至 2024 年 10 月 10 日发布的分数。经该方案测试,基于双路 EPYC(霄龙)9965(192 核)的服务器获得 3000 分 (https://www.spec.org/cpu2017/results/res2024q4/cpu2017-20240923-44837.pdf)。不同 OEM 出版资料中的双路 EPYC(霄龙)9965 实际 SPECrate®2017_int_base 分数有所不同。我们利用这些数据,并采用“2024 年全球电力排放系数 10 – 2024 年 7 月”中的国家/地区特定电力系数、美国国家环境保护局“温室气体当量计算器”,对环境影响进行了评估。
  3. 9xx5-040A:XGBoost(每小时运行次数)吞吐量测试结果基于截至 2024 年 9 月 5 日的 AMD 内部测试。XGBoost 配置:v2.2.1,Higgs 数据集,32 核心实例,FP32 双路 AMD EPYC(霄龙)9965(总计 384 个核心),12 个 32 核心实例,1.5TB 24x64GB DDR5-6400(速率 6000 MT/s),1.0 Gbps NetXtreme BCM5720 千兆以太网 PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu® 22.04.4 LTS,6.8.0-45-generic(tuned-adm profile throughput-performance、ulimit -l 198078840、ulimit -n 1024、ulimit -s 8192),BIOS RVOT1000C(SMT=off、Determinism=Power、Turbo Boost=Enabled),NPS=1;双路 AMD EPYC(霄龙)9755(总计 256 个核心),1.5TB 24x64GB DDR5-6400(速率 6000 MT/s),1DPC,1.0 Gbps NetXtreme BCM5720 千兆以太网 PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu 22.04.4 LTS,6.8.0-40-generic(tuned-adm profile throughput-performance、ulimit -l 198094956、ulimit -n 1024、ulimit -s 8192),BIOS RVOT0090F(SMT=off、Determinism=Power、Turbo Boost=Enabled),NPS=1;双路 AMD EPYC(霄龙)9654(总计 192 个核心),1.5TB 24x64GB DDR5-4800,1DPC,2 个 1.92 TB Samsung MZQL21T9HCJR-00A07 NVMe®,Ubuntu 22.04.4 LTS,6.8.0-40-generic(tuned-adm profile throughput-performance、ulimit -l 198120988、ulimit -n 1024、ulimit -s 8192),BIOS TTI100BA(SMT=off、Determinism=Power),NPS=1。结果如下:CPU、第 1 次运行吞吐量、第 2 次运行吞吐量、第 3 次运行吞吐量、吞吐量中值、相对于基准的提升幅度、代际提升幅度 双路 Turin(192 核,NPS1)、1565.217、1537.367、1553.957、1553.957、3、2.41 双路 Turin(128 核,NPS1)、1103.448、1138.34、1111.969、1111.969、2.147、1.725 双路 Genoa(96 核,NPS1)、662.577、644.776、640.95、644.776、1.245、1 参照基准(64 核)、517.986、421.053、553.846、517.986、1、不适用 结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。
  4. 9xx5-014:  Llama3.1-70B 推理吞吐量测试结果基于截至 2024 年 9 月 1 日的 AMD 内部测试。
    Llama3.1-70B 配置:TensorRT-LLM 0.9.0,nvidia/cuda 12.5.0-devel-ubuntu22.04,FP8,输入/输出 token 配置(应用场景):[BS=1024 I/O=128/128,BS=1024 I/O=128/2048,BS=96 I/O=2048/128,BS=64 I/O=2048/2048]。结果以“token/秒”为单位。
    双路 AMD EPYC(霄龙)9575F(总计 128 个核心),8 个 NVIDIA H100 80GB HBM3,1.5TB 24x64GB DDR5-6000,1.0 Gbps 3TB Micron_9300_MTFDHAL3T8TDP NVMe®,BIOS T20240805173113(Determinism=Power、SR-IOV=On),Ubuntu 22.04.3 LTS,kernel=5.15.0-117-generic(mitigations=off、cpupower frequency-set -g performance、cpupower idle-set -d 2、echo 3> /proc/syss/vm/drop_caches);

    I/O token、批次大小、参照系统的吞吐量、Turin 吞吐量、提升幅度:
    128/128、1024、814.678、1101.966、1.353
    128/2048、1024、2120.664、2331.776、1.1
    2048/128、96、114.954、146.187、1.272
    2048/2048、64、333.325、354.208、1.063
    吞吐量平均提升幅度为 1.197 倍。
    结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。
  5. 9xx5-002D:SPECrate®2017_int_base 性能评估基于截至 2024 年 10 月 10 日 www.spec.org 网站发布的分数。双路 AMD EPYC(霄龙)9965(SPECrate®2017_int_base 得分为 3000,总计 384 个核心,500W 热设计功耗 (TDP),CPU 总成本为 $14,813,SPECrate®2017_int_base 得分与 CPU 功耗比为 6.060,SPECrate®2017_int_base 得分与 CPU 成本比为 0.205,https://www.spec.org/cpu2017/results/res2024q4/cpu2017-20240923-44837.html);双路 AMD EPYC(霄龙)9755(SPECrate®2017_int_base 得分为 2720,总计 256 个核心,500W 热设计功耗 (TDP),CPU 总成本为 $12,984,SPECrate®2017_int_base 得分与 CPU 功耗比为 5.440,SPECrate®2017_int_base 得分与 CPU 成本比为 0.209,https://www.spec.org/cpu2017/results/res2024q4/cpu2017-20240923-44824.html);双路 AMD EPYC(霄龙)9754(SPECrate®2017_int_base 得分为 1950,总计 256 个核心,360W 热设计功耗 (TDP),CPU 总成本为 $11,900,SPECrate®2017_int_base 得分与 CPU 功耗比为 5.417,SPECrate®2017_int_base 得分与 CPU 成本比为 0.164,https://www.spec.org/cpu2017/results/res2023q2/cpu2017-20230522-36617.html);双路 AMD EPYC(霄龙)9654(SPECrate®2017_int_base 得分为 1810,总计 192 个核心,360W 热设计功耗 (TDP),CPU 总成本为 $11,805,SPECrate®2017_int_base 得分与 CPU 功耗比为 5.028,SPECrate®2017_int_base 得分与 CPU 成本比为 0.153,https://www.spec.org/cpu2017/results/res2024q1/cpu2017-20240129-40896.html)。SPEC®、SPEC CPU® 和 SPECrate® 是 Standard Performance Evaluation Corporation 的注册商标。如需了解更多信息,请访问 www.spec.org。‎