接下來會創下什麼紀錄?
您可能會好奇,在創下了超過 400 項世界紀錄之後,AMD 還能如何改善 AMD EPYC™ 處理器1。要怎麼超越如此強大的伺服器處理器呢1?答案就是 "Zen 5" 架構,還有它能為客戶帶來的所有優勢。
隆重介紹第 5 代 AMD EPYC™ 處理器
專為 AI 和關鍵業務工作負載所設計,第 5 代 AMD EPYC™ 處理器為這個在效能與效率方面創下數百項世界紀錄的系列,帶來了全新世代的伺服器處理器1。奠基於其豐富的歷史,AMD EPYC™ 9005 系列處理器採用 "Zen 5" 架構,實現了突破性的效能。
這些全新處理器提供高達 192 核心、384 執行緒和 5 GHz 最高提升頻率,凡是客戶想得到的業務需求,幾乎都能夠滿足2。不僅具備比前一代 EPYC 產品更多的核心與更高的頻率,還支援更快速的 DRAM,強化記憶體密集型工作負載的處理能力。
第 5 代 AMD EPYC 處理器可簡便部署,搭載此處理器的伺服器能提供領先業界的效能、密度與效率,支援各式各樣的部署情境,從實行企業 AI 計畫和業務關鍵應用程式,到驅動大規模雲端基礎架構等。
這系列產品具備熟悉的 x86 軟體相容性,讓客戶能根據需求隨時隨地進行部署,常見通用的 ISA 則不需要大規模的 x86 軟體修改,便可支援日常業務。
搭載 AMD EPYC 9005 處理器的系統可支援各種計畫,從資料中心整合與現代化,到滿足日漸增加的企業應用需求等。這都要歸功於高效率的 ‘Zen 5’ 架構,這是極具吸引力的專用平台,不僅能因應企業空間內不斷增加的 AI 需求,也能支援企業改善能效與控制資料中心不當擴張的目標。
無論是效能、效率或成果,這都是無懈可擊的伺服器處理器。
型號 |
核心數 |
最高執行緒數 |
L3 快取 (MB) |
預設 TDP (W) |
DDR 通道數/系統最大記憶體容量 (2DPC) |
最高 DDR5 頻率 (MHz) (1DPC) |
PCIe® 第 5 代(通道數) |
插槽密度 |
9965 |
192 |
384 |
384 |
500 |
12/9 TB |
6000 |
160 |
2 |
9845 |
160 |
320 |
320 |
400 |
12/9 TB |
6000 |
160 |
2 |
9825 |
144 |
288 |
384 |
400 |
12/9 TB |
6000 |
160 |
2 |
9755 |
128 |
256 |
512 |
500 |
12/9 TB |
6000 |
160 |
2 |
9745 |
128 |
256 |
256 |
400 |
12/9 TB |
6000 |
160 |
2 |
9655 |
96 |
192 |
384 |
400 |
12/9 TB |
6000 |
160 |
2 |
9645 |
96 |
192 |
256 |
320 |
12/9 TB |
6000 |
160 |
2 |
9655P |
96 |
192 |
384 |
320 |
12/9 TB |
6000 |
128 |
1 |
9565 |
72 |
144 |
384 |
400 |
12/9 TB |
6000 |
160 |
2 |
9575F |
64 |
128 |
256 |
400 |
12/9 TB |
6000 |
160 |
2 |
9555 |
64 |
128 |
256 |
360 |
12/9 TB |
6000 |
160 |
2 |
9555P |
64 |
128 |
256 |
320 |
12/9 TB |
6000 |
128 |
1 |
9535 |
64 |
128 |
256 |
300 |
12/9 TB |
6000 |
160 |
2 |
9475F |
48 |
96 |
256 |
360 |
12/9 TB |
6000 |
160 |
2 |
9455 |
48 |
96 |
256 |
300 |
12/9 TB |
6000 |
160 |
2 |
9455P |
48 |
96 |
192 |
300 |
12/9 TB |
6000 |
128 |
1 |
9365 |
36 |
72 |
192 |
300 |
12/9 TB |
6000 |
160 |
2 |
9375F |
32 |
64 |
256 |
320 |
12/9 TB |
6000 |
160 |
2 |
9355 |
32 |
64 |
256 |
280 |
12/9 TB |
6000 |
160 |
2 |
9355P |
32 |
64 |
256 |
280 |
12/9 TB |
6000 |
128 |
1 |
9335 |
32 |
64 |
192 |
210 |
12/9 TB |
6000 |
160 |
2 |
9275F |
24 |
48 |
256 |
320 |
12/9 TB |
6000 |
160 |
2 |
9255 |
24 |
48 |
128 |
200 |
12/9 TB |
6000 |
160 |
2 |
9175F |
16 |
32 |
256 |
320 |
12/9 TB |
6000 |
160 |
2 |
9135 |
16 |
32 |
128 |
200 |
12/9 TB |
6000 |
160 |
2 |
9125 |
8 |
16 |
256 |
165 |
12/9 TB |
6000 |
160 |
2 |
9015 |
8 |
16 |
64 |
155 |
12/9 TB |
6000 |
160 |
2 |
效能:為客戶提供明確規劃
隨著 AI 在企業的角色越來越重要,客戶需要知道除了現有的工作負載外,他們的伺服器基礎架構還足以因應新興的 AI 需求。
相較於上一代產品,AMD EPYC™ 9575F 處理器等全新 AMD EPYC 處理器在每時脈週期指令數 (IPC) 效能方面能提供兩位數的成長,而第 5 代 AMD EPYC 處理器內專門設計的最新 "Zen 5" 核心,能大幅強化 ML、HPC 和企業工作負載。3
與競爭產品比較時,這些全新處理器可協助企業達成驚人成果,例如在各種使用案例上實現突破性的端對端 AI 輸送量效能。舉例來說,在 AMD 進行的 TPCx-AI 基準測試中,搭載 192 核心 AMD EPYC™ 9965 處理器的雙路伺服器最多可提供比搭載 64 核心 Intel Xeon Platinum 8592+ 的雙路伺服器高約 3.8 倍的每分鐘 AI 測試案例數量。4
在主控顯示卡加速器方面,運行 Llama3.1 時,相較於兩顆 Intel® Xeon® 8592+,兩顆 AMD EPYC 9575F 處理器能實現高 20% 的推論請求與快 15% 的訓練時間。5, 6
雖然效能極為亮眼,但在效率方面也毫不遜色。AMD EPYC 9005 系列處理器能提供符合能源效率的伺服器解決方案。事實上,搭載 AMD EPYC 9965 處理器的雙路伺服器能提供比搭載 Intel® Xeon® 8592+ 處理器的系統高 1.8 倍的每處理器預估整數效能。7
新一代的先進 AMD EPYC 處理器登場了,協助您改變完成工作的方式。在 AI 時代裡,您的客戶承擔不起落後的風險。請聯絡您的 AMD 代表或造訪 AMD.com 以瞭解更多資訊。
AMD Arena
透過關於 AMD Ryzen™ PRO、AMD EPYC™、AMD Instinct™ 和其他產品的訓練來增強您的 AMD 產品知識。
訂閱
取得關於 AMD 最新產品、訓練資源和「專家面對面」網路研討會的每月最新消息。

相關文章
尾註
如需 AMD EPYC 處理器的效能世界紀錄完整清單,請造訪 amd.com/worldrecords。
AMD EPYC 處理器最高提升頻率是指處理器的任何單一核心在伺服器系統的正常操作條件下可實現的最大頻率。EPYC-018
9xx5-001:根據截至 2024 年 9 月 10 日的 AMD 內部測試,在固定頻率下的幾何平均效能 (IPC) 有所提升。
- 第 5 代 EPYC 處理器企業和雲端伺服器工作負載的世代 IPC 提升為 1.170 倍(幾何平均),使用一組 36 個工作負載進行以下測試,並取其幾何平均值:SPECrate®2017_int_base 總和與所有子集的估計分數(幾何平均)、SPECrate®2017_fp_base 總和與所有子集的估計分數(幾何平均)、伺服器端 Java 多實體最大 ops/sec 分數、代表性雲端伺服器工作負載(幾何平均),以及代表性企業伺服器工作負載(幾何平均)。
「Genoa」配置(全 NPS1):EPYC 9654 BIOS TQZ1005D 12c12t (12+1 1c1t/CCD),FF 3 GHz,12x DDR5-4800 (2Rx4 64GB),32 Gbps xGMI;
「Turin」配置(全 NPS1):EPYC 9V45 BIOS RVOT1000F 12c12t ( 12+1 1c1t/CCD),FF 3 GHz,12x DDR5-6000 (2Rx4 64GB),32 Gbps xGMI
所有工作負載均使用 Ubuntu® 22.04(含 6.8.0-40-generic 內核作業系統)上的效能決定模式和效能管理員。
- 第 5 代 EPYC 處理器 ML/HPC 伺服器工作負載的世代 IPC 提升為 1.369 倍(幾何平均),使用一組 24 個工作負載,且為代表性 ML 伺服器工作負載(幾何平均)和代表性 HPC 伺服器工作負載(幾何平均)的幾何平均。
「Genoa」配置(全 NPS1)「Genoa」配置:EPYC 9654 BIOS TQZ1005D 12c12t (12+1 1c1t/CCD),FF 3 GHz,12x DDR5-4800 (2Rx4 64GB),32 Gbps xGMI;
「Turin」配置(全 NPS1): EPYC 9V45 BIOS RVOT1000F 12c12t ( 12+1 1c1t/CCD),FF 3 GHz,12x DDR5-6000 (2Rx4 64GB),32 Gbps xGMI
所有工作負載均使用 Ubuntu 22.04(含 6.8.0-40-generic 內核作業系統)上的效能決定模式和效能管理員,唯有 LAMMPS、HPCG、NAMD、OpenFOAM 和 Gromacs 使用的是 24.04(含 6.8.0-40-generic 內核)。
SPEC® 和 SPECrate® 是 Standard Performance Evaluation Corporation 的註冊商標。如需瞭解更多資訊,請參閱 spec.org。
- 9xx5-012:TPCxAI @SF30 多實體 32 核心實體尺寸輸送量結果是根據 AMD 執行多個 VM 實體的內部測試,資料截至 2024 年 9 月 5 日為止。彙總端對端 AI 輸送量測試是從 TPCx-AI 基準測試衍生而來,因此無法與已發佈的 TPCx-AI 結果相比,因為端對端 AI 輸送量測試結果不符合 TPCx-AI 規格。
雙路 AMD EPYC 9965(總計 384 核心),12 個 32 核心實體,NPS1,1.5 TB 24x64 GB DDR5-6400 (6000 MT/s),1DPC,1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu® 22.04.4 LTS,6.8.0-40-generic (tuned-adm profile throughput-performance, ulimit -l 198096812, ulimit -n 1024, ulimit -s 8192),BIOS RVOT1000C (SMT=off, Determinism=Power, Turbo Boost=Enabled)
雙路 AMD EPYC 9755(總計 256 核心),8 個 32 核心實體,NPS1,1.5 TB 24x64 GB DDR5-6400 (6000 MT/s),1DPC,1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu 22.04.4 LTS,6.8.0-40-generic (tuned-adm profile throughput-performance, ulimit -l 198096812, ulimit -n 1024, ulimit -s 8192),BIOS RVOT0090F (SMT=off, Determinism=Power, Turbo Boost=Enabled)
雙路 AMD EPYC 9654(總計 192 核心)6 個 32 核心實體,NPS1,1.5 TB 24x64GB DDR5-4800,1DPC,2 x 1.92 TB Samsung MZQL21T9HCJR-00A07 NVMe,Ubuntu 22.04.3 LTS,BIOS 1006C (SMT=off, Determinism=Power)
比較雙路 Xeon Platinum 8592+(總計 128 核心),4 個 32 核心實體,AMX 開啟,1 TB 16x64 GB DDR5-5600,1DPC,1.0 Gbps NetXtreme BCM5719 Gigabit Ethernet PCIe,3.84 TB KIOXIA KCMYXRUG3T84 NVMe,Ubuntu 22.04.4 LTS,6.5.0-35 generic (tuned-adm profile throughput-performance, ulimit -l 132065548, ulimit -n 1024, ulimit -s 8192),BIOS ESE122V (SMT=off, Determinism=Power, Turbo Boost = Enabled)
成果:
處理器 中位數 相對比例 世代比較
Turin 192 核心,12 Inst 6067.531 3.775 2.278
Turin 128 核心,8 Inst 4091.85 2.546 1.536
Genoa 96 核心,6 Inst 2663.14 1.657 1
EMR 64 核心,4 Inst 1607.417 1 NA
視系統組態、軟體版本及 BIOS 設定等因素而定,結果可能有所不同。TPC、TPC Benchmark 和 TPC-C 是 Transaction Processing Performance Council 的商標。
- 9xx5-014:Llama3.1-70B 推論輸送量結果係依據截至 2024 年 9 月 1 日的 AMD 內部測試結果。
Llama3.1-70B 組態:TensorRT-LLM 0.9.0,nvidia/cuda 12.5.0-devel-ubuntu22.04,FP8,輸入/輸出字符組態(使用案例):[BS=1024 I/O=128/128, BS=1024 I/O=128/2048, BS=96 I/O=2048/128, BS=64 I/O=2048/2048]。結果的單位為字符數/秒。
雙路 AMD EPYC 9575F(總計 128 核心)與 8x NVIDIA H100 80 GB HBM3,1.5 TB 24x64 GB DDR5-6000,1.0 Gbps 3 TB Micron_9300_MTFDHAL3T8TDP NVMe®,BIOS T20240805173113 (Determinism=Power,SR-IOV=On),Ubuntu 22.04.3 LTS,kernel=5.15.0-117-generic (mitigations=off, cpupower frequency-set -g performance, cpupower idle-set -d 2, echo 3> /proc/syss/vm/drop_caches),
雙路 Intel Xeon Platinum 8592+(總計 128 核心)與 8x NVIDIA H100 80 GB HBM3,1 TB 16x64 GB DDR5-5600,3.2TB Dell Ent NVMe® PM1735a MU,Ubuntu 22.04.3 LTS,kernel-5.15.0-118-generic,(processor.max_cstate=1, intel_idle.max_cstate=0 mitigations=off, cpupower frequency-set -g performance),BIOS 2.1,(Maximum performance, SR-IOV=On),
I/O 字符數 批次大小 EMR Turin 相對比例
128/128 1024 814.678 1101.966 1.353
128/2048 1024 2120.664 2331.776 1.1
2048/128 96 114.954 146.187 1.272
2048/2048 64 333.325 354.208 1.063
對於平均輸送量增加 1.197 倍。
視系統組態、軟體版本及 BIOS 設定等因素而定,結果可能有所不同。
- 9xx5-015:Llama3.1-8B(BF16,最大序列長度 1024)訓練測試結果根據 AMD 的內部測試,資料截至 2024 年 9 月 5 日為止。
Llama3.1-8B 組態:最大序列長度 1024,BF16,Docker: huggingface/transformers-pytorch-gpu:latest
雙路 AMD EPYC 9575F(總計 128 核心)與 8x NVIDIA H100 80 GB HBM3,1.5 TB 24x64 GB DDR5-6000,1.0 Gbps 3 TB Micron_9300_MTFDHAL3T8TDP NVMe®,BIOS T20240805173113 (Determinism=Power,SR-IOV=On),Ubuntu 22.04.3 LTS,kernel=5.15.0-117-generic (mitigations=off, cpupower frequency-set -g performance, cpupower idle-set -d 2, echo 3> /proc/syss/vm/drop_caches),
對於 31.79 個訓練樣本/秒
雙路 Intel Xeon Platinum 8592+(總計 128 核心)與 8x NVIDIA H100 80 GB HBM3,1 TB 16x64 GB DDR5-5600,3.2 TB Dell Ent NVMe® PM1735a MU,Ubuntu 22.04.3 LTS,kernel-5.15.0-118-generic,(processor.max_cstate=1, intel_idle.max_cstate=0 mitigations=off, cpupower frequency-set -g performance),BIOS 2.1, (Maximum performance, SR-IOV=On),
對於 27.74 個訓練樣本/秒
對於平均輸送量增加 1.146 倍。
視系統組態、軟體版本及 BIOS 設定等因素而定,結果可能有所不同。
- 9xx5-002a:SPECrate®2017_int_base 比較值根據內部估計的 AMD 參考平台測量結果,以及 www.spec.org 截至 2024 年 9 月 5 日為止的已公佈分數。
比較雙路 AMD EPYC 9965(2870 估計 SPECrate®2017_int_base,總計 384 核心,500 W TDP)以 6000 MT/s 運行的 1.5 TB 24x64 GB 2Rx4 PC5-6400B-R,3.84 TB NVMe,Ubuntu® 24.04 LTS Kernel 6.8.30-41-generic,AOCC v5.0.0,5.740 預估 SPECrate®2017_int_base/處理器 W)
雙路 Intel Xeon Platinum 8592+(1130 SPECrate®2017_int_base,總計 128 核心,350 W TDP)3.229 SPECrate®2017_int_base/處理器 W,http://spec.org/cpu2017/results/res2023q4/cpu2017-20231127-40064.html)
EPYC 9965 與 8592+ 的比較
- 預估效能為 2.540 倍
- 預估效能/處理器 W 為 1.778 倍
公佈的雙路 AMD EPYC 9754(1950 SPECrate®2017_int_base,總計 256 核心,360 W TDP)5.417 SPECrate®2017_int_base/處理器 W,http://spec.org/cpu2017/results/res2023q2/cpu2017-20230522-36617.html)
EPYC 9754 與 8592+ 的比較
- 效能為 1.725 倍
- 效能/處理器 W 為 1.678 倍
世代比較(EPYC 9965 與 EPYC 9754)
- 效能為 1.472 倍
- 效能/處理器 W 為 1.060 倍
SPEC®、SPEC CPU® 和 SPECrate® 是 Standard Performance Evaluation Corporation 的註冊商標。請參閱 www.spec.org 瞭解更多資訊。Intel 處理器 TDP,網址為 https://ark.intel.com/。
如需 AMD EPYC 處理器的效能世界紀錄完整清單,請造訪 amd.com/worldrecords。
AMD EPYC 處理器最高提升頻率是指處理器的任何單一核心在伺服器系統的正常操作條件下可實現的最大頻率。EPYC-018
9xx5-001:根據截至 2024 年 9 月 10 日的 AMD 內部測試,在固定頻率下的幾何平均效能 (IPC) 有所提升。
- 9xx5-012:TPCxAI @SF30 多實體 32 核心實體尺寸輸送量結果是根據 AMD 執行多個 VM 實體的內部測試,資料截至 2024 年 9 月 5 日為止。彙總端對端 AI 輸送量測試是從 TPCx-AI 基準測試衍生而來,因此無法與已發佈的 TPCx-AI 結果相比,因為端對端 AI 輸送量測試結果不符合 TPCx-AI 規格。
- 9xx5-014:Llama3.1-70B 推論輸送量結果係依據截至 2024 年 9 月 1 日的 AMD 內部測試結果。
- 9xx5-015:Llama3.1-8B(BF16,最大序列長度 1024)訓練測試結果根據 AMD 的內部測試,資料截至 2024 年 9 月 5 日為止。
- 9xx5-002a:SPECrate®2017_int_base 比較值根據內部估計的 AMD 參考平台測量結果,以及 www.spec.org 截至 2024 年 9 月 5 日為止的已公佈分數。
- 第 5 代 EPYC 處理器企業和雲端伺服器工作負載的世代 IPC 提升為 1.170 倍(幾何平均),使用一組 36 個工作負載進行以下測試,並取其幾何平均值:SPECrate®2017_int_base 總和與所有子集的估計分數(幾何平均)、SPECrate®2017_fp_base 總和與所有子集的估計分數(幾何平均)、伺服器端 Java 多實體最大 ops/sec 分數、代表性雲端伺服器工作負載(幾何平均),以及代表性企業伺服器工作負載(幾何平均)。
「Genoa」配置(全 NPS1):EPYC 9654 BIOS TQZ1005D 12c12t (12+1 1c1t/CCD),FF 3 GHz,12x DDR5-4800 (2Rx4 64GB),32 Gbps xGMI;
「Turin」配置(全 NPS1):EPYC 9V45 BIOS RVOT1000F 12c12t ( 12+1 1c1t/CCD),FF 3 GHz,12x DDR5-6000 (2Rx4 64GB),32 Gbps xGMI
所有工作負載均使用 Ubuntu® 22.04(含 6.8.0-40-generic 內核作業系統)上的效能決定模式和效能管理員。
- 第 5 代 EPYC 處理器 ML/HPC 伺服器工作負載的世代 IPC 提升為 1.369 倍(幾何平均),使用一組 24 個工作負載,且為代表性 ML 伺服器工作負載(幾何平均)和代表性 HPC 伺服器工作負載(幾何平均)的幾何平均。
「Genoa」配置(全 NPS1)「Genoa」配置:EPYC 9654 BIOS TQZ1005D 12c12t (12+1 1c1t/CCD),FF 3 GHz,12x DDR5-4800 (2Rx4 64GB),32 Gbps xGMI;
「Turin」配置(全 NPS1): EPYC 9V45 BIOS RVOT1000F 12c12t ( 12+1 1c1t/CCD),FF 3 GHz,12x DDR5-6000 (2Rx4 64GB),32 Gbps xGMI
所有工作負載均使用 Ubuntu 22.04(含 6.8.0-40-generic 內核作業系統)上的效能決定模式和效能管理員,唯有 LAMMPS、HPCG、NAMD、OpenFOAM 和 Gromacs 使用的是 24.04(含 6.8.0-40-generic 內核)。
SPEC® 和 SPECrate® 是 Standard Performance Evaluation Corporation 的註冊商標。如需瞭解更多資訊,請參閱 spec.org。
雙路 AMD EPYC 9965(總計 384 核心),12 個 32 核心實體,NPS1,1.5 TB 24x64 GB DDR5-6400 (6000 MT/s),1DPC,1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu® 22.04.4 LTS,6.8.0-40-generic (tuned-adm profile throughput-performance, ulimit -l 198096812, ulimit -n 1024, ulimit -s 8192),BIOS RVOT1000C (SMT=off, Determinism=Power, Turbo Boost=Enabled)
雙路 AMD EPYC 9755(總計 256 核心),8 個 32 核心實體,NPS1,1.5 TB 24x64 GB DDR5-6400 (6000 MT/s),1DPC,1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu 22.04.4 LTS,6.8.0-40-generic (tuned-adm profile throughput-performance, ulimit -l 198096812, ulimit -n 1024, ulimit -s 8192),BIOS RVOT0090F (SMT=off, Determinism=Power, Turbo Boost=Enabled)
雙路 AMD EPYC 9654(總計 192 核心)6 個 32 核心實體,NPS1,1.5 TB 24x64GB DDR5-4800,1DPC,2 x 1.92 TB Samsung MZQL21T9HCJR-00A07 NVMe,Ubuntu 22.04.3 LTS,BIOS 1006C (SMT=off, Determinism=Power)
比較雙路 Xeon Platinum 8592+(總計 128 核心),4 個 32 核心實體,AMX 開啟,1 TB 16x64 GB DDR5-5600,1DPC,1.0 Gbps NetXtreme BCM5719 Gigabit Ethernet PCIe,3.84 TB KIOXIA KCMYXRUG3T84 NVMe,Ubuntu 22.04.4 LTS,6.5.0-35 generic (tuned-adm profile throughput-performance, ulimit -l 132065548, ulimit -n 1024, ulimit -s 8192),BIOS ESE122V (SMT=off, Determinism=Power, Turbo Boost = Enabled)
成果:
處理器 中位數 相對比例 世代比較
Turin 192 核心,12 Inst 6067.531 3.775 2.278
Turin 128 核心,8 Inst 4091.85 2.546 1.536
Genoa 96 核心,6 Inst 2663.14 1.657 1
EMR 64 核心,4 Inst 1607.417 1 NA
視系統組態、軟體版本及 BIOS 設定等因素而定,結果可能有所不同。TPC、TPC Benchmark 和 TPC-C 是 Transaction Processing Performance Council 的商標。
Llama3.1-70B 組態:TensorRT-LLM 0.9.0,nvidia/cuda 12.5.0-devel-ubuntu22.04,FP8,輸入/輸出字符組態(使用案例):[BS=1024 I/O=128/128, BS=1024 I/O=128/2048, BS=96 I/O=2048/128, BS=64 I/O=2048/2048]。結果的單位為字符數/秒。
雙路 AMD EPYC 9575F(總計 128 核心)與 8x NVIDIA H100 80 GB HBM3,1.5 TB 24x64 GB DDR5-6000,1.0 Gbps 3 TB Micron_9300_MTFDHAL3T8TDP NVMe®,BIOS T20240805173113 (Determinism=Power,SR-IOV=On),Ubuntu 22.04.3 LTS,kernel=5.15.0-117-generic (mitigations=off, cpupower frequency-set -g performance, cpupower idle-set -d 2, echo 3> /proc/syss/vm/drop_caches),
雙路 Intel Xeon Platinum 8592+(總計 128 核心)與 8x NVIDIA H100 80 GB HBM3,1 TB 16x64 GB DDR5-5600,3.2TB Dell Ent NVMe® PM1735a MU,Ubuntu 22.04.3 LTS,kernel-5.15.0-118-generic,(processor.max_cstate=1, intel_idle.max_cstate=0 mitigations=off, cpupower frequency-set -g performance),BIOS 2.1,(Maximum performance, SR-IOV=On),
I/O 字符數 批次大小 EMR Turin 相對比例
128/128 1024 814.678 1101.966 1.353
128/2048 1024 2120.664 2331.776 1.1
2048/128 96 114.954 146.187 1.272
2048/2048 64 333.325 354.208 1.063
對於平均輸送量增加 1.197 倍。
視系統組態、軟體版本及 BIOS 設定等因素而定,結果可能有所不同。
Llama3.1-8B 組態:最大序列長度 1024,BF16,Docker: huggingface/transformers-pytorch-gpu:latest
雙路 AMD EPYC 9575F(總計 128 核心)與 8x NVIDIA H100 80 GB HBM3,1.5 TB 24x64 GB DDR5-6000,1.0 Gbps 3 TB Micron_9300_MTFDHAL3T8TDP NVMe®,BIOS T20240805173113 (Determinism=Power,SR-IOV=On),Ubuntu 22.04.3 LTS,kernel=5.15.0-117-generic (mitigations=off, cpupower frequency-set -g performance, cpupower idle-set -d 2, echo 3> /proc/syss/vm/drop_caches),
對於 31.79 個訓練樣本/秒
雙路 Intel Xeon Platinum 8592+(總計 128 核心)與 8x NVIDIA H100 80 GB HBM3,1 TB 16x64 GB DDR5-5600,3.2 TB Dell Ent NVMe® PM1735a MU,Ubuntu 22.04.3 LTS,kernel-5.15.0-118-generic,(processor.max_cstate=1, intel_idle.max_cstate=0 mitigations=off, cpupower frequency-set -g performance),BIOS 2.1, (Maximum performance, SR-IOV=On),
對於 27.74 個訓練樣本/秒
對於平均輸送量增加 1.146 倍。
視系統組態、軟體版本及 BIOS 設定等因素而定,結果可能有所不同。
比較雙路 AMD EPYC 9965(2870 估計 SPECrate®2017_int_base,總計 384 核心,500 W TDP)以 6000 MT/s 運行的 1.5 TB 24x64 GB 2Rx4 PC5-6400B-R,3.84 TB NVMe,Ubuntu® 24.04 LTS Kernel 6.8.30-41-generic,AOCC v5.0.0,5.740 預估 SPECrate®2017_int_base/處理器 W)
雙路 Intel Xeon Platinum 8592+(1130 SPECrate®2017_int_base,總計 128 核心,350 W TDP)3.229 SPECrate®2017_int_base/處理器 W,http://spec.org/cpu2017/results/res2023q4/cpu2017-20231127-40064.html)
EPYC 9965 與 8592+ 的比較
- 預估效能為 2.540 倍
- 預估效能/處理器 W 為 1.778 倍
公佈的雙路 AMD EPYC 9754(1950 SPECrate®2017_int_base,總計 256 核心,360 W TDP)5.417 SPECrate®2017_int_base/處理器 W,http://spec.org/cpu2017/results/res2023q2/cpu2017-20230522-36617.html)
EPYC 9754 與 8592+ 的比較
- 效能為 1.725 倍
- 效能/處理器 W 為 1.678 倍
世代比較(EPYC 9965 與 EPYC 9754)
- 效能為 1.472 倍
- 效能/處理器 W 為 1.060 倍
SPEC®、SPEC CPU® 和 SPECrate® 是 Standard Performance Evaluation Corporation 的註冊商標。請參閱 www.spec.org 瞭解更多資訊。Intel 處理器 TDP,網址為 https://ark.intel.com/。