
— 最新的加速器提供領先市場的HBM3E記憶體容量,並獲得戴爾科技集團、HPE、聯想、Supermicro等合作夥伴和客戶的支援 —
— AMD Pensando Salina DPU較上一代產品提供2倍的效能提升,AMD Pensando Pollara 400為業界首款UEC就緒NIC —
台北,2024年10月11日 -- AMD(NASDAQ: AMD)宣布推出AMD Instinct™ MI325X加速器、AMD Pensando™ Pollara 400 NIC以及AMD Pensando Salina DPU等最新加速器和網路解決方案,將為新一代人工智慧(AI)基礎設施提供大規模支援。AMD Instinct MI325X加速器為生成式AI模型及資料中心設立全新效能標準。
AMD Instinct MI325X加速器基於AMD CDNA™ 3架構,旨在為基礎模型訓練、微調和推論等要求嚴苛的AI任務提供卓越的效能和效率。全新產品將協助AMD客戶和合作夥伴在系統、機架和資料中心層級打造高效能和最佳化的AI解決方案。
AMD執行副總裁暨資料中心解決方案事業群總經理Forrest Norrod表示,AMD持續執行我們的產品藍圖,為客戶提供所需的效能和選擇,以更快的速度將AI基礎設施大規模推向市場。憑藉全新AMD Instinct加速器、EPYC處理器和AMD Pensando網路引擎、開放軟體產業體系的持續成長,以及將這一切整合至最佳化AI基礎設施中的能力,AMD展現建置和部署世界級AI解決方案的關鍵專業知識與能力。
AMD Instinct MI325X擴展AI效能的領先優勢
AMD Instinct MI325X加速器提供領先業界的記憶體容量及頻寬,包括256GB HBM3E記憶體容量支援6.0TB/s,提供比H200高1.8倍的容量和1.3倍的頻寬註1,以及1.3倍的FP16理論峰值和FP8運算效能註1。
AMD Instinct MI325X加速器的記憶體和運算能力可較H200提供高達1.3倍的Mistral 7B FP16推論效能註2、1.2倍的Llama 3.1 70B FP8推論效能註3,以及1.4倍的Mixtral 8x7B FP16推論效能註4。
AMD Instinct MI325X加速器目前如期在2024年第4季量產出貨,預計將於2025年第1季起,由戴爾科技集團、Eviden、技嘉、HPE、聯想、美超微(Supermicro)等平台供應商廣泛提供。
AMD持續履行年度產品藍圖的節奏,預覽了下一代AMD Instinct MI350系列加速器。相對於AMD CDNA 3架構的加速器,基於AMD CDNA 4架構的AMD Instinct MI350系列加速器將帶來35倍推論效能提升註5。
AMD Instinct MI350系列將持續鞏固記憶體容量的領先地位,每加速器容量高達288GB HBM3E記憶體,將如期於2025年下半年推出。
AMD新一代AI網路解決方案
AMD正在運用超大規模供應商(hyperscalers)部署最廣泛的可程式化DPU來為新一代AI網路提供動能。AI網路分為兩部分:前端(向AI叢集提供資料和資訊)和後端(管理加速器和叢集之間的資料傳輸),對於確保CPU和加速器在AI基礎設施中高效利用至關重要。
為了有效管理這兩個網路並推動整個系統的高效能、可擴展性和效率,AMD推出用於前端的AMD Pensando™ Salina DPU和用於後端、業界首款UEC就緒的AMD Pensando™ Pollara 400 AI NIC。
AMD Pensando Salina DPU是全球效能最強大可程式化DPU的第3代產品,與前一代DPU相比,效能、頻寬和規模提升高達2倍。AMD Pensando Salina DPU支援400G吞吐量以實現快速資料傳輸速率,是AI前端網路叢集的關鍵元件,為資料驅動的AI應用帶來最佳化的效能、效率、安全性和可擴展性。
UEC就緒的AMD Pensando Pollara 400由AMD P4可程式化引擎提供動能,是業界首款UEC就緒的AI NIC,支援新一代RDMA軟體,並由開放的網路產業體系提供支援。AMD Pensando Pollara 400對於在後端網路中提供領先的效能、可擴展性和加速器間通訊的效率至關重要。
AMD Pensando Salina DPU和AMD Pensando Pollara 400於2024年第4季送樣,並將如期在2025年上半年推出。
AMD AI軟體為生成式AI提供全新功能
AMD持續推進軟體功能和開放產業體系的發展,在AMD ROCm™開放軟體堆疊中提供強大的全新特性和功能。
在開放軟體社群中,AMD正推動PyTorch、Triton、Hugging Face等最為廣泛採用的AI框架、函式庫和模型對AMD運算引擎的支援。這項工作為AMD Instinct加速器提供了即時效能與支援,適用於Stable Diffusion 3、Meta Llama 3、3.1和3.2等熱門的生成式AI模型,以及Hugging Face超過100萬個模型。
除了社群之外,AMD持續推進其ROCm開放軟體堆疊,帶來支援生成式AI工作負載訓練和推論的最新功能。ROCm 6.2現在對FP8資料類型、Flash Attention 3、Kernel Fusion等關鍵AI功能提供支援。憑藉這些新增功能,ROCm 6.2較ROCm 6.0提供高達2.4倍的推論效能提升註6以及1.8倍的大型語言模型(LLM)訓練效能提升註7。
相關資源
- 觀看AMD Advancing AI主題演講
- 更多關於:AMD新一代AI網路解決方案
- 更多關於:AMD Instinct加速器
- X:於@AMD追蹤AMD新訊
- LinkedIn:於AMD LinkedIn追蹤AMD新訊
關於AMD
50多年來,AMD(NASDAQ:AMD)推動創新高效能運算、繪圖及視覺技術。全球數十億的消費者、世界500強企業以及尖端科學研究機構皆仰賴AMD的技術來改善生活、工作及娛樂。AMD員工致力於研發領先的高效能與自行調適產品,不斷突破技術的極限。欲瞭解AMD如何成就今天,啟發未來,請瀏覽AMD網站、部落格、LinkedIn及X。
©2024年,AMD公司版權所有。AMD、AMD箭頭、AMD CDNA、AMD Instinct、Pensando、ROCm及上述名稱的組合是AMD公司的商標。其他產品名稱只為提供資訊為目的,也可能是各自所有者的商標。
免責聲明
本新聞稿包含有關Advanced Micro Devices, Inc(AMD)的前瞻性陳述,包括AMD Instinct™ MI325X加速器;AMD Pensando™ Salina DPU;AMD Pensando Pollara 400;AMD開放軟體產業體系的持續成長;AMD Instinct MI350系列加速器等AMD產品的特色、功能、效能、上市時間、時程以及預期收益。這些陳述皆基於1995年《私人證券訴訟改革法案》(U.S. Private Securities Litigation Reform Act)的「安全港」(Safe Harbor)條款所訂定出。這些前瞻性聲明含有像「將會」、「可能」、「預期」、「相信」、「計劃」、「打算」、「估計」,或這些字詞和短語的其它類似詞彙。投資者應注意本資料中的前瞻性陳述僅根據本文公布當時的見解、假設以及預期,僅反映本文發布時的情況,且涉及到許多風險與不確定因素,可能會導致實際結果與預期存在重大差異。這類陳述受到特定已知與未知風險與不確定因素所影響,其中許多因素難以預測且大多非AMD所能掌控,並可能響應實際結果與其他未來事件和文中陳述有所出入,或是和前瞻性陳述資訊與陳述的暗示或預期狀況有所不同。可能導致實際結果和當前預期有所出入的實質因素包括但不限於:包括Intel公司佔據微處理器市場,及其侵略性經營手段;Nvidia公司佔據繪圖處理器市場,及其侵略性經營手段;半導體產業的周期性;AMD產品銷售行業的市場狀況;失去重要客戶;經濟局勢不確定性;AMD產品鎖定的市場競爭極為競爭;季度和季節性銷售模式;AMD充分保護其技術或其他知識產權的能力;不利的貨幣匯率波動;第三方廠商能及時製造足夠數量AMD的產品、或使用競爭對手的技術;基本設備、材料、載板或製造過程的可用性;達到AMD產品預期製造良率的能力;AMD能及時推出具有預期功能與效能水準的產品;AMD的半客製化SoC產品產生營收的能力;潛在的安全漏洞;潛在的安全事件,包括IT中斷、數據丟失、數據洩露和網路攻擊;有關AMD產品訂購和發貨的不確定性;AMD依賴第三方廠商知識產權來及時設計和推出新產品;AMD依賴第三方廠商來設計、製造和供應主機板、軟體、記憶體和其他電腦平台零組件;AMD依賴Microsoft和其他軟體供應商的支持來設計和開發可在AMD產品上運行的軟體;AMD依賴第三方分銷商和外接合作夥伴;修改或中斷AMD內部業務流程和資訊系統的影響;AMD產品與部分或全部行業標準軟體和硬體的兼容性;缺陷產品所產生的有關費用;AMD供應鏈的效率;AMD依靠第三方供應鏈物流功能的能力;AMD有效控制其產品在灰色市場上銷售的能力;氣候變遷對AMD業務的長期影響;政府行動和法規的影響,例如出口法規,關稅和貿易保護措施;AMD實現遞延所得稅資產的能力;潛在的稅收負債;當前和將來的索賠和訴訟;環境法律,與衝突礦物有關的規定以及其他法律或法規的影響;政府、投資者、客戶和其他利益關係人對企業責任事務不斷變化的期望;與負責任地使用AI相關的問題;;管理AMD票據的協議、賽靈思票據的保證和循環信貸協議;併購、合資與/或投資可能對業務產生的影響,以及整合收購事業的能力;合併公司資產之任何損耗可能產生的影響;政治,法律,經濟風險和自然災害;技術許可購買的未來減損;AMD吸引和留住人才的能力;AMD的股價波動。呼籲投資者詳閱公司呈交美國證管會各項財報中提及的風險與不確定因素,其中包括但不限於AMD最近的Form 10-K和10-Q報告。
註1:MI325-002:截至2024年5月28日,AMD效能實驗室對AMD Instinct™ MI325X GPU進行的測試結果為1307.4 TFLOPS理論峰值半精度(FP16)、1307.4 TFLOPS理論峰值BF16、2614.9 TFLOPs理論峰值FP8、2614.9 TOPS INT8浮點效能。實際效能根據最終規格和系統配置而有所不同。
在Nvidia H200 SXM (141GB) GPU上發布的結果:989.4 TFLOPS理論峰值半精度Tensor(FP16 Tensor)、989.4 TFLOPS理論峰值BF16 Tensor、1,978.9 TFLOP理論峰值FP8、1,978.9 TOPs理論峰值INT8浮點效能。Nvidia使用稀疏性發布BFLOAT16 Tensor Core、FP16 Tensor Core、FP8 Tensor Core和INT8 Tensor Core效能。為進行比較,AMD透過除以2將這些數字轉換為非稀疏性/密集。
Nvidia H200來源:https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446以及 https://www.anandtech.com/show/21136/nvidia-at-sc23-h200-accelerator-with-hbm3e-and-jupiter-supercomputer-for-2024。請注意:Nvidia H200 GPU 具有與H100產品相同的FLOP效能https://resources.nvidia.com/en-us- tensor-core/。
註2:MI325-005:基於AMD效能實驗室於2024年9月28日完成的測試,該測試使用FP16資料類型測量Mistral-7B模型的總延遲。使用128個token的輸入長度和 128個token的輸出長度對AMD Instinct™ MI325X GPU加速器和NVIDIA H200 SXM GPU加速器的以下配置進行測試。
1x MI325X在1000瓦的vLLM效能:0.637秒延遲(以秒為單位)對比1x H200在700瓦及TensorRT-LLM:0.811秒延遲(以秒為單位)。
配置:
AMD Instinct™ MI325X參考平台:
1x AMD Ryzen™ 9 7950X 16核心處理器、1x AMD Instinct MI325X (256GiB, 1000瓦) GPU、Ubuntu® 22.04、and ROCm™ 6.3 pre-release;對比
NVIDIA H200 HGX平台:
美超微(Supermicro)SuperServer搭載2x Intel Xeon® Platinum 8468處理器、8x Nvidia H200 (140GB, 700瓦) GPU [測試中只適用1 GPU]、Ubuntu 22.04、CUDA 12.6。伺服器製造商可能會改變配置,產生不同的結果。效能可能會因使用最新驅動程式和最佳化而有所不同。
註3:MI325-006:基於AMD效能實驗室於2024年9月28日完成的測試,該測試使用FP8資料類型測量LLaMA 3.1-70B模型的總體延遲。使用2048個token的輸入長度和2048個token的輸出長度對AMD Instinct™ MI325X GPU加速器和NVIDIA H200 SXM GPU加速器的以下配置進行測試。
1x MI325X在1000瓦的vLLM效能:48.025秒延遲(以秒為單位)對比1x H200在700瓦及TensorRT-LLM:62.688秒延遲(以秒為單位)。
配置:
AMD Instinct™ MI325X參考平台:
1x AMD Ryzen™ 9 7950X 16核心處理器、1x AMD Instinct MI325X (256GiB, 1000瓦) GPU、Ubuntu® 22.04、and ROCm™ 6.3 pre-release;對比
NVIDIA H200 HGX平台:
美超微(Supermicro)SuperServer搭載2x Intel Xeon® Platinum 8468處理器、8x Nvidia H200 (140GB, 700瓦) GPU、Ubuntu 22.04、CUDA 12.6。
伺服器製造商可能會改變配置,產生不同的結果。效能可能會因使用最新驅動程式和最佳化而有所不同。
註4: MI325-004:基於AMD效能實驗室於2024年9月28日完成的測試,使用FP16資料類型測量Mixtral-8x7B模型的文字產生吞吐量。使用128個token的輸入長度和4096個token的輸出長度對AMD Instinct™ MI325X GPU加速器和NVIDIA H200 SXM GPU加速器的以下配置進行測試。
1x MI325X在1000瓦的vLLM效能:每秒4598輸出token對比1x H200在700瓦及TensorRT-LLM:每秒2700.7輸出token。
配置:
AMD Instinct™ MI325X參考平台:
1x AMD Ryzen™ 9 7950X處理器、1x AMD Instinct MI325X (256GiB, 1000瓦) GPU、Ubuntu® 22.04、and ROCm™ 6.3 pre-release;對比
NVIDIA H200 HGX平台:
美超微(Supermicro)SuperServer搭載2x Intel Xeon® Platinum 8468處理器、8x Nvidia H200 (140GB, 700瓦) GPU [測試中只適用1 GPU]、Ubuntu 22.04、CUDA® 12.6。
伺服器製造商可能會改變配置,產生不同的結果。效能可能會因使用最新驅動程式和最佳化而有所不同。
註5:CDNA4-03:截至2024年5月31日的推論效能預測,使用基於未來AMD CDNA 4架構的Instinct MI350系列加速器的設計工程估算作為預計AMD CDNA™ 4效能。評估1.8T GPT MoE模型時假設token-to-token延遲= 70毫秒實時,第一個token延遲=5秒,輸入序列長度=8k,輸出序列長度=256,假設4x8模式MI350系列(CDNA 4)與8x MI300X每GPU效能比較。實際效能將根據多種因素而有所不同,包括但不限於生產晶片的最終規格、系統配置以及所使用的推論模型和尺寸。
註6:MI300-62:由AMD效能實驗室截至2024年9月29日進行的測試,在配備8個AMD Instinct™ MI300X GPU並搭配Llama 3.1-8B、Llama 3.1-70B、 Mixtral-8x7B、Mixtral-8x22B Qwen 72B模型。
採用vLLM 0.5.5的ROCm 6.2效能與採用vLLM 0.3.3的ROCm 6.0效能進行比較,並在1至256的批次大小和128至2048的序列長度上進行測試。
配置:
1P AMD EPYC™ 9534 CPU伺服器,配備8個AMD Instinct™ MI300X (192GB,750瓦)GPU、Supermicro AS-8125GS-TNMR2、NPS1(每插槽1個NUMA)、1.5 TiB 24 DIMMs、4800 mts記憶體、64 GiB/DIMM、4x 3.49TB美光7450儲存、BIOS版本1.8、ROCm 6.2.0-00、vLLM 0.5.5、PyTorch 2.4.0、Ubuntu® 22.04 LTS以及Linux Kernel 5.15.0-119-generic。
對比
1P AMD EPYC 9534 CPU伺服器,配備8個AMD Instinct™ MI300X (192GB,750瓦)GPU、Supermicro AS-8125GS-TNMR2、NPS1(每插槽1個NUMA)、1.5TiB 24 DIMMs、4800 mts記憶體、64 GiB/DIMM、4x 3.49TB美光7450儲存、BIOS版本1.8、ROCm 6.0.0-00、vLLM 0.3.3、PyTorch 2.1.1、Ubuntu 22.04 LTS以及Linux Kernel 5.15.0-119-generic。
伺服器製造商可能會改變配置,從而產生不同的結果。效能可能會因各種因素而有所不同,包括但不限於不同版本的配置、vLLM和驅動程式。
註7:MI300-61:AMD AI產品管理團隊在AMD Instinct™ MI300X GPU上進行的測量,用於比較LLM效能與截至2024年9月28日在Llama 3.1-70B和Llama 3.1-405B和vLLM 0.5.5上啟用與關閉最佳化方法的差異。
系統配置:
AMD EPYC 9654 96核心處理器、8個AMD MI300X、ROCm™ 6.1、Linux® 7ee7e017abe3 5.15.0-116-generic #126-Ubuntu® SMP Mon Jul 1 10:14:24 UTC 2024 x86_64 x86_64 x86_64 GNU/Linux,頻率提升:啟用。
效能可能因各因素而異,包括但不限於不同版本的配置、vLLM和驅動程式。
新聞聯絡人:
美商超微半導體
高惠如 Robyn Kao
Tel:2655-8885 EXT.23352
Email: Robyn.Kao@amd.com
世紀奧美公關
黎淑玲 Jannie Lai / 何文仁 Alicia Ho
Tel:7743-9139 / 7743-9135
Email: JannieSL.Lai@eraogilvy.com
AliciaWJ.Ho@eraogilvy.com
媒體庫
搜尋並下載最新的 AMD 公司和產品標誌、影像和幕後花絮