大規模加速 AI 效能
透過高達 400 Gbps 的顯示卡對等通訊速度,AMD Pensando™ Pollara 400 AI NIC 的 AI 工作完成時間最多可比競品快 8%,有助於為生成式 AI 工作負載縮短 AI 訓練和投產準備時間。
透過增強的可靠性、可用性和檢修性 (RAS),協助將有效叢集運作時間最多延長約 50%。AMD Pensando™ Pollara 400 AI NIC 可加速壅塞情況下的匯流與丟包復原,有助於減少中段,維繫大規模 AI 工作負載持續運作。
AMD Pensando™ Pollara 400 AI NIC 是專為滿足現今與未來 AI 工作負載需求所設計,可實現開放式多平面乙太網路架構,能將網路資本支出降低最多 58%,同時提供隨著 AI 基礎架構演變進行擴充的彈性。
提升營運卓越性
AMD Pensando™ Pollara 400 AI NIC 採用完全可程式化的硬體與軟體設計,可將停機時間降至最低、驗證叢集健全狀況、提供進階遙測,並使 AI 基礎架構能夠以更快的時間完成投產準備。
AMD Pensando™ Pollara 400 AI NIC 專題文章
業界首創支援超級乙太網路聯盟 (UEC) 功能的 AI NIC
AMD Pensando™ Pollara 400 AI NIC 將 UEC 傳輸功能整合至乙太網路,讓 UEC RDMA 能為 AI 工作負載提供更一致的效能。AI NIC 具備完全可程式化的 P4 引擎,可透過軟體支援 UEC 功能的沿用與改進,讓網路能隨著新興標準演進,無須更換硬體。
為 AI 工作負載增強網路效能
乙太網路 AI 集體通訊效能的競爭力領先地位
當兩個案例都在標準乙太網路中採用 RoCEv2 協定時,執行 ROCm™ 軟體之 AMD Pensando™ Pollara 400 AI NIC,其 AI 集體通訊效能比執行 RCCL 的 NVIDIA 產品高最多 10%4。
AMD Pensando™ Pollara 400 AI NIC
NVIDIA 400G RDMA NIC
AMD AI NIC 上支援 UEC 標準的 RDMA:AI 集體通訊效能大幅提升
AMD Pensando™ Pollara 400 AI NIC 採用支援 UEC 標準的 RDMA,集體通訊作業效能比 RoCEv2 最多高 25%5。
AMD Pensando™ Pollara 400 AI NIC UEC-RDMA - 支援 UEC 標準的 RDMA
AMD Pensando™ Pollara 400 AI NIC UEC-RDMA - RoCEv2
功能
智慧型網路監測與負載平衡
- 智慧封包噴灑
- 暫停服務封包處理和依序訊息遞送
- 選擇性重新傳輸
- 路徑感知壅塞控制
- 快速故障偵測
智慧封包噴灑
智慧封包噴灑可以強化負載平衡,增強整體效率與擴充性,讓團隊流暢地最佳化網路效能。網路效能改善後,可大幅縮短顯示卡對等通訊時間,進而加速完成工作並提升營運效率。
暫停服務封包處理和依序訊息遞送
協助確保訊息即使在採用多路徑和封包噴灑技術時,也能依正確順序遞送。進階的暫停服務訊息遞送功能可以高效率處理不符順序送達的資料封包,將資料流暢置入顯示卡記憶體而無需緩衝處理。
選擇性重新傳輸
用選擇性確認 (SACK) 重新傳輸來提升網路效能,協助確保僅有被捨棄或已損毀的封包會重新傳輸。SACK 能有效率地偵測並重新傳送遺失或受損的封包,進而最佳化頻寬使用率,幫助降低丟包復原的延遲,並且將贅餘的資料傳輸減至最少以獲卓越效率。
路徑感知壅塞控制
運用即時遙測和網路感知演算法,把精神放在工作負載上,而非網路監測。路徑感知壅塞控制功能可簡化網路效能管理,讓團隊快速偵測並解決重大問題,同時協助緩解聚歛壅塞 (incast) 的影響。
快速故障偵測
藉由快速偵測錯誤,團隊能在幾毫秒內精準找出問題,實現幾近即時的容錯移轉復原,並協助大幅縮短顯示卡停機時間。利用近乎即時的延遲指標、壅塞和封包捨棄統計資料,提升網路可觀察性。
AMD Pensando™ Pollara 400 AI NIC 規格
| 最大頻寬 | 外型規格 | 乙太網路介面 | 乙太網路速度 | 乙太網路組態 | 管理 |
| 高達 400 Gbps | 半高、半長 | PCIe® Gen5.0x16;OCP® 3.0 | 25/50/100/200/400 Gbps | 最多支援 4 個連接埠 |
MCTP 經由 SMBus |
合作夥伴生態系統解決方案
AMD 與領先業界的原始設備製造商 (OEM) 和原始設計製造商 (ODM) 合作,打造採用 AMD 網路技術的的全方位解決方案生態系統。歡迎探索我們合作夥伴為了加速創新並提升效能所打造出的各式各樣系列產品。
支援 AMD Pensando™ Pollara 400 AI NIC 的伺服器平台
資源
開啟 AI 網路的未來
瞭解 AMD Pensando Pollara 400 AI NIC 如何能轉型您的橫向擴充 AI 基礎架構。
探索專為高效能現代資料中心所設計的全套 AMD 網路解決方案。
尾註
- PEN-020:截至 [2025 年 9 月 15 日] 為止,AMD 效能實驗室針對 AMD Pensando Pollara AI NIC 執行的測試(執行 Llama 3.1-405B,64 全域批次大小 (GBS),8K 序列長度);所使用之測試系統的配置與組態如下:用於顯示卡對等通訊的 8 節點 SMC-300X 伺服器,搭載 2 個 AMD Pensando Pollara AI NIC 或 2 個 Nvidia CX-7、雙路 AMD EPYC 9454 48 核心雙路處理器、8 個 AMD Instinct MI300X 顯示卡、Ubuntu 22.04.5 LTS、內核 5.15.0-139-generic,並使用 ROCm 6.4.1.0-83-69b59e5
以下作業屬於閘道功能
配置:Num layers=4、Data Type=BF16、DCN - TP=1、PP=1、SP=1、DP=1、FSDP=-1、ICI - TP=1、PP=1、SP=1、DP=1、FSDP=8。
AINIC 容器:jax-private:rocm6.4.0-jax0.5.0-py3.10.12-tedev2.1-20250801_training。結果可能會因各種因素而有不同,包括但不限於系統組態與軟體設定。
- PEN-019:截至 [2025 年 9 月 15 日] 為止,AMD 效能實驗室針對 AMD Pensando Pollara AI NIC 執行的測試;所使用之測試系統的配置與組態如下:用於顯示卡對等通訊的 SMC-300X 伺服器:2 個 AMD Pensando Pollara AI NIC、雙路 AMD EPYC 9454 48 核心雙路處理器、8 個 AMD Instinct MI300X 顯示卡、Ubuntu 22.04.5 LTS、內核 5.15.0-139-generic、ROCm 6.4.1.0-83-69b59e5。 本測試執行的是 Llama-3.1-8B,模型組態:SEQ_LEN=2048、TP=1、PP=1、CP=1、FP8=1、MBS=10、GBS=5120。Iteration=2,No. of paths/QP:128。結果可能會因各種因素而有不同,包括但不限於系統組態與軟體設定。
- PEN-018:截至 2025 年 7 月 6 日為止,AMD 針對網路網狀架構成本所進行的比較與定價,以支援 128,000 個顯示卡為標準。比較 800G Tomahawk 5 型多平面設計上採用多平面網狀架構與封包濺散處理的 Pollara NIC,與以完全排程、大型緩衝區 (Jericho3/Ramon3) 800G 交換平台為基礎的一般 Fat-Tree 網狀架構。AMD 假設一般系統使用的是競品 NIC,且認為 NIC 成本相近。以 Pollara 為基礎的設計預估可透過在多平面架構中支援更具成本效益的 Tomahawk 5 型交換機制,節省高達 58% 的網路交換成本。截至 2025 年 4 月 23 日為止,AMD 進行的比較與定價,比較搭載具備專屬多平面網狀架構與封包濺散處理功能之 Pensando Pollara NIC 的 Tomahawk 5 系統,與一般大型緩衝區 800G 交換平台;AMD 假設一般系統採用的是競品 NIC,且 NIC 成本假相近。部署具備多網狀架構支援與封包濺散處理功能的 Pollara,讓客戶能夠建置符合成本效益的多平面網狀架構而非 Fat-Tree 設計,前者可使用更少網路交換器在整個網狀架構中提供相同的網路頻寬,大幅降低交換器平台成本,以及與纜線和光學元件相關的成本。
- PEN-015 - 截至 [2025 年 5 月 13 日] 為止,AMD 效能實驗室針對 [Pollara AI NIC 與 Nvidia CX7 NIC] 執行的測試;所使用之測試系統的配置與組態如下:8 個 8xMI300X AMD 顯示卡節點(64 個顯示卡);Broadcom Tomahawk-5 型分葉交換器 (64x800G),型號 Dell z9864f-r0;RAIL 拓撲架構;AMD AI NIC Pollara – 64 個 NIC,ROCm™ 版本 6.3.2.0-66-cbc70b5,或 Nvidia CX7 SmartNIC - 64 個 NIC,RCCL 版本 2.24.3-develop:7961624;8 個節點中各節點的處理器型號 - 雙插槽 AMD EPYC 9454 48 核心處理器;作業系統 Ubuntu® 22.04.5 LTS;內核 5.15.0-139-generic。
所有應用程式軟體程式庫(RCCL 與 ROCm)及測試環境完全相同,唯有專屬於特定硬體的低階驅動程式除外。
Nvidia CX7 網路介面卡的驅動程式是透過 NVIDIA 網站上公開提供的 Linux 驅動程式安裝方法連結進行安裝
https://docs.nvidia.com/networking/display/connectx7vpi/linux+driver+installation
至於 AMD Pensando Pollara NIC
驅動程式是採用內部建置版本,這些驅動程式預計於未來幾個月公開提供。
本測試測量了下列集體通訊作業
Allreduce、Allroall、Alltoallv、Broadcast、Reduce、Scatter、Allgather
- PEN-016 - 截至 [2025 年 4 月 28 日] 為止,AMD 效能實驗室在生產環境的系統上,針對 [AMD Pensando™ Pollara 400 AI NIC] 所執行的測試,此系統的配置與組態如下:2 個 8xMI300X AMD 顯示卡節點(16 個顯示卡):MICAS Networks 的 Broadcom Tomahawk-4 型分葉交換器 (64x400G);CLOS 拓撲架構;AMD Pensando Pollara AI NIC – 16 個 NIC;2 個節點中每個節點的處理器型號 - 雙插槽第 5 代 Intel® Xeon® 8568 - 48 核心處理器,搭載 PCIe® Gen-5;BIOS 版本 1.3.6;緩解 - 關(預設)
系統設定檔設定 - 效能(預設)SMT - 啟用(預設);作業系統 Ubuntu 22.04.5 LTS,內核 5.15.0-139-generic。
本測試量測的作業為:Allreduce
與採用 RoCEv2 相比,採用支援 UEC 的 RDMA 時,All-Reduce 作業在 4QP 的條件下,平均效能提升 25%。本測試使用了數種不同大小的訊息作為樣本:512 MB、1 GB、2 GB、4 GB、8 GB、16 GB)的。結果是以各組訊息大小的平均值為基礎,每組測試都至少執行過 8 次。
- PEN-020:截至 [2025 年 9 月 15 日] 為止,AMD 效能實驗室針對 AMD Pensando Pollara AI NIC 執行的測試(執行 Llama 3.1-405B,64 全域批次大小 (GBS),8K 序列長度);所使用之測試系統的配置與組態如下:用於顯示卡對等通訊的 8 節點 SMC-300X 伺服器,搭載 2 個 AMD Pensando Pollara AI NIC 或 2 個 Nvidia CX-7、雙路 AMD EPYC 9454 48 核心雙路處理器、8 個 AMD Instinct MI300X 顯示卡、Ubuntu 22.04.5 LTS、內核 5.15.0-139-generic,並使用 ROCm 6.4.1.0-83-69b59e5
以下作業屬於閘道功能
配置:Num layers=4、Data Type=BF16、DCN - TP=1、PP=1、SP=1、DP=1、FSDP=-1、ICI - TP=1、PP=1、SP=1、DP=1、FSDP=8。
AINIC 容器:jax-private:rocm6.4.0-jax0.5.0-py3.10.12-tedev2.1-20250801_training。結果可能會因各種因素而有不同,包括但不限於系統組態與軟體設定。 - PEN-019:截至 [2025 年 9 月 15 日] 為止,AMD 效能實驗室針對 AMD Pensando Pollara AI NIC 執行的測試;所使用之測試系統的配置與組態如下:用於顯示卡對等通訊的 SMC-300X 伺服器:2 個 AMD Pensando Pollara AI NIC、雙路 AMD EPYC 9454 48 核心雙路處理器、8 個 AMD Instinct MI300X 顯示卡、Ubuntu 22.04.5 LTS、內核 5.15.0-139-generic、ROCm 6.4.1.0-83-69b59e5。 本測試執行的是 Llama-3.1-8B,模型組態:SEQ_LEN=2048、TP=1、PP=1、CP=1、FP8=1、MBS=10、GBS=5120。Iteration=2,No. of paths/QP:128。結果可能會因各種因素而有不同,包括但不限於系統組態與軟體設定。
- PEN-018:截至 2025 年 7 月 6 日為止,AMD 針對網路網狀架構成本所進行的比較與定價,以支援 128,000 個顯示卡為標準。比較 800G Tomahawk 5 型多平面設計上採用多平面網狀架構與封包濺散處理的 Pollara NIC,與以完全排程、大型緩衝區 (Jericho3/Ramon3) 800G 交換平台為基礎的一般 Fat-Tree 網狀架構。AMD 假設一般系統使用的是競品 NIC,且認為 NIC 成本相近。以 Pollara 為基礎的設計預估可透過在多平面架構中支援更具成本效益的 Tomahawk 5 型交換機制,節省高達 58% 的網路交換成本。截至 2025 年 4 月 23 日為止,AMD 進行的比較與定價,比較搭載具備專屬多平面網狀架構與封包濺散處理功能之 Pensando Pollara NIC 的 Tomahawk 5 系統,與一般大型緩衝區 800G 交換平台;AMD 假設一般系統採用的是競品 NIC,且 NIC 成本假相近。部署具備多網狀架構支援與封包濺散處理功能的 Pollara,讓客戶能夠建置符合成本效益的多平面網狀架構而非 Fat-Tree 設計,前者可使用更少網路交換器在整個網狀架構中提供相同的網路頻寬,大幅降低交換器平台成本,以及與纜線和光學元件相關的成本。
- PEN-015 - 截至 [2025 年 5 月 13 日] 為止,AMD 效能實驗室針對 [Pollara AI NIC 與 Nvidia CX7 NIC] 執行的測試;所使用之測試系統的配置與組態如下:8 個 8xMI300X AMD 顯示卡節點(64 個顯示卡);Broadcom Tomahawk-5 型分葉交換器 (64x800G),型號 Dell z9864f-r0;RAIL 拓撲架構;AMD AI NIC Pollara – 64 個 NIC,ROCm™ 版本 6.3.2.0-66-cbc70b5,或 Nvidia CX7 SmartNIC - 64 個 NIC,RCCL 版本 2.24.3-develop:7961624;8 個節點中各節點的處理器型號 - 雙插槽 AMD EPYC 9454 48 核心處理器;作業系統 Ubuntu® 22.04.5 LTS;內核 5.15.0-139-generic。
所有應用程式軟體程式庫(RCCL 與 ROCm)及測試環境完全相同,唯有專屬於特定硬體的低階驅動程式除外。
Nvidia CX7 網路介面卡的驅動程式是透過 NVIDIA 網站上公開提供的 Linux 驅動程式安裝方法連結進行安裝
https://docs.nvidia.com/networking/display/connectx7vpi/linux+driver+installation
至於 AMD Pensando Pollara NIC
驅動程式是採用內部建置版本,這些驅動程式預計於未來幾個月公開提供。
本測試測量了下列集體通訊作業
Allreduce、Allroall、Alltoallv、Broadcast、Reduce、Scatter、Allgather - PEN-016 - 截至 [2025 年 4 月 28 日] 為止,AMD 效能實驗室在生產環境的系統上,針對 [AMD Pensando™ Pollara 400 AI NIC] 所執行的測試,此系統的配置與組態如下:2 個 8xMI300X AMD 顯示卡節點(16 個顯示卡):MICAS Networks 的 Broadcom Tomahawk-4 型分葉交換器 (64x400G);CLOS 拓撲架構;AMD Pensando Pollara AI NIC – 16 個 NIC;2 個節點中每個節點的處理器型號 - 雙插槽第 5 代 Intel® Xeon® 8568 - 48 核心處理器,搭載 PCIe® Gen-5;BIOS 版本 1.3.6;緩解 - 關(預設)
系統設定檔設定 - 效能(預設)SMT - 啟用(預設);作業系統 Ubuntu 22.04.5 LTS,內核 5.15.0-139-generic。
本測試量測的作業為:Allreduce
與採用 RoCEv2 相比,採用支援 UEC 的 RDMA 時,All-Reduce 作業在 4QP 的條件下,平均效能提升 25%。本測試使用了數種不同大小的訊息作為樣本:512 MB、1 GB、2 GB、4 GB、8 GB、16 GB)的。結果是以各組訊息大小的平均值為基礎,每組測試都至少執行過 8 次。