造就橫向擴充 AI 基礎架構

作為業界首款支援超級乙太網路聯盟 (UEC) 標準的 AI 網路介面卡 (NIC),AMD Pensando™ Pollara 400 AI NIC 可加速在百萬級與十億級資料中心之各 AI 節點中執行的應用程式,乙太網路速度最高可達每秒 400 Gb (Gbps)。

AMD Pensando Pollara 400 AI NIC 是以經過實證的第 3 代全硬體可程式化 Pensando P4 引擎為基礎,提供領先業界的效能與可彈性滿足未來需求的可程式化功能,幫助超大規模業者、雲端服務供應商及企業發揮基礎架構投資最大效益。

大規模加速 AI 效能

高達
8% 的 AI 工作完成時間加快幅度 1

透過高達 400 Gbps 的顯示卡對等通訊速度,AMD Pensando™ Pollara 400 AI NIC 的 AI 工作完成時間最多可比競品快 8%,有助於為生成式 AI 工作負載縮短 AI 訓練和投產準備時間。

高達
50% 的叢集運作時間延長幅度 2

透過增強的可靠性、可用性和檢修性 (RAS),協助將有效叢集運作時間最多延長約 50%。AMD Pensando™ Pollara 400 AI NIC 可加速壅塞情況下的匯流與丟包復原,有助於減少中段,維繫大規模 AI 工作負載持續運作。

高達
58% 的資本支出降低幅度 3

AMD Pensando™ Pollara 400 AI NIC 是專為滿足現今與未來 AI 工作負載需求所設計,可實現開放式多平面乙太網路架構,能將網路資本支出降低最多 58%,同時提供隨著 AI 基礎架構演變進行擴充的彈性。

提升營運卓越性

AMD Pensando™ Pollara 400 AI NIC 採用完全可程式化的硬體與軟體設計,可將停機時間降至最低、驗證叢集健全狀況、提供進階遙測,並使 AI 基礎架構能夠以更快的時間完成投產準備。

橫向擴充面向未來的 AI 基礎架構

隨著 AI 叢集規模擴大,效能越來越取決於網路行為,因為壅塞、尾端延遲與故障連鎖會影響系統效率、成本與可靠性。

閱讀本產品指南,瞭解 AMD Pensando™ Pollara 400 AI NIC 如何在橫向擴充 AI 基礎架構時,提供可預測的擴充性、改善的使用率與持續的效能。

AMD Pensando™ Pollara 400 AI NIC 專題文章

NIC 可程式化功能在 AI 資料中心網路的橫向擴充上所扮演的關鍵角色

全球各地都在為了執行 AI 工作負載而著手擴充基礎架構。為有效擴充,網路扮演了關鍵性的角色,且這些網路大多傾向採用乙太網路。然而,有效的網路並非只在於交換器:在網路介面卡內建進階功能,也是不可或缺的重要設計策略。TechTarget 的企業網路首席分析師 Jim Frey 分享他的觀點,解釋為何他認為 AMD 可程式化 NIC 是通往成功的最佳化途徑。

Ultra Ethernet Consortium logo

業界首創支援超級乙太網路聯盟 (UEC) 功能的 AI NIC

AMD Pensando™ Pollara 400 AI NIC 將 UEC 傳輸功能整合至乙太網路,讓 UEC RDMA 能為 AI 工作負載提供更一致的效能。AI NIC 具備完全可程式化的 P4 引擎,可透過軟體支援 UEC 功能的沿用與改進,讓網路能隨著新興標準演進,無須更換硬體。

為 AI 工作負載增強網路效能

乙太網路 AI 集體通訊效能的競爭力領先地位

當兩個案例都在標準乙太網路中採用 RoCEv2 協定時,執行 ROCm™ 軟體之 AMD Pensando™ Pollara 400 AI NIC,其 AI 集體通訊效能比執行 RCCL 的 NVIDIA 產品高最多 10%4

AMD Pensando™ Pollara 400 AI NIC

NVIDIA 400G RDMA NIC

RoCEv2 效能提升高達 10%
+10%

AMD AI NIC 上支援 UEC 標準的 RDMA:AI 集體通訊效能大幅提升

AMD Pensando™ Pollara 400 AI NIC 採用支援 UEC 標準的 RDMA,集體通訊作業效能比 RoCEv2 最多高 25%5

AMD Pensando™ Pollara 400 AI NIC UEC-RDMA - 支援 UEC 標準的 RDMA

AMD Pensando™ Pollara 400 AI NIC UEC-RDMA - RoCEv2

透過 UEC RDMA 實現高達 25% 的效能提升
+25%

功能

智慧型網路監測與負載平衡

智慧封包噴灑

智慧封包噴灑可以強化負載平衡,增強整體效率與擴充性,讓團隊流暢地最佳化網路效能。網路效能改善後,可大幅縮短顯示卡對等通訊時間,進而加速完成工作並提升營運效率。

AI technology concept
暫停服務封包處理和依序訊息遞送

協助確保訊息即使在採用多路徑和封包噴灑技術時,也能依正確順序遞送。進階的暫停服務訊息遞送功能可以高效率處理不符順序送達的資料封包,將資料流暢置入顯示卡記憶體而無需緩衝處理。

Programming code abstract technology background of software developer and  Computer script
選擇性重新傳輸

用選擇性確認 (SACK) 重新傳輸來提升網路效能,協助確保僅有被捨棄或已損毀的封包會重新傳輸。SACK 能有效率地偵測並重新傳送遺失或受損的封包,進而最佳化頻寬使用率,幫助降低丟包復原的延遲,並且將贅餘的資料傳輸減至最少以獲卓越效率。

Abstract illustration of a data stream
路徑感知壅塞控制

運用即時遙測和網路感知演算法,把精神放在工作負載上,而非網路監測。路徑感知壅塞控制功能可簡化網路效能管理,讓團隊快速偵測並解決重大問題,同時協助緩解聚歛壅塞 (incast) 的影響。

Abstract data center concept
快速故障偵測

藉由快速偵測錯誤,團隊能在幾毫秒內精準找出問題,實現幾近即時的容錯移轉復原,並協助大幅縮短顯示卡停機時間。利用近乎即時的延遲指標、壅塞和封包捨棄統計資料,提升網路可觀察性。

Digital cyberspace and digital data network connections

AMD Pensando™ Pollara 400 AI NIC 規格

最大頻寬 外型規格 乙太網路介面 乙太網路速度 乙太網路組態 管理
高達 400 Gbps 半高、半長 PCIe® Gen5.0x16;OCP® 3.0 25/50/100/200/400 Gbps

最多支援 4 個連接埠
- 1 個 400 G
- 2 個 200 G
- 4 個 100 G
- 4 個 50 G
- 4 個 25 G

MCTP 經由 SMBus

合作夥伴生態系統解決方案

AMD 與領先業界的原始設備製造商 (OEM) 和原始設計製造商 (ODM) 合作,打造採用 AMD 網路技術的的全方位解決方案生態系統。歡迎探索我們合作夥伴為了加速創新並提升效能所打造出的各式各樣系列產品。

支援 AMD Pensando™ Pollara 400 AI NIC 的伺服器平台

ASRock Rack logo
Celestica logo
Cisco white logo
Compal logo
Dell Technologies logo
Foxconn logo
Gigabyte logo
HPE logo
ingrasys logo
Lenovo logo
MiTAC Computing logo
QCT logo
Supermicro logo
Wistron logo

資源

開啟 AI 網路的未來

瞭解 AMD Pensando Pollara 400 AI NIC 如何能轉型您的橫向擴充 AI 基礎架構。

探索專為高效能現代資料中心所設計的全套 AMD 網路解決方案。

尾註
  1. PEN-020:截至 [2025 年 9 月 15 日] 為止,AMD 效能實驗室針對 AMD Pensando Pollara AI NIC 執行的測試(執行 Llama 3.1-405B,64 全域批次大小 (GBS),8K 序列長度);所使用之測試系統的配置與組態如下:用於顯示卡對等通訊的 8 節點 SMC-300X 伺服器,搭載 2 個 AMD Pensando Pollara AI NIC 或 2 個 Nvidia CX-7、雙路 AMD EPYC 9454 48 核心雙路處理器、8 個 AMD Instinct MI300X 顯示卡、Ubuntu 22.04.5 LTS、內核 5.15.0-139-generic,並使用 ROCm 6.4.1.0-83-69b59e5
    以下作業屬於閘道功能
    配置:Num layers=4、Data Type=BF16、DCN - TP=1、PP=1、SP=1、DP=1、FSDP=-1、ICI - TP=1、PP=1、SP=1、DP=1、FSDP=8。
    AINIC 容器:jax-private:rocm6.4.0-jax0.5.0-py3.10.12-tedev2.1-20250801_training。結果可能會因各種因素而有不同,包括但不限於系統組態與軟體設定。
  2. PEN-019:截至 [2025 年 9 月 15 日] 為止,AMD 效能實驗室針對 AMD Pensando Pollara AI NIC 執行的測試;所使用之測試系統的配置與組態如下:用於顯示卡對等通訊的 SMC-300X 伺服器:2 個 AMD Pensando Pollara AI NIC、雙路 AMD EPYC 9454 48 核心雙路處理器、8 個 AMD Instinct MI300X 顯示卡、Ubuntu 22.04.5 LTS、內核 5.15.0-139-generic、ROCm 6.4.1.0-83-69b59e5。 本測試執行的是 Llama-3.1-8B,模型組態:SEQ_LEN=2048、TP=1、PP=1、CP=1、FP8=1、MBS=10、GBS=5120。Iteration=2,No. of paths/QP:128。結果可能會因各種因素而有不同,包括但不限於系統組態與軟體設定。
  3. PEN-018:截至 2025 年 7 月 6 日為止,AMD 針對網路網狀架構成本所進行的比較與定價,以支援 128,000 個顯示卡為標準。比較 800G Tomahawk 5 型多平面設計上採用多平面網狀架構與封包濺散處理的 Pollara NIC,與以完全排程、大型緩衝區 (Jericho3/Ramon3) 800G 交換平台為基礎的一般 Fat-Tree 網狀架構。AMD 假設一般系統使用的是競品 NIC,且認為 NIC 成本相近。以 Pollara 為基礎的設計預估可透過在多平面架構中支援更具成本效益的 Tomahawk 5 型交換機制,節省高達 58% 的網路交換成本。截至 2025 年 4 月 23 日為止,AMD 進行的比較與定價,比較搭載具備專屬多平面網狀架構與封包濺散處理功能之 Pensando Pollara NIC 的 Tomahawk 5 系統,與一般大型緩衝區 800G 交換平台;AMD 假設一般系統採用的是競品 NIC,且 NIC 成本假相近。部署具備多網狀架構支援與封包濺散處理功能的 Pollara,讓客戶能夠建置符合成本效益的多平面網狀架構而非 Fat-Tree 設計,前者可使用更少網路交換器在整個網狀架構中提供相同的網路頻寬,大幅降低交換器平台成本,以及與纜線和光學元件相關的成本。
  4. PEN-015 - 截至 [2025 年 5 月 13 日] 為止,AMD 效能實驗室針對 [Pollara AI NIC 與 Nvidia CX7 NIC] 執行的測試;所使用之測試系統的配置與組態如下:8 個 8xMI300X AMD 顯示卡節點(64 個顯示卡);Broadcom Tomahawk-5 型分葉交換器 (64x800G),型號 Dell z9864f-r0;RAIL 拓撲架構;AMD AI NIC Pollara – 64 個 NIC,ROCm™ 版本 6.3.2.0-66-cbc70b5,或 Nvidia CX7 SmartNIC - 64 個 NIC,RCCL 版本 2.24.3-develop:7961624;8 個節點中各節點的處理器型號 - 雙插槽 AMD EPYC 9454 48 核心處理器;作業系統 Ubuntu® 22.04.5 LTS;內核 5.15.0-139-generic。
    所有應用程式軟體程式庫(RCCL 與 ROCm)及測試環境完全相同,唯有專屬於特定硬體的低階驅動程式除外。
    Nvidia CX7 網路介面卡的驅動程式是透過 NVIDIA 網站上公開提供的 Linux 驅動程式安裝方法連結進行安裝
    https://docs.nvidia.com/networking/display/connectx7vpi/linux+driver+installation

    至於 AMD Pensando Pollara NIC
    驅動程式是採用內部建置版本,這些驅動程式預計於未來幾個月公開提供。

    本測試測量了下列集體通訊作業
    Allreduce、Allroall、Alltoallv、Broadcast、Reduce、Scatter、Allgather
  5. PEN-016 - 截至 [2025 年 4 月 28 日] 為止,AMD 效能實驗室在生產環境的系統上,針對 [AMD Pensando™ Pollara 400 AI NIC] 所執行的測試,此系統的配置與組態如下:2 個 8xMI300X AMD 顯示卡節點(16 個顯示卡):MICAS Networks 的 Broadcom Tomahawk-4 型分葉交換器 (64x400G);CLOS 拓撲架構;AMD Pensando Pollara AI NIC – 16 個 NIC;2 個節點中每個節點的處理器型號 - 雙插槽第 5 代 Intel® Xeon® 8568 - 48 核心處理器,搭載 PCIe® Gen-5;BIOS 版本 1.3.6;緩解 - 關(預設)
    系統設定檔設定 - 效能(預設)SMT - 啟用(預設);作業系統 Ubuntu 22.04.5 LTS,內核 5.15.0-139-generic。
    本測試量測的作業為:Allreduce
    與採用 RoCEv2 相比,採用支援 UEC 的 RDMA 時,All-Reduce 作業在 4QP 的條件下,平均效能提升 25%。本測試使用了數種不同大小的訊息作為樣本:512 MB、1 GB、2 GB、4 GB、8 GB、16 GB)的。結果是以各組訊息大小的平均值為基礎,每組測試都至少執行過 8 次。