スケールアウト AI インフラストラクチャの強化
AMD Pensando™ Pollara 400 AI NIC は、業界初の Ultra Ethernet Consortium (UEC) 対応 AI ネットワーク インターフェイス カード (NIC) であり、メガスケールやギガスケールのデータセンターの AI ノードで実行されるアプリケーションを高速化し、最大 400 ギガビット/秒 (Gbps) のイーサネット速度を実現するように設計されています。
完全にハードウェアでプログラム可能として実績ある第 3 世代の Pensando P4 エンジンをベースにした AMD Pensando Pollara 400 AI NIC は、業界をリードするパフォーマンスを発揮。将来の要件に応じて柔軟にプログラム可能で、ハイパースケーラー、クラウド サービス プロバイダー、企業にとってインフラ投資効果を最大限に高めることができる選択肢です。
AI パフォーマンスを大幅に向上
GPU 間の通信速度が最大 400 Gbps の Pensando™ Pollara 400 AI NIC は、競合製品と比較して AI ジョブの完了時間を最大 8% 短縮可能であり、AI トレーニングと生成 AI ワークロードの本番稼働までの時間を短縮できます。
RAS (信頼性、可用性、保守性) 機能が強化され、クラスターの実質的な稼働率が最大 50% 向上します。AMD Pensando™ Pollara 400 AI NIC が輻輳時の収束と損失回復を高速化するため、大規模な AI ワークロードの中断を減らし継続的に実行できるようになります。
AMD Pensando™ Pollara 400 AI NIC は、現在および将来の AI ワークロードのニーズを満たすように設計されており、オープンなマルチプレーン イーサネット アーキテクチャを実現できるため、ネットワークの設備投資を最大 58% 削減すると同時に、AI インフラストラクチャの進化に合わせて柔軟に拡張できます。
オペレーショナル エクセレンスの向上
ハードウェアとソフトウェアで完全にプログラム可能な AMD Pensando™ Pollara 400 AI NIC は、ダウンタイムの最小化、クラスターの健全性の検証、高度なテレメトリの提供、AI インフラストラクチャの本番環境への移行を可能にします。
注目の AMD Pensando™ Pollara 400 AI NIC
AI 向けデータセンター ネットワークのスケールアウトにおける NIC のプログラマビリティの重要な役割
AI ワークロードのホスティングに必要なインフラストラクチャの構築が進められています。効果的なスケールアウトを実現するためには、ネットワークが重要な役割を果たし、そのネットワークはイーサネットが主流となっています。それでも、効果的なネットワーキングは、スイッチだけではなく、ネットワーク インターフェイス カードに高度な機能を組み込むことも、設計上の重要な戦略となります。TechTarget の Enterprise Strategy Group に所属するエンタープライズ ネットワーキング担当プリンシパル アナリストである Jim Frey 氏が、なぜ AMD のプログラム可能な NIC が成功への最適な道筋と考えているのか、その見解について説明します。
Ultra Ethernet Consortium (UEC) 機能に対応する業界初の AI NIC
AMD Pensando™ Pollara 400 AI NIC は、UEC トランスポート機能をイーサネットに統合し、UEC RDMA が AI ワークロードに対してより一貫したパフォーマンスを提供できるようにしています。完全にプログラム可能な P4 エンジンを搭載した AI NIC は、ソフトウェアを通じて UEC 機能の継続的な導入と改良をサポートするため、ハードウェアを交換することなく、新しい標準に合わせてネットワークを進化させることができます。
AI ワークロード向けにネットワーク パフォーマンスを強化
イーサネット AI の集合通信パフォーマンスにおける競争上の優位性
どちらの場合も、標準イーサネットを介した RoCEv2 を使用することで、ROCm™ ソフトウェアを実行する AMD Pensando™ Pollara 400 AI NIC は、RCCL を実行する NVIDIA と比較して、AI の集合通信パフォーマンスが最大 10% 向上します。4
AMD Pensando™ Pollara 400 AI NIC
NVIDIA 400G RDMA NIC
AMD AI NIC における UEC 対応 RDMA: AI 集合通信のパフォーマンスが大幅に向上
UEC 対応 RDMA を備えた AMD Pensando™ Pollara 400 AI NIC は、RoCEv2 と比較して集合通信処理パフォーマンスが最大 25% 向上。5
AMD Pensando™ Pollara 400 AI NIC UEC-RDMA - UEC 対応 RDMA
AMD Pensando™ Pollara 400 AI NIC UEC-RDMA - RoCEv2
機能
インテリジェントなネットワーク監視と負荷分散
- インテリジェントなパケット スプレー
- アウトオブオーダー パケットの処理とインオーダー メッセージ配信
- 選択的な再送信
- パス認識型輻輳制御
- 迅速な障害検出
インテリジェントなパケット スプレー
インテリジェントなパケット スプレーにより、チームは、負荷分散を強化し、全体的な効率性とスケーラビリティを向上させることで、ネットワーク パフォーマンスをスムーズに最適化できます。ネットワーク パフォーマンスの向上により、GPU 間の通信時間を大幅に短縮できるため、作業の完了時間が短縮され、運用効率が向上します。
アウトオブオーダー パケットの処理とインオーダー メッセージ配信
マルチパス技術やパケット スプレー技術を用いた場合でも、メッセージが正しい順序で確実に配信されるようにします。高度なアウトオブオーダー メッセージ配信機能は、順番通りには到着しない可能性があるデータ パケットを効率的に処理し、バッファリングなしで GPU メモリにシームレスに直接並べます。
選択的な再送信
選択確認応答 (SACK) による再送により、ドロップしたパケットまたは破損したパケットのみを再送信。ネットワーク パフォーマンスが向上します。SACK は、損失または破損したパケットを効率的に検出して再送信することで、帯域幅の使用率を最適化します。これにより、パケット損失の回復時のレイテンシが抑えられ、冗長的なデータ伝送を最小限に抑えられるため、効率が非常に高くなります。
パス認識型輻輳制御
リアルタイムのテレメトリおよびネットワーク対応アルゴリズムにより、ネットワーク監視ではなくワークロードに重点を置きます。パス認識型の輻輳制御機能により、ネットワーク パフォーマンス管理が簡素化され、チームは重要な問題を迅速に検出して対処できるようになると同時に、インキャスト シナリオの影響も軽減できます。
迅速な障害検出
迅速な障害検出により、チームはごく短時間で問題を特定できるため、ほぼ瞬時にフェイルオーバーを復旧し、GPU のダウンタイムを大幅に削減できます。ほぼリアルタイムのレイテンシ メトリクス、輻輳、およびドロップ統計情報による高度なネットワーク監視機能を利用できます。
AMD Pensando™ Pollara 400 AI NIC の仕様
| 最大帯域幅 | フォーム ファクター | イーサネット インターフェイス | イーサネットの速度 | イーサネット構成 | 管理職 |
| 最大 400 Gbps | 1/2 高さ、1/2 長さ | PCIe® Gen5.0x16、OCP® 3.0 | 25/50/100/200/400Gbps | 最大 4 ポートまでサポート |
MCTP over SMBus |
パートナー エコシステム ソリューション
AMD は大手 OEM および ODM と提携し、AMD ネットワーキングを活用したソリューションの包括的なエコシステムを形成しています。イノベーションとパフォーマンスを加速するために設計された、パートナー製品の多様なポートフォリオをご確認ください。
AMD Pensando™ Pollara 400 AI NIC 対応サーバー プラットフォーム
リソース
AI ネットワーキングの未来を切り開く
AMD Pensando Pollara 400 AI NIC がスケールアウト AI インフラストラクチャをどのように変革するかについて説明します。
高性能の最新データセンター向けに設計された一連の AMD ネットワーク ソリューション群をご紹介します。
脚注
- PEN-020: AMD パフォーマンス ラボが [2025 年 9 月 15 日] 時点で、8K シーケンス長の 64 グローバル バッチ サイズ (GBS) の Llama 3.1-405B を実行する AMD Pensando Pollara AI NIC を対象に実施したテスト結果に基づきます。テスト システムの構成は、GPU 間通信用の 8 ノード SMC-300X サーバー、2x AMD Pensando Pollara AI NIC または 2x Nvidia CX-7、2P AMD EPYC 9454 48 コア 2P - プロセッサ、8x AMD Instinct MI300X GPU、Ubuntu 22.04.5 LTS、kernel 5.15.0-139-generic, ROCm 6.4.1.0-83-69b59e5。
次の処理はゲートウェイ機能の一部
構成: レイヤー数 = 4、データ型 = BF16、DCN - TP = 1、PP = 1、SP = 1、DP = 1、FSDP = -1、ICI-TP = 1、PP = 1、SP = 1、DP = 1、FSDP = 8。
AINIC コンテナー: jax-private:rocm6.4.0-jax0.5.0-py3.10.12-tedev2.1-20250801_training。実際の結果は、システムの構成やソフトウェアの設定などの要因によって異なりますが、これらに限定されるものではありません。
- PEN-019: [2025 年 9 月 15 日] に AMD パフォーマンス ラボで、次の構成のシステムを使用して AMD Pensando Pollara AI NIC のテストを実施しました。GPU 間通信向けの SMC-300X サーバー +2x AMD Pensando Pollara AI NIC、2P AMD EPYC 9454 48 コア (2P プロセッサ)、8x AMD Instinct MI300X GPU、Ubuntu 22.04.5 LTS、kernel 5.15.0-139-generic、ROCm 6.4.1.0-83-69b59e5。 テストでは Llama-3.1-8B を実行し、モデルは次のように設定しました。SEQ_LEN = 2048、TP = 1、PP = 1、CP = 1、FP8 = 1、MBS = 10、GBS = 5120。イテレーション = 2、パス数/QP: 128.実際の結果は、システムの構成やソフトウェアの設定などの要因によって異なりますが、これらに限定されるものではありません。
- PEN-018: AMD では、128,000 個の GPU をサポートするためのネットワーク ファブリック コストを、2025 年 7 月 6 日時点での価格を基に比較しました。800G Tomahawk 5 ベースのマルチプレーン設計で、マルチプレーン ファブリックとパケット スプレー機能を備えた Pollara NIC を、完全にスケジュールされた大容量バッファー (Jericho3/Ramon3) の 800G スイッチング プラットフォームに構築された汎用 fat-tree ファブリックと比較しました。汎用システムは競合 NIC を使用している前提で、NIC コストも同等と仮定しています。Pollara ベースの設計では、マルチプレーン アーキテクチャでコスト効率の高い Tomahawk 5 ベースのスイッチングを使用できるようになることで、ネットワーク スイッチング コストを最大 58% 削減できると推定されます。AMD では、2025 年 4 月 23 日時点の価格を基に、独自のマルチプレーン ファブリックとパケット スプレー機能を備えた Pensando Pollara NIC を搭載した Tomahawk 5 システムを、汎用の大容量バッファー 800G スイッチング プラットフォームと比較しました。この汎用システムには競合 NIC が搭載されているものとし、NIC のコストは同等であると仮定しています。マルチファブリック サポートとパケット スプレーを備えた Pollara を導入することで、お客様は、fat-tree 設計の代わりに、コスト効率の高いマルチプレーン ネットワーク ファブリックを構築できます。ネットワーク スイッチの数を抑えながらもファブリック全体で同等のネットワーク帯域幅を確保できるため、スイッチ プラットフォームのコストに加え、ケーブルや光モジュール関連のコストも大幅に削減できます。
- PEN-015 - [Pollara AI NIC および Nvidia CX7 NIC] を対象に AMD パフォーマンス ラボが [2025 年 5 月 13 日に] 実施したテスト結果に基づきます。テスト システムの構成は、8 ノードの 8xMI300X AMD GPU (64 GPU)、Broadcom Tomahawk-5 搭載リーフ スイッチ (64x800G) Model Dell z9864f-r0、RAIL Topology、AMD AI NIC Pollara – 64 NIC、ROCm™ バージョン 6.3.2.0-66-cbc70b5 または Nvidia CX7 SmartNIC - 64 NIC、RCCL バージョン 2.24.3-develop:7961624、8 ノードごとの CPU モデル - デュアル ソケット AMD EPYC 9454 48 コア プロセッサ、オペレーティング システム Ubuntu® 22.04.5 LTS、Kernel 5.15.0-139-generic。
アプリケーション ソフトウェア ライブラリ (RCCL と ROCm) とテスト環境は、ハードウェア固有の低レベル ドライバーを除いてまったく同じです。
Nvidia CX7 カードのドライバーは、NVIDIA の Web サイトで公開されている Linux ドライバーのインストール手順のリンクからインストールしています。
https://docs.nvidia.com/networking/display/connectx7vpi/linux+driver+installation
AMD Pensando Pollara NIC について
ドライバーは内部的なビルド版が使用されていますが、今後数か月以内に一般公開される予定です。
測定された集合通信処理は次のとおり
Allreduce、Allroall、Alltoallv、Broadcast、Reduce、Scatter、Allgather
- PEN-016 - [2025 年 4 月 28 日] に AMD パフォーマンス ラボで、次の構成の生産システムを使用して [AMD Pensando™ Pollara 400 AI NIC] のテストを実施しました。2 ノードの 8x MI300X AMD GPU (16 GPU): MICAS network の Broadcom Tomahawk-4 搭載リーフ スイッチ (64 x 400 G)、CLOS トポロジ、AMD Pensando Pollara AI NIC – 16 NIC、2 ノードそれぞれの CPU モデル - デュアル ソケット第 5 世代 Intel® Xeon® 8568 - 48 コア CPU + PCIe® Gen-5、BIOS バージョン 1.3.6。Mitigation = Off (デフォルト)
システム プロファイル設定 = パフォーマンス (デフォルト)、SMT = 有効 (デフォルト)、OS Ubuntu 22.04.5 LTS、Kernel 5.15.0-139-generic。
測定対象の操作: オールリデュース
4QP でのオールリデュース操作で平均 25% 向上。UEC 対応の RDMA と RoCEv2 を異なるメッセージ サイズのサンプル (512 MB、1 GB、2 GB、4 GB、8 GB、16 GB) で比較。結果は 8 回以上のテスト ランの平均に基づいています。
- PEN-020: AMD パフォーマンス ラボが [2025 年 9 月 15 日] 時点で、8K シーケンス長の 64 グローバル バッチ サイズ (GBS) の Llama 3.1-405B を実行する AMD Pensando Pollara AI NIC を対象に実施したテスト結果に基づきます。テスト システムの構成は、GPU 間通信用の 8 ノード SMC-300X サーバー、2x AMD Pensando Pollara AI NIC または 2x Nvidia CX-7、2P AMD EPYC 9454 48 コア 2P - プロセッサ、8x AMD Instinct MI300X GPU、Ubuntu 22.04.5 LTS、kernel 5.15.0-139-generic, ROCm 6.4.1.0-83-69b59e5。
次の処理はゲートウェイ機能の一部
構成: レイヤー数 = 4、データ型 = BF16、DCN - TP = 1、PP = 1、SP = 1、DP = 1、FSDP = -1、ICI-TP = 1、PP = 1、SP = 1、DP = 1、FSDP = 8。
AINIC コンテナー: jax-private:rocm6.4.0-jax0.5.0-py3.10.12-tedev2.1-20250801_training。実際の結果は、システムの構成やソフトウェアの設定などの要因によって異なりますが、これらに限定されるものではありません。 - PEN-019: [2025 年 9 月 15 日] に AMD パフォーマンス ラボで、次の構成のシステムを使用して AMD Pensando Pollara AI NIC のテストを実施しました。GPU 間通信向けの SMC-300X サーバー +2x AMD Pensando Pollara AI NIC、2P AMD EPYC 9454 48 コア (2P プロセッサ)、8x AMD Instinct MI300X GPU、Ubuntu 22.04.5 LTS、kernel 5.15.0-139-generic、ROCm 6.4.1.0-83-69b59e5。 テストでは Llama-3.1-8B を実行し、モデルは次のように設定しました。SEQ_LEN = 2048、TP = 1、PP = 1、CP = 1、FP8 = 1、MBS = 10、GBS = 5120。イテレーション = 2、パス数/QP: 128.実際の結果は、システムの構成やソフトウェアの設定などの要因によって異なりますが、これらに限定されるものではありません。
- PEN-018: AMD では、128,000 個の GPU をサポートするためのネットワーク ファブリック コストを、2025 年 7 月 6 日時点での価格を基に比較しました。800G Tomahawk 5 ベースのマルチプレーン設計で、マルチプレーン ファブリックとパケット スプレー機能を備えた Pollara NIC を、完全にスケジュールされた大容量バッファー (Jericho3/Ramon3) の 800G スイッチング プラットフォームに構築された汎用 fat-tree ファブリックと比較しました。汎用システムは競合 NIC を使用している前提で、NIC コストも同等と仮定しています。Pollara ベースの設計では、マルチプレーン アーキテクチャでコスト効率の高い Tomahawk 5 ベースのスイッチングを使用できるようになることで、ネットワーク スイッチング コストを最大 58% 削減できると推定されます。AMD では、2025 年 4 月 23 日時点の価格を基に、独自のマルチプレーン ファブリックとパケット スプレー機能を備えた Pensando Pollara NIC を搭載した Tomahawk 5 システムを、汎用の大容量バッファー 800G スイッチング プラットフォームと比較しました。この汎用システムには競合 NIC が搭載されているものとし、NIC のコストは同等であると仮定しています。マルチファブリック サポートとパケット スプレーを備えた Pollara を導入することで、お客様は、fat-tree 設計の代わりに、コスト効率の高いマルチプレーン ネットワーク ファブリックを構築できます。ネットワーク スイッチの数を抑えながらもファブリック全体で同等のネットワーク帯域幅を確保できるため、スイッチ プラットフォームのコストに加え、ケーブルや光モジュール関連のコストも大幅に削減できます。
- PEN-015 - [Pollara AI NIC および Nvidia CX7 NIC] を対象に AMD パフォーマンス ラボが [2025 年 5 月 13 日に] 実施したテスト結果に基づきます。テスト システムの構成は、8 ノードの 8xMI300X AMD GPU (64 GPU)、Broadcom Tomahawk-5 搭載リーフ スイッチ (64x800G) Model Dell z9864f-r0、RAIL Topology、AMD AI NIC Pollara – 64 NIC、ROCm™ バージョン 6.3.2.0-66-cbc70b5 または Nvidia CX7 SmartNIC - 64 NIC、RCCL バージョン 2.24.3-develop:7961624、8 ノードごとの CPU モデル - デュアル ソケット AMD EPYC 9454 48 コア プロセッサ、オペレーティング システム Ubuntu® 22.04.5 LTS、Kernel 5.15.0-139-generic。
アプリケーション ソフトウェア ライブラリ (RCCL と ROCm) とテスト環境は、ハードウェア固有の低レベル ドライバーを除いてまったく同じです。
Nvidia CX7 カードのドライバーは、NVIDIA の Web サイトで公開されている Linux ドライバーのインストール手順のリンクからインストールしています。
https://docs.nvidia.com/networking/display/connectx7vpi/linux+driver+installation
AMD Pensando Pollara NIC について
ドライバーは内部的なビルド版が使用されていますが、今後数か月以内に一般公開される予定です。
測定された集合通信処理は次のとおり
Allreduce、Allroall、Alltoallv、Broadcast、Reduce、Scatter、Allgather - PEN-016 - [2025 年 4 月 28 日] に AMD パフォーマンス ラボで、次の構成の生産システムを使用して [AMD Pensando™ Pollara 400 AI NIC] のテストを実施しました。2 ノードの 8x MI300X AMD GPU (16 GPU): MICAS network の Broadcom Tomahawk-4 搭載リーフ スイッチ (64 x 400 G)、CLOS トポロジ、AMD Pensando Pollara AI NIC – 16 NIC、2 ノードそれぞれの CPU モデル - デュアル ソケット第 5 世代 Intel® Xeon® 8568 - 48 コア CPU + PCIe® Gen-5、BIOS バージョン 1.3.6。Mitigation = Off (デフォルト)
システム プロファイル設定 = パフォーマンス (デフォルト)、SMT = 有効 (デフォルト)、OS Ubuntu 22.04.5 LTS、Kernel 5.15.0-139-generic。
測定対象の操作: オールリデュース
4QP でのオールリデュース操作で平均 25% 向上。UEC 対応の RDMA と RoCEv2 を異なるメッセージ サイズのサンプル (512 MB、1 GB、2 GB、4 GB、8 GB、16 GB) で比較。結果は 8 回以上のテスト ランの平均に基づいています。