Optimisation de l'infrastructure d'IA scale-out

Première carte d'interface réseau (NIC) d'IA du secteur compatible avec les spécifications de l'Ultra Ethernet Consortium (UEC), l'AMD Pensando™ Pollara 400 AI NIC est conçue pour accélérer les applications exécutées sur des nœuds d'IA dans des centres de données à très grande échelle, avec des débits Ethernet allant jusqu'à 400 Gigabit par seconde (Gbit/s).

Basée sur le moteur Pensando P4 de troisième génération éprouvé, entièrement programmable par hardware, la carte réseau AMD Pensando Pollara 400 AI NIC offre des performances de pointe et la flexibilité de programmation nécessaire pour répondre aux exigences futures. Elle permet ainsi d'optimiser les investissements en infrastructure pour les hyperscalers, les fournisseurs de services cloud et les entreprises.

Accélérez les performances de l'IA à grande échelle

Jusqu'à
8 % de réduction des temps d'exécution des charges de travail d'IA 1

Grâce à des vitesses de communication GPU à GPU pouvant atteindre 400 Gbit/s, l'AMD Pensando™ Pollara 400 AI NIC permet de réduire jusqu'à 8 % le temps d'exécution des tâches d'IA par rapport aux solutions concurrentes. Elle accélère ainsi l'entraînement des modèles et le passage en production des charges de travail d'IA générative.

Jusqu'à
50 % d'amélioration de la disponibilité des clusters 2

Augmentez le temps de disponibilité effectif des clusters jusqu'à 50 % environ grâce à des capacités améliorées de fiabilité, de disponibilité et de maintenance (RAS). L'AMD Pensando™ Pollara 400 AI NIC accélère la convergence et la récupération des pertes en cas de congestion, ce qui réduit les interruptions lors de l'exécution des charges de travail d'IA à grande échelle.

Jusqu'à
58 % de réduction des dépenses d'investissement 3

Pensée pour répondre aux besoins actuels et futurs des charges de travail d'IA, l'AMD Pensando™ Pollara 400 AI NIC permet de déployer des architectures Ethernet ouvertes et multi-plans, ce qui contribue à réduire les investissements réseau jusqu'à 58 % tout en offrant la flexibilité nécessaire pour accompagner l'évolution des infrastructures d'IA.

Amélioration de l'excellence opérationnelle

Grâce à une architecture entièrement programmable à la fois côté hardware et côté software, l'AMD Pensando™ Pollara 400 AI NIC réduit les temps d'arrêt, confirme l'intégrité des clusters, fournit une télémétrie avancée et accélère la mise en production des infrastructures d'IA.

Mise à l'échelle d'une infrastructure d'IA prête pour l'avenir

Plus les clusters d'IA montent en charge, plus les performances dépendent du comportement du réseau, où congestion, latence de queue et propagation des défaillances déterminent l'efficacité, les coûts et la fiabilité du système.

Consultez ce guide produit pour comprendre comment l'AMD Pensando™ Pollara 400 AI NIC assure une évolutivité prévisible, une utilisation optimale et des performances stables à mesure que vous étendez les capacités de votre infrastructure d'IA.

La carte réseau AMD Pensando™ Pollara 400 AI NIC sous le feu des projecteurs

Le rôle essentiel de la programmabilité des cartes réseau dans le déploiement des réseaux de centres de données dédiés à l'IA

La mise en œuvre d'infrastructures destinées à héberger des charges de travail d'IA est en cours. Pour un scale-out efficace, les réseaux, qui jouent un rôle essentiel, s'orientent vers l'Ethernet. Mais une mise en réseau efficace ne se limite pas aux commutateurs : l'intégration de fonctionnalités avancées dans les cartes d'interface réseau est une stratégie de conception essentielle. Jim Frey, analyste principal de la mise en réseau d'entreprise chez Enterprise Strategy Group by TechTarget, nous explique pourquoi, selon lui, les cartes réseau programmables AMD représentent la voie la plus rapide vers la réussite.

Ultra Ethernet Consortium logo

Première carte réseau d'IA du secteur prenant en charge les fonctionnalités UEC (Ultra Ethernet Consortium)

L'AMD Pensando™ Pollara 400 AI NIC intègre des fonctionnalités de transport UEC dans Ethernet, ce qui permet au RDMA UEC d'offrir des performances plus homogènes pour les charges de travail d'IA. Son moteur P4 entièrement programmable prend en charge l'adoption et l'ajustement continus des fonctionnalités UEC via software, afin d'adapter les réseaux aux nouveaux standards sans changer d'infrastructure hardware.

Performances réseau renforcées pour les charges de travail d'IA

Une position de leader face à la concurrence pour les communications collectives d'IA sur Ethernet

En utilisant RoCEv2 sur Ethernet standard dans les deux cas, l'AMD Pensando™ Pollara 400 AI NIC, exécutant le software ROCm™, offre jusqu'à 10 % de performances accrues pour les communications collectives d'IA par rapport à une solution NVIDIA exécutant RCCL4.

AMD Pensando™ Pollara 400 AI NIC

NVIDIA 400G RDMA NIC

Jusqu'à 10 % de performances RoCEv2 accrues
+ 10 %

RDMA compatible UEC sur la carte réseau AMD AI NIC : des gains significatifs pour les communications collectives d'IA

L'AMD Pensando™ Pollara 400 AI NIC atteint jusqu'à 25 % de performances supplémentaires pour les opérations de communication collective grâce au RDMA compatible UEC, par rapport à RoCEv25.

AMD Pensando™ Pollara 400 AI NIC UEC-RDMA, RDMA compatible UEC

AMD Pensando™ Pollara 400 AI NIC UEC-RDMA, RoCEv2

Jusqu'à 25 % d'amélioration des performances avec le RDMA UEC
+ 25 %

Fonctionnalités

Surveillance du réseau et équilibrage de charge intelligents

Pulvérisation de paquets intelligente

La pulvérisation de paquets intelligente permet aux équipes d'optimiser de manière fluide les performances du réseau en améliorant l'équilibrage de la charge, pour un gain global d'efficacité et d'évolutivité. L'amélioration des performances du réseau permet de réduire considérablement les temps de communication entre les GPU, ce qui accélère l'exécution des tâches et augmente l'efficacité opérationnelle.

AI technology concept
Traitement des paquets dans le désordre et livraison des messages dans l'ordre

Aidez à garantir que les messages sont livrés dans le bon ordre, même lorsque vous utilisez des techniques de multipathing et de pulvérisation de paquets. La fonctionnalité avancée d'acheminement des messages dans le désordre traite efficacement les paquets de données qui peuvent arriver dans le désordre, en les plaçant directement dans la mémoire du GPU sans avoir besoin de les mettre en mémoire tampon.

Programming code abstract technology background of software developer and  Computer script
Retransmission sélective

Améliorez les performances du réseau grâce à la retransmission avec accusé de réception sélectif (SACK), qui garantit que seuls les paquets perdus ou corrompus sont retransmis. Le SACK détecte et renvoie efficacement les paquets perdus ou endommagés, optimisant ainsi l'utilisation de la bande passante, contribuant à réduire le temps de latence pendant la récupération des paquets perdus et minimisant les transmissions de données redondantes pour une efficacité exceptionnelle.

Abstract illustration of a data stream
Contrôle de la congestion en fonction du chemin

Concentrez-vous sur les charges de travail, et non sur la surveillance du réseau, grâce à la télémétrie en temps réel et aux algorithmes orientés réseau. La fonction de contrôle de la congestion en fonction du chemin simplifie la gestion des performances réseau, permettant aux équipes de détecter et de résoudre rapidement les problèmes critiques tout en contribuant à atténuer l'impact des scénarios incast.

Abstract data center concept
Détection rapide des pannes

Grâce à la détection rapide des pannes, les équipes peuvent identifier les problèmes en quelques millisecondes, ce qui permet une reprise quasi instantanée et contribue à réduire considérablement les temps d'arrêt des GPU. Bénéficiez d'une observabilité réseau améliorée grâce à des mesures de temps de latence en temps quasi réel et à des statistiques sur la congestion et les pertes.

Digital cyberspace and digital data network connections

Spécifications de la carte réseau AMD Pensando™ Pollara 400 AI NIC

Bande passante maximale Format Interface Ethernet Débits Ethernet Configurations Ethernet Gestion
Jusqu'à 400 Gbit/s Demi-hauteur, demi-longueur PCIe® Gen5.0x16 ; OCP® 3.0 25/50/100/200/400 Gbit/s

Prend en charge jusqu'à 4 ports
- 1 x 400G
- 2 x 200G
- 4 x 100G
- 4 x 50G
- 4 x 25G

MCTP sur SMBus

Écosystème et solutions partenaires

AMD s'associe à des fabricants d'équipements d'origine (OEM) et des producteurs de concepts d'origine (ODM) de pointe afin de proposer un écosystème complet de solutions basées sur la technologie réseau AMD. Découvrez notre gamme variée d'offres partenaires conçues pour accélérer l'innovation et améliorer les performances.

Plateformes de serveur compatibles avec l'AMD Pensando™ Pollara 400 AI NIC

ASRock Rack logo
Celestica logo
Cisco white logo
Compal logo
Dell Technologies logo
Foxconn logo
Gigabyte logo
HPE logo
ingrasys logo
Lenovo logo
MiTAC Computing logo
QCT logo
Supermicro logo
Wistron logo

Ressources

Débridez l'avenir de la mise en réseau pour l'IA

Découvrez comment la carte réseau AMD Pensando Pollara 400 AI NIC peut transformer votre infrastructure d'IA scale-out.

Découvrez la gamme complète de solutions réseau AMD conçues pour les centres de données modernes hautes performances.

Notes de bas de page
  1. PEN-020 : tests réalisés par AMD Performance Labs au [15 septembre 2025] sur l'AMD Pensando Pollara AI NIC exécutant Llama 3.1-405B avec une taille de lot globale (GBS) de 64 et une longueur de séquence de 8K, sur un système de test composé de 8 serveurs SMC-300X pour la communication GPU à GPU utilisant 2 AMD Pensando Pollara AI NIC ou 2 Nvidia CX 7, un processeur AMD EPYC 9454 2P 48 cœurs, 8 GPU AMD Instinct MI300X, Ubuntu 22.04.5 LTS, noyau 5.15.0-139-generic, ROCm 6.4.1.0-83-69b59e5
    Les opérations suivantes font partie de la fonction de passerelle.
    Configuration : nombre de couches = 4, type de données = BF16, DCN - TP=1, PP=1, SP=1, DP=1, FSDP=-1, ICI - TP=1, PP=1, SP=1, DP=1, FSDP=8.
    Conteneur AINIC : jax-private:rocm6.4.0-jax0.5.0-py3.10.12-tedev2.1-20250801_training. Les résultats peuvent varier en fonction de divers facteurs y compris, mais sans s'y limiter, la configuration système et les paramètres software.
  2. PEN-019 : tests réalisés par AMD Performance Labs au [15 septembre 2025] sur l'AMD Pensando Pollara AI NIC, sur un système de test comprenant un serveur SMC-300X pour la communication GPU à GPU : 2 AMD Pensando Pollara AI NIC, processeur AMD EPYC 9454 2P 48 cœurs, 8 GPU AMD Instinct MI300X, Ubuntu 22.04.5 LTS, noyau 5.15.0-139-generic, ROCm 6.4.1.0-83-69b59e5. Tests effectués avec Llama-3.1-8B. Configuration du modèle : SEQ_LEN = 2048, TP=1, PP=1, CP=1,FP8=1, MBS=10, GBS = 5120. Itérations = 2. Nombre de chemins/QP : 128. Les résultats peuvent varier en fonction de divers facteurs y compris, mais sans s'y limiter, la configuration système et les paramètres software.
  3. PEN-018 : comparaison et tarifs AMD au 6 juillet 2025 pour les coûts de structure réseau prenant en charge 128 000 GPU. Comparaison entre une carte réseau Pollara avec structure multi-plan et répartition des paquets sur une architecture multi-plan basée sur Tomahawk 5 800G, et une structure fat-tree générique reposant sur des plateformes de commutation 800G à grande mémoire tampon entièrement planifiées (Jericho3/Ramon3). Le système générique est supposé utiliser une carte réseau concurrente, avec des coûts considérés comme comparables. D'après les estimations, l'architecture basée sur Pollara devrait permettre jusqu'à 58 % d'économies sur les coûts de commutation réseau, grâce à la prise en charge de commutateurs plus économiques basés sur Tomahawk 5 dans une architecture multi-plan. Comparaison et tarifs AMD au 23 avril 2025 entre un système Tomahawk 5 avec une carte réseau Pensando Pollara, intégrant une structure multi-plan exclusive et la répartition des paquets, et une plateforme de commutation 800G générique à grande mémoire tampon. Le système générique utiliserait une carte réseau concurrente, avec des coûts équivalents. Le déploiement de Pollara avec prise en charge multi-structure et répartition des paquets permet aux clients de concevoir des structures réseau multi-plans plus économiques, plutôt qu'une architecture fat-tree, en utilisant moins de commutateurs réseau pour fournir une bande passante réseau équivalente sur l'ensemble la structure, tout en réduisant considérablement les coûts des plateformes de commutation ainsi que les coûts associés aux câbles et aux modules optiques.
  4. PEN-015 : tests réalisés par AMD Performance Labs au [13 mai 2025] sur les [Pollara AI NIC et Nvidia CX7 NIC], sur un système de test composé de 8 nœuds équipés chacun de 8 GPU AMD MI300X (64 GPU au total) ; commutateur leaf basé sur Broadcom Tomahawk-5 (64 x 800G), modèle Dell z9864f-r0 ; topologie RAIL ; 64 AMD Pollara AI NIC, version ROCm™ 6.3.2.0-66-cbc70b5 OU 64 Nvidia CX7 SmartNIC, version RCCL 2.24.3-develop:7961624 ; CPU dans chacun des 8 nœuds : processeur AMD EPYC 9454 2P 48 cœurs à double socket ; système d'exploitation Ubuntu® 22.04.5 LTS ; noyau 5.15.0-139-generic.
    Toutes les bibliothèques software (RCCL et ROCm) et l'environnement de test sont identiques, à l'exception des pilotes de bas niveau spécifiques au hardware.
    Pour la carte Nvidia CX7, les pilotes ont été installés via la méthode Linux disponible publiquement sur le site NVIDIA :
    https://docs.nvidia.com/networking/display/connectx7vpi/linux+driver+installation

    Pour la carte réseau AMD Pensando Pollara
    Les pilotes sont issus d'une version interne, mais ils devraient être rendus publics dans les mois à venir.

    Opérations de communication collective mesurées :
    Allreduce, Allroall, Alltoallv, Broadcast, Reduce, Scatter, Allgather
  5. PEN-016 - Tests réalisés par AMD Performance Labs le [28 avril 2025] sur la [carte réseau AMD Pensando™ Pollara 400 AI NIC], sur un système de production comprenant : 2 nœuds de 8 GPU AMD MI300X (16 GPU) : commutateur leaf Broadcom Tomahawk-4 (64x400G) du réseau MICAS ; Topologie CLOS ; AMD Pensando Pollara AI NIC – 16 cartes réseau ; Modèle de CPU dans chacun des 2 nœuds - Double socket de 5e génération Intel® Xeon® 8568 - CPU 48 cœurs avec PCIe® Gen 5 version BIOS 1.3.6 ; Atténuation - Désactivée (par défaut)
    Paramètres du profil système - Performances (par défaut) SMT - activé (par défaut) ; système d'exploitation Ubuntu 22.04.5 LTS, noyau 5.15.0-139-generic.
    Les opérations suivantes ont été mesurées : Allreduce
    Moyenne de 25 % pour les opérations All-Reduce avec 4QP et utilisation de RDMA compatible UEC par rapport à RoCEv2 pour plusieurs échantillons de tailles de messages différentes (512 Mo, 1 Go, 2 Go, 4 Go, 8 Go, 16 Go). Les résultats sont basés sur la moyenne d'au moins 8 exécutions de test.