Potenciar la infraestructura de IA de escalabilidad horizontal

Como la primera tarjeta de interfaz de red (NIC) de IA lista para el consorcio Ultra Ethernet (UEC) de la industria, la AI NIC AMD Pensando™ Pollara 400 está diseñada para acelerar las aplicaciones que se ejecutan en nodos de IA en centros de datos de megaescala y gigaescala, con velocidades de Ethernet de hasta 400 Gigabits por segundo (Gbps).

Creada con el motor comprobado Pensando P4 de tercera generación totalmente programable por hardware, la AI NIC AMD Pensando Pollara 400 ofrece un rendimiento líder con la flexibilidad de programarla para cumplir con los requisitos futuros, lo que ayuda a maximizar las inversiones en infraestructura para hiperescaladores, proveedores de servicios en la nube y empresas.

Acelera el rendimiento de IA a escala

Hasta
8 % Tiempos de finalización del trabajo de IA más rápidos 1

Con velocidades de comunicación de GPU a GPU de hasta 400 Gbps, la AI NIC AMD Pensando™ Pollara 400 ofrece tiempos de finalización de trabajos de IA hasta un 8 % más rápidos en comparación con la competencia, lo que ayuda a acelerar el entrenamiento de IA y el tiempo de lanzamiento a producción de las cargas de trabajo de IA generativa.

Hasta
50 % Mayor tiempo de actividad del clúster 2

Ayuda a mejorar el tiempo de actividad efectivo de los clústeres en hasta un 50 % mediante capacidades mejoradas de confiabilidad, disponibilidad y facilidad de servicio (RAS). La AI NIC AMD Pensando™ Pollara 400 acelera la convergencia y la recuperación ante pérdidas cuando hay congestión, lo que ayuda a que las cargas de trabajo de IA a gran escala sigan funcionando con menos interrupciones.

Hasta
58 % de reducción del gasto de inversión de capital 3

La AI NIC AMD Pensando™ Pollara 400 está diseñada para satisfacer las necesidades de las cargas de trabajo de IA actuales y futuras, y permite arquitecturas de Ethernet abiertas y multiplano que pueden reducir la inversión de capital en redes en hasta un 58 %, mientras que proporciona flexibilidad para escalar a medida que evoluciona la infraestructura de IA.

Excelencia operativa mejorada

Diseñada con hardware y software totalmente programables, la AI NIC AMD Pensando™ Pollara 400 minimiza el tiempo de inactividad, valida el estado de los clústeres, proporciona telemetría avanzada y permite una preparación para la producción más rápida para la infraestructura de IA.

Escalabilidad horizontal de la infraestructura de IA preparada para el futuro

A medida que los clústeres de IA se escalan, el rendimiento depende cada vez más del comportamiento de la red, ya que la congestión, la latencia de cola y la propagación de fallas definen la eficiencia, el costo y la confiabilidad del sistema.

Lee esta guía de producto para saber cómo la AI NIC AMD Pensando™ Pollara 400 puede proporcionar un escalamiento predecible, una mejor utilización y un rendimiento sostenido a medida que se escala horizontalmente tu infraestructura de IA.

Aspectos destacados de la AI NIC AMD Pensando™ Pollara 400

El papel fundamental de la programabilidad de NIC en la escalabilidad horizontal para la IA de las redes de centros de datos

Se están construyendo infraestructuras para alojar cargas de trabajo de IA. En la escalabilidad horizontal efectiva, las redes juegan un papel fundamental, y esas redes se están inclinando hacia Ethernet. Sin embargo, la creación de redes efectivas no se trata solo de interruptores: la creación de funcionalidades avanzadas en tarjetas de interfaz de red es una estrategia de diseño esencial. Jim Frey, analista principal de Redes Empresariales en Enterprise Strategy Group by TechTarget, comparte su perspectiva sobre por qué cree que las NIC programables de AMD representan un camino optimizado hacia el éxito.

Ultra Ethernet Consortium logo

La primera AI NIC de la industria compatible con funciones de Ultra Ethernet Consortium (UEC)

La AI NIC AMD Pensando™ Pollara 400 integra las funciones de transporte de UEC en Ethernet, lo que permite que UEC RDMA proporcione un rendimiento más constante para las cargas de trabajo de IA. Con un motor P4 totalmente programable, la AI NIC admite la adopción y el refinamiento continuos de las capacidades de UEC a través del software, lo que permite que las redes evolucionen con estándares emergentes sin reemplazo de hardware.

Rendimiento mejorado de las redes para las cargas de trabajo de IA

Liderazgo competitivo en el rendimiento de la comunicación colectiva de la IA por Ethernet

Con el uso de RoCEv2 sobre Ethernet estándar en ambos casos, la AI NIC AMD Pensando™ Pollara 400 que ejecuta el software ROCm™ ofrece hasta un 10 % más de rendimiento de comunicación colectiva de la IA en comparación con NVIDIA que ejecuta RCCL4.

AI NIC AMD Pensando™ Pollara 400

NIC RDMA de NVIDIA de 400 Gbps

Hasta un 10 % de mejora del rendimiento de RoCEv2
+10 %

RDMA listo para UEC en la AI NIC AMD: ganancias notables en el rendimiento de la comunicación colectiva de la IA

La AI NIC AMD Pensando™ Pollara 400 logra hasta un 25 % más de rendimiento en operaciones de comunicación colectiva con RDMA listo para UEC en comparación con RoCEv25.

AI NIC AMD Pensando™ Pollara 400 UEC-RDMA: RDMA listo para UEC

AI NIC AMD Pensando™ Pollara 400 UEC-RDMA: RoCEv2

Hasta un 25 % más rendimiento con UEC RDMA
Más de un 25 %

PCIe clave

Monitoreo de red inteligente y equilibrio de carga

Distribución de paquetes inteligente

La distribución de paquetes inteligente permite a los equipos optimizar de manera fluida el rendimiento de la red mejorando el equilibrio de carga y aumentando la eficiencia general y la escalabilidad. El rendimiento mejorado de la red puede reducir significativamente los tiempos de comunicación de GPU a GPU, lo que lleva a una finalización de los trabajos más rápida y una mayor eficiencia operativa.

AI technology concept
Manejo de paquetes fuera de orden y entrega de mensajes en orden

Garantiza que los mensajes se entreguen en el orden correcto, incluso cuando se emplean técnicas de creación de varias rutas y de distribución de paquetes. La función avanzada de entrega de mensajes fuera de orden procesa de manera eficiente los paquetes de datos que pueden llegar fuera de secuencia al colocarlos directamente en la memoria de la GPU de manera fluida y sin necesidad de almacenamiento en búfer.

Programming code abstract technology background of software developer and  Computer script
Retransmisión selectiva

Aumenta el rendimiento de la red con la retransmisión de reconocimiento selectivo (SACK), que garantiza que solo se retransmitan los paquetes perdidos o dañados. SACK detecta y reenvía de manera eficiente los paquetes perdidos o dañados, lo que optimiza la utilización del ancho de banda y ayuda a reducir la latencia durante la recuperación de pérdidas de paquetes y a minimizar la transmisión de datos redundante para lograr una eficiencia excepcional.

Abstract illustration of a data stream
Control de congestión con reconocimiento de rutas

Concéntrate en las cargas de trabajo, no en el monitoreo de red, con telemetría en tiempo real y algoritmos con reconocimiento de red. La función de control de congestión con reconocimiento de rutas simplifica la gestión del rendimiento de la red, lo que les permite a los equipos detectar y abordar rápidamente los problemas críticos al tiempo que mitigan el impacto de los casos de incast.

Abstract data center concept
Detección rápida de fallos

Con la detección rápida de fallas, los equipos pueden identificar los problemas en milisegundos, lo que permite que la recuperación de las conmutaciones por errores sea casi instantánea y reduce significativamente el tiempo de inactividad de la GPU. Aprovecha la observabilidad de red elevada con las métricas de latencia casi en tiempo real y las estadísticas de congestión y caída.

Digital cyberspace and digital data network connections

Especificaciones de la AI NIC AMD Pensando™ Pollara 400

Ancho de banda máximo Formato Interfaz Ethernet Velocidades de Ethernet Configuraciones de Ethernet Administración
Hasta 400 Gb/s Altura media, longitud media PCIe® x16 Gen 5; OCP® 3.0 25/50/100/200/400 Gb/s

Admite hasta 4 puertos
- 1 unidad de 400 G
- 2 unidades de 200 G
- 4 unidades de 100 G
- 4 unidades de 50 G
- 4 unidades de 25 G

MCTP en SMBus

Soluciones de ecosistemas de socios

AMD se asocia con fabricantes de equipos originales (OEM) y fabricantes de diseños originales (ODM) líderes para ofrecer un ecosistema integral de soluciones basadas en redes de AMD. Explora nuestra diversa cartera de ofertas de socios diseñadas para acelerar la innovación y el rendimiento.

Plataformas de servidor AI NIC AMD Pensando™ Pollara 400

ASRock Rack logo
Celestica logo
Cisco white logo
Compal logo
Dell Technologies logo
Foxconn logo
Gigabyte logo
HPE logo
ingrasys logo
Lenovo logo
MiTAC Computing logo
QCT logo
Supermicro logo
Wistron logo

Recursos

Desbloquea el futuro de las redes de IA

Descubre cómo la AI NIC AMD Pensando Pollara 400 puede transformar tu infraestructura de IA de escalabilidad horizontal.

Explora el conjunto completo de soluciones de redes de AMD diseñadas para centros de datos modernos de alto rendimiento.

Notas al pie
  1. PEN-020: Pruebas realizadas por los laboratorios de rendimiento de AMD al [15 de septiembre del 2025] en una AI NIC AMD Pensando Pollara que ejecuta Llama 3.1-405B con un tamaño de lote global (GBS) de 64 con 8K de longitud de secuencia, en un sistema de prueba compuesto por un servidor SMC-300X de ocho nodos para la comunicación de GPU a GPU con dos AI NIC AMD Pensando Pollara o dos NVIDIA CX-7, procesador AMD EPYC 9454 de 2P y 48 núcleos, ocho GPU AMD Instinct MI300X, Ubuntu 22.04.5 LTS, kernel 5.15.0-139-generic, ROCm 6.4.1.0-83-69b59e5.
    La siguiente operación es parte de la función de puerta de enlace
    Configuración: Número de capas=4, Tipo de datos=BF16, DCN - TP=1, PP=1, SP=1, DP=1, FSDP=-1, ICI - TP=1, PP=1, SP=1, DP=1, FSDP=8.
    Contenedor AINIC: jax-private:rocm6.4.0-jax0.5.0-py3.10.12-tedev2.1-20250801_training. Los resultados pueden variar debido a factores como la configuración del sistema y los ajustes del software, entre otros.
  2. PEN-019: Pruebas realizadas por los laboratorios de rendimiento de AMD al [15 de septiembre del 2025] en la AI NIC AMD Pensando Pollara, en un sistema de prueba compuesto por el servidor SMC-300X para la comunicación de GPU a GPU: dos AI NIC AMD Pensando Pollara, procesador AMD EPYC 9454 de 2P y 48 núcleos, ocho GPU AMD Instinct MI300X, Ubuntu 22.04.5 LTS, kernel 5.15.0-139-generic, ROCm 6.4.1.0-83-69b59e5. Prueba de ejecución de Llama-3.1-8B, configuración del modelo: SEQ_LEN=2048, TP=1, PP=1, CP=1, FP8=1, MBS=10, GBS = 5120. Iteración = 2, Número de rutas/QP: 128. Los resultados pueden variar debido a factores como la configuración del sistema y los ajustes del software, entre otros.
  3. PEN-018: Comparación y precios de AMD al 6 de julio del 2025, para costos de tejidos de red que admitan 128 000 GPU. Comparación de una NIC Pollara con tejido multiplano y dispersión de paquetes en un diseño multiplano basado en Tomahawk 5 de 800 Gbps frente a un tejido genérico de árbol grueso fabricado en plataformas de conmutación de 800 Gbps de gran búfer totalmente programadas (Jericho3/Ramon3). Se supone que el sistema genérico utiliza una NIC competitiva, con costos de NIC que se consideran comparables. Se estima que el diseño basado en Pollara ofrece hasta un 58 % de ahorro en costos de conmutación de red, ya que permite el uso de una conmutación basada en Tomahawk 5 más rentable en una arquitectura multiplano. Comparación y precios de AMD al 23/4/2025 de un sistema Tomahawk 5 con NIC Pensando Pollara con tejido multiplano exclusivo y dispersión de paquetes frente a una plataforma de conmutación genérica de 800 Gbps de gran búfer; el sistema genérico utilizaba una NIC competitiva, y se supone que los costos de las NIC son comparables. La implementación de Pollara con soporte de varios tejidos y dispersión de paquetes permite a los clientes crear tejidos de red multiplano rentables, en lugar de un diseño de árbol grueso con menos conmutadores de red para ofrecer la misma cantidad de ancho de banda de red en todo el tejido y reducir drásticamente el costo de la plataforma de conmutación y el costo asociado con los cables y los elementos ópticos.
  4. PEN-015: pruebas realizadas por los laboratorios de rendimiento de AMD al [13 de mayo del 2025] en la [AI NIC Pollara y NIC NVIDIA CX7], en un sistema de prueba compuesto por ocho nodos de ocho GPU AMD MI300X (64 GPU); conmutador leaf basado en Broadcom Tomahawk-5 (64 x 800 Gbps) modelo Dell z9864f-r0; topología RAIL; AI NIC AMD Pollara: 64 NIC, ROCm™ versión 6.3.2.0-66-cbc70b5 O SmartNIC NVIDIA CX7: 64 NIC, RCCL versión 2.24.3-develop:7961624; modelo de CPU en cada uno de los ocho nodos: procesador de doble socket AMD EPYC 9454 de 48 núcleos; sistema operativo Ubuntu® 22.04.5 LTS; kernel 5.15.0-139-generic.
    Todas las bibliotecas de software de aplicaciones (RCCL y ROCm) y el entorno de prueba son exactamente iguales, excepto los controladores de bajo nivel, que son específicos del hardware.
    Para la tarjeta NVIDIA CX7, los controladores se instalan desde el vínculo de metodología de instalación de controladores Linux disponible abiertamente en el sitio web de NVIDIA.
    https://docs.nvidia.com/networking/display/connectx7vpi/linux+driver+installation

    Para NIC AMD Pensando Pollara
    Los controladores que se utilizan son de la versión interna, pero se planifica que estén disponibles públicamente en los próximos meses.

    Se midieron las siguientes operaciones de comunicación colectiva:
    Allreduce, Allroall, Alltoallv, Broadcast, Reduce, Scatter, Allgather
  5. PEN-016: pruebas realizadas por los laboratorios de rendimiento de AMD al [28 de abril del 2025] en la [AI NIC AMD Pensando™ Pollara 400], en un sistema de producción compuesto por: 2 nodos de GPU AMD 8xMI300X (16 GPU): Conmutador leaf basado en Broadcom Tomahawk-4 (64 puertos de 400 Gbps) de la red MICAS; topología CLOS; AI NIC AMD Pensando Pollara: 16 NIC; modelo de CPU en cada uno de los dos nodos: Intel® Xeon® 8568 de 5.ª generación con dos socket y CPU de 48 núcleos con PCIe® Gen 5 BIOS versión 1.3.6; mitigación: desactivada (predeterminado).
    Configuración del perfil del sistema: rendimiento (predeterminado) SMT habilitado (predeterminado); sistema operativo Ubuntu 22.04.5 LTS, kernel 5.15.0-139 genérico.
    Se midieron las siguientes operaciones: Allreduce
    Promedio del 25 % para operaciones Allreduce con 4QP y uso de RDMA compatible con UEC frente a RoCEv2 para múltiples muestras de diferentes tamaños de mensaje (512 MB, 1 GB, 2 GB, 4 GB, 8 GB, 16 GB). Los resultados se basan en el promedio de al menos 8 pruebas.