Potencializando a infraestrutura de IA expandida
Como a primeira NIC (Networking Interface Card, Placa de interface de rede) para IA compatível com o UEC (Ultra Ethernet Consortium) do setor, a NIC para IA AMD Pensando™ Pollara 400 foi projetada para acelerar a execução de aplicações em nós de IA em data centers de megaescala e gigaescala, alcançando velocidades Ethernet de até 400 Gigabits por segundo (Gbps).
Desenvolvida com base no comprovado mecanismo de terceira geração Pensando P4, totalmente programável por hardware, a NIC para IA AMD Pensando Pollara 400 oferece desempenho líder com a flexibilidade de ser programada para atender a requisitos futuros, ajudando a maximizar os investimentos em infraestrutura para hiperescaladores, provedores de serviços em nuvem e empresas.
Acelere o desempenho da IA em escala
Com velocidades de comunicação de até 400 Gbps entre GPUs, a NIC para IA AMD Pensando™ Pollara 400 agiliza a conclusão de tarefas com IA em até 8% em comparação com a concorrência, ajudando a acelerar o treinamento de IA e o tempo de produção para cargas de trabalho de IA generativa.
Ajude a aumentar o tempo de atividade efetivo do cluster em até 50% por meio de recursos aprimorados de RAS (Reliability, Availability, and Serviceability, Confiabilidade, disponibilidade e facilidade de manutenção). A NIC para IA AMD Pensando™ Pollara 400 acelera a convergência e a recuperação de perdas em situações de congestionamento, ajudando cargas de trabalho de IA em larga escala a continuarem em execução com menos interrupções.
Projetada para atender às necessidades das cargas de trabalho de IA atuais e futuras, a NIC para IA AMD Pensando™ Pollara 400 permite arquiteturas Ethernet multiplano e abertas que podem reduzir os gastos de capital com rede em até 58%, ao mesmo tempo em que oferece flexibilidade para dimensionar à medida que a infraestrutura de IA evolui.
Excelência operacional aprimorada
Projetada com hardware e software totalmente programáveis, a NIC para IA AMD Pensando™ Pollara 400 minimiza o tempo de inatividade, valida o estado do cluster, oferece telemetria avançada e permite uma preparação mais rápida para a produção da infraestrutura de IA.
Expandindo a infraestrutura de IA pronta para o futuro
Conforme os clusters de IA aumentam, o desempenho depende cada vez mais do comportamento da rede, pois o congestionamento, a latência residual e a propagação de falhas determinam a eficiência, o custo e a confiabilidade do sistema.
Leia este guia do produto para saber como a NIC para IA AMD Pensando™ Pollara 400 pode oferecer dimensionamento estável, melhor utilização e desempenho contínuo à medida que você expande sua infraestrutura de IA.
NIC para IA AMD Pensando™ Pollara 400 em destaque
A função essencial da programabilidade da placa de rede na expansão de redes de data center para IA
Estão em andamento expansões de infraestrutura para hospedar cargas de trabalho de IA. Para uma expansão efetiva, as redes desempenham um papel fundamental, e essas redes estão se inclinando para a Ethernet. No entanto, uma rede eficaz não consiste apenas nos comutadores. A criação de funcionalidades avançadas em placas de interface de rede é uma estratégia essencial do projeto. Jim Frey, Analista Principal de Redes Empresariais do Enterprise Strategy Group da TechTarget, compartilha sua perspectiva sobre por que ele acha que as placas de rede programáveis da AMD representam um caminho otimizado para o sucesso.
A primeira placa de interface de rede de IA do setor compatível com recursos do UEC (Ultra Ethernet Consortium)
A NIC para IA AMD Pensando™ Pollara 400 integra os recursos de transporte UEC à Ethernet, permitindo que o UEC RDMA ofereça desempenho mais consistente para cargas de trabalho de IA. Com um mecanismo P4 totalmente programável, a NIC para IA possibilita a adoção e o aprimoramento contínuos dos recursos do UEC por meio de software, permitindo que as redes evoluam de acordo com os padrões emergentes sem necessidade de substituir o hardware.
Desempenho de rede aprimorado para cargas de trabalho de IA
Liderança competitiva no desempenho de comunicação coletiva de IA em Ethernet
Usando o RoCEv2 sobre Ethernet padrão em ambos os casos, a NIC para IA AMD Pensando™ Pollara 400 com software ROCm™ proporciona um desempenho de comunicação coletiva de IA até 10% mais robusto em comparação com a NVIDIA executando RCCL.4
NIC para IA AMD Pensando™ Pollara 400
NIC RDMA NVIDIA DE 400G
RDMA pronta para UEC na NIC para IA AMD: Avanços significativos no desempenho de comunicação coletiva de IA
A NIC para IA AMD Pensando™ Pollara 400 alcança até 25% mais desempenho de operação de comunicação coletiva com RDMA pronta para UEC em comparação com o RoCEv2.5
NIC para IA AMD Pensando™ Pollara 400 UEC-RDMA - RDMA pronto para UEC
NIC para IA AMD Pensando™ Pollara 400 UEC-RDMA - RoCEv2
Recursos
Monitoramento de rede inteligente e balanceamento de carga
- Pulverização inteligente de pacotes
- Manuseio de pacotes fora de ordem e entrega de mensagens em ordem
- Retransmissão seletiva
- Controle de congestionamento baseado no caminho
- Detecção rápida de falhas
Pulverização inteligente de pacotes
A pulverização inteligente de pacotes permite que as equipes otimizem o desempenho da rede de forma contínua, melhorando o balanceamento de carga e aumentando a eficiência geral e a escalabilidade. O desempenho aprimorado da rede pode reduzir significativamente os tempos de comunicação entre GPUs, agilizando a conclusão dos trabalhos e tornando as operações mais eficientes.
Manuseio de pacotes fora de ordem e entrega de mensagens em ordem
Ajude a garantir que as mensagens sejam entregues na ordem correta, mesmo ao empregar técnicas de múltiplos caminhos e de pulverização de pacotes. O avançado recurso de entrega de mensagens fora de ordem processa com eficiência pacotes de dados que podem chegar fora de sequência, colocando-os diretamente na memória da GPU sem a necessidade de armazenamento em buffer.
Retransmissão seletiva
Aumente o desempenho da rede com retransmissão de SACK (Selective ACKnowledgment, Reconhecimento seletivo), que ajuda a garantir que apenas pacotes perdidos ou corrompidos sejam retransmitidos. O SACK detecta e reenvia pacotes perdidos ou danificados de forma eficiente, otimizando a utilização da largura de banda, ajudando a reduzir a latência durante a recuperação de perda de pacotes e minimizando a transmissão de dados redundantes para uma eficiência excepcional.
Controle de congestionamento baseado no caminho
Concentre-se nas cargas de trabalho, não no monitoramento de rede, com algoritmos de telemetria e de reconhecimento de rede em tempo real. O recurso de controle de congestionamento com reconhecimento de caminhos simplifica o gerenciamento de desempenho da rede, permitindo que as equipes detectem e solucionem rapidamente problemas críticos e, ao mesmo tempo, ajudem a atenuar o impacto de cenários de incast.
Detecção rápida de falhas
Com a detecção rápida de falhas, as equipes podem identificar problemas em milissegundos, permitindo a recuperação quase instantânea de failover e ajudando a reduzir significativamente o tempo de inatividade da GPU. Aproveite a observabilidade de rede elevada com métricas de latência quase em tempo real e estatísticas de congestionamento e queda.
Especificações da NIC para IA AMD Pensando™ Pollara 400
| Largura de banda máxima | Fator de forma | Interface Ethernet | Velocidades de Ethernet | Configurações de Ethernet | Gerenciamento |
| até 400 Gbps | Metade da altura, metade do comprimento | PCIe® Gen5.0x16; OCP® 3.0 | 25/50/100/200/400 Gbps | Suporta até 4 portas |
MCTP sobre SMBus |
Soluções de ecossistemas de parceiros
A AMD tem parceria com os principais OEMs (Original Equipment Manufacturers, Fabricantes de equipamentos originais) e ODMs (Original Design Manufacturers, Fabricantes originais do projeto) para oferecer um ecossistema abrangente de soluções com tecnologia de rede AMD. Explore nosso portfólio diversificado de ofertas de parceiros projetadas para acelerar a inovação e o desempenho.
Plataformas de servidor prontas para NIC para IA AMD Pensando™ Pollara 400
Recursos
Abra as portas do futuro das redes com IA
Saiba como a NIC para IA AMD Pensando Pollara 400 pode transformar sua infraestrutura de IA expandida.
Explore o conjunto completo de soluções de rede AMD projetadas para data centers modernos de alto desempenho.
Notas de rodapé
- PEN-020: Testes realizados pelos laboratórios de desempenho AMD em [15 de setembro de 2025] na NIC para IA AMD Pensando Pollara, executando Llama 3.1-405B com GBS (Global Batch Size, Tamanho de lote global) de 64 e comprimento de sequência de 8K, em um sistema de teste composto por 8 nós do servidor SMC-300X para comunicação entre GPUs, utilizando 2 NICs para IA AMD Pensando Pollara ou 2 Nvidias CX-7, processadores 2P AMD EPYC 9454 de 48 núcleos 2P, 8 GPUs AMD Instinct MI300X, Ubuntu 22.04.5 LTS, kernel 5.15.0-139-generic, ROCm 6.4.1.0-83-69b59e5
As seguintes operações fazem parte da função do gateway
Configuração: Número de camadas=4, Tipo de dados=BF16, DCN - TP=1, PP=1, SP=1, DP=1, FSDP=-1, ICI - TP=1, PP=1, SP=1, DP=1, FSDP=8.
Contêiner AINIC: jax-private:rocm6.4.0-jax0.5.0-py3.10.12-tedev2.1-20250801_training. Os resultados podem variar de acordo com fatores que incluem, entre outros, configurações do sistema e do software.
- PEN-019: Testes realizados pelos laboratórios de desempenho AMD em [15 de setembro de 2025] na NIC para IA AMD Pensando Pollara, em um sistema de teste composto pelo servidor SMC-300X para comunicação entre GPUs: 2 NICs para IA AMD Pensando Pollara, processador 2P AMD EPYC 9454 de 48 núcleos, 8 GPUs AMD Instinct MI300X, Ubuntu 22.04.5 LTS, kernel 5.15.0-139-generic, ROCm 6.4.1.0-83-69b59e5. Testando a execução do Llama-3.1-8B, configuração do modelo: SEQ_LEN=2048, TP=1, PP=1, CP=1,FP8=1, MBS=10, GBS = 5120. Iteração= 2, número de caminhos/QP : 128. Os resultados podem variar de acordo com fatores que incluem, entre outros, configurações do sistema e do software.
- PEN-018: Comparação e preços da AMD em 6 de julho de 2025 para custos de malha de rede para suportar 128.000 GPUs. Comparação de uma NIC Pollara com malha multiplano e distribuição de pacotes em um design multiplano baseado em Tomahawk-5 de 800 G em comparação com uma malha genérica de topologia em fat tree desenvolvida em plataformas de comutação de 800 G com buffer grande (Jericho3/Ramon3) totalmente programadas. Presume-se que o sistema genérico utilize uma NIC competitiva, sendo os custos da NIC considerados comparáveis. Estima-se que o projeto baseado em Pollara proporcione uma economia de até 58% nos custos de comutação de rede, ao permitir o uso de uma comutação mais econômica baseada em Tomahawk 5 em uma arquitetura multiplano. Comparação e preços da AMD em 23 de abril de 2025 de um sistema Tomahawk-5 com uma NIC Pensando Pollara com tecido multiplano exclusivo e distribuição de pacotes em comparação com uma plataforma de comutação genérica de 800 G de buffer grande; o sistema genérico utilizaria uma NIC competitiva, e os custos das NICs são considerados comparáveis. A implantação da Pollara com suporte a várias malhas e distribuição de pacotes permite que os clientes criem malhas de rede multiplano econômicas, em vez de um design de topologia em fat tree, usando menos switches de rede para fornecer a mesma quantidade de largura de banda de rede em toda a malha e reduzindo drasticamente o custo da plataforma de switch e o custo associado a cabos e óptica.
- PEN-015 - Testes realizados pelos laboratórios de desempenho AMD em [13 de maio de 2025] na [NIC para IA Pollara e NIC Nvidia CX7], em um sistema de teste composto por 8 nós de 8 GPUs AMD MI300X (64 GPUs); switch leaf baseado em Broadcom Tomahawk-5 (64x800 G) Modelo Dell z9864f-r0; Topologia RAIL; NIC para IA AMD Pollara – 64 NICs, ROCm™ versão 6.3.2.0-66-cbc70b5 OU Nvidia CX7 SmartNIC - 64 NICs, RCCL versão 2.24.3-develop:7961624; modelo de CPU em cada um dos 8 nós - processador AMD EPYC 9454 de 48 núcleos e soquete duplo; sistema operacional Ubuntu® 22.04.5 LTS; Kernel 5.15.0-139-generic.
Todas as bibliotecas de software de aplicação (RCCL e ROCm) e o ambiente de teste são exatamente os mesmos, exceto os drivers de baixo nível, que são específicos para cada hardware.
Para a placa Nvidia CX7, os drivers são instalados seguindo a metodologia de instalação de drivers Linux disponível publicamente no site da NVIDIA
https://docs.nvidia.com/networking/display/connectx7vpi/linux+driver+installation
Para NIC AMD Pensando Pollara
Os drivers são usados a partir de uma versão interna, mas há planejamento para estarem disponíveis publicamente nos próximos meses.
As seguintes operações de comunicação coletiva foram medidas
Allreduce, Allroall, Alltoallv, Broadcast, Reduce, Scatter, Allgather
- PEN-016: testes realizados pelo AMD Performance Labs a partir de [28 de abril de 2025] na [NIC para IA AMD Pensando™ Pollara 400], em um sistema de produção composto por: 2 nós de 8 GPUs AMD MI300X (16 GPUs): Switch leaf baseado no Broadcom Tomahawk-4 (64x400 G) da MICAS Networks; topologia CLOS; NIC para IA AMD Pensando Pollara – 16 NICs; modelo de CPU em cada um dos 2 nós - processador Intel® Xeon® 8568 de 5ª geração de soquete duplo, 48 núcleos, com PCIe® de 5ª geração; versão de BIOS 1.3.6; mitigação - desativada (padrão)
Configuração do perfil do sistema - desempenho (padrão) habilitado para SMT (padrão); sistema operacional Ubuntu 22.04.5 LTS, Kernel 5.15.0-139-generic.
A seguinte operação foi avaliada: Allreduce
Média de 25% para todas as operações de All-Reduce com 4QP e usando RDMA pronto para UEC em comparação com RoCEv2 para várias amostras de tamanho de mensagem diferentes (512 MB, 1 GB, 2 GB, 4 GB, 8 GB, 16 GB). Os resultados são baseados na média de pelo menos oito execuções de teste.
- PEN-020: Testes realizados pelos laboratórios de desempenho AMD em [15 de setembro de 2025] na NIC para IA AMD Pensando Pollara, executando Llama 3.1-405B com GBS (Global Batch Size, Tamanho de lote global) de 64 e comprimento de sequência de 8K, em um sistema de teste composto por 8 nós do servidor SMC-300X para comunicação entre GPUs, utilizando 2 NICs para IA AMD Pensando Pollara ou 2 Nvidias CX-7, processadores 2P AMD EPYC 9454 de 48 núcleos 2P, 8 GPUs AMD Instinct MI300X, Ubuntu 22.04.5 LTS, kernel 5.15.0-139-generic, ROCm 6.4.1.0-83-69b59e5
As seguintes operações fazem parte da função do gateway
Configuração: Número de camadas=4, Tipo de dados=BF16, DCN - TP=1, PP=1, SP=1, DP=1, FSDP=-1, ICI - TP=1, PP=1, SP=1, DP=1, FSDP=8.
Contêiner AINIC: jax-private:rocm6.4.0-jax0.5.0-py3.10.12-tedev2.1-20250801_training. Os resultados podem variar de acordo com fatores que incluem, entre outros, configurações do sistema e do software. - PEN-019: Testes realizados pelos laboratórios de desempenho AMD em [15 de setembro de 2025] na NIC para IA AMD Pensando Pollara, em um sistema de teste composto pelo servidor SMC-300X para comunicação entre GPUs: 2 NICs para IA AMD Pensando Pollara, processador 2P AMD EPYC 9454 de 48 núcleos, 8 GPUs AMD Instinct MI300X, Ubuntu 22.04.5 LTS, kernel 5.15.0-139-generic, ROCm 6.4.1.0-83-69b59e5. Testando a execução do Llama-3.1-8B, configuração do modelo: SEQ_LEN=2048, TP=1, PP=1, CP=1,FP8=1, MBS=10, GBS = 5120. Iteração= 2, número de caminhos/QP : 128. Os resultados podem variar de acordo com fatores que incluem, entre outros, configurações do sistema e do software.
- PEN-018: Comparação e preços da AMD em 6 de julho de 2025 para custos de malha de rede para suportar 128.000 GPUs. Comparação de uma NIC Pollara com malha multiplano e distribuição de pacotes em um design multiplano baseado em Tomahawk-5 de 800 G em comparação com uma malha genérica de topologia em fat tree desenvolvida em plataformas de comutação de 800 G com buffer grande (Jericho3/Ramon3) totalmente programadas. Presume-se que o sistema genérico utilize uma NIC competitiva, sendo os custos da NIC considerados comparáveis. Estima-se que o projeto baseado em Pollara proporcione uma economia de até 58% nos custos de comutação de rede, ao permitir o uso de uma comutação mais econômica baseada em Tomahawk 5 em uma arquitetura multiplano. Comparação e preços da AMD em 23 de abril de 2025 de um sistema Tomahawk-5 com uma NIC Pensando Pollara com tecido multiplano exclusivo e distribuição de pacotes em comparação com uma plataforma de comutação genérica de 800 G de buffer grande; o sistema genérico utilizaria uma NIC competitiva, e os custos das NICs são considerados comparáveis. A implantação da Pollara com suporte a várias malhas e distribuição de pacotes permite que os clientes criem malhas de rede multiplano econômicas, em vez de um design de topologia em fat tree, usando menos switches de rede para fornecer a mesma quantidade de largura de banda de rede em toda a malha e reduzindo drasticamente o custo da plataforma de switch e o custo associado a cabos e óptica.
- PEN-015 - Testes realizados pelos laboratórios de desempenho AMD em [13 de maio de 2025] na [NIC para IA Pollara e NIC Nvidia CX7], em um sistema de teste composto por 8 nós de 8 GPUs AMD MI300X (64 GPUs); switch leaf baseado em Broadcom Tomahawk-5 (64x800 G) Modelo Dell z9864f-r0; Topologia RAIL; NIC para IA AMD Pollara – 64 NICs, ROCm™ versão 6.3.2.0-66-cbc70b5 OU Nvidia CX7 SmartNIC - 64 NICs, RCCL versão 2.24.3-develop:7961624; modelo de CPU em cada um dos 8 nós - processador AMD EPYC 9454 de 48 núcleos e soquete duplo; sistema operacional Ubuntu® 22.04.5 LTS; Kernel 5.15.0-139-generic.
Todas as bibliotecas de software de aplicação (RCCL e ROCm) e o ambiente de teste são exatamente os mesmos, exceto os drivers de baixo nível, que são específicos para cada hardware.
Para a placa Nvidia CX7, os drivers são instalados seguindo a metodologia de instalação de drivers Linux disponível publicamente no site da NVIDIA
https://docs.nvidia.com/networking/display/connectx7vpi/linux+driver+installation
Para NIC AMD Pensando Pollara
Os drivers são usados a partir de uma versão interna, mas há planejamento para estarem disponíveis publicamente nos próximos meses.
As seguintes operações de comunicação coletiva foram medidas
Allreduce, Allroall, Alltoallv, Broadcast, Reduce, Scatter, Allgather - PEN-016: testes realizados pelo AMD Performance Labs a partir de [28 de abril de 2025] na [NIC para IA AMD Pensando™ Pollara 400], em um sistema de produção composto por: 2 nós de 8 GPUs AMD MI300X (16 GPUs): Switch leaf baseado no Broadcom Tomahawk-4 (64x400 G) da MICAS Networks; topologia CLOS; NIC para IA AMD Pensando Pollara – 16 NICs; modelo de CPU em cada um dos 2 nós - processador Intel® Xeon® 8568 de 5ª geração de soquete duplo, 48 núcleos, com PCIe® de 5ª geração; versão de BIOS 1.3.6; mitigação - desativada (padrão)
Configuração do perfil do sistema - desempenho (padrão) habilitado para SMT (padrão); sistema operacional Ubuntu 22.04.5 LTS, Kernel 5.15.0-139-generic.
A seguinte operação foi avaliada: Allreduce
Média de 25% para todas as operações de All-Reduce com 4QP e usando RDMA pronto para UEC em comparação com RoCEv2 para várias amostras de tamanho de mensagem diferentes (512 MB, 1 GB, 2 GB, 4 GB, 8 GB, 16 GB). Os resultados são baseados na média de pelo menos oito execuções de teste.