스케일 아웃 AI 인프라 지원
업계 최초의 울트라 이더넷 컨소시엄(UEC) 지원 AI 네트워킹 인터페이스 카드(NIC)인 AMD Pensando™ Pollara 400 AI NIC는 메가 스케일 및 기가 스케일 데이터 센터의 AI 노드 전반에서 실행되는 애플리케이션 가속화에 최적화되었으며, 최대 400Gbps의 이더넷 속도를 지원합니다.
검증을 거치고 완전 하드웨어 프로그래밍 가능한 3세대 Pensando P4 엔진을 기반으로 제작된 AMD Pensando Pollara 400 AI NIC는 미래의 요구 사항을 충족하도록 프로그래밍할 수 있는 유연성과 함께 업계 최고의 성능을 제공하여 하이퍼스케일러, 클라우드 서비스 제공업체, 엔터프라이즈를 위한 인프라 투자 극대화를 지원합니다.
대규모 AI 성능 가속화
최대 400Gbps의 GPU-GPU 통신 속도를 자랑하는 AMD Pensando™ Pollara 400 AI NIC는 경쟁사에 비해 AI 작업 완료 시간을 최대 8% 단축하여 AI 훈련 및 생성형 AI 워크로드의 생산 시간을 가속하는 데 도움을 줍니다.
강화된 안정성, 가용성, 서비스 가능성(RAS) 기능을 통해 유효한 클러스터 가동 시간을 최대 50%까지 향상할 수 있습니다. AMD Pensando™ Pollara 400 AI NIC는 혼잡 시 컨버전스 및 손실 복구를 가속하여 대규모 AI 워크로드가 중단 없이 계속 실행되도록 지원합니다.
현재와 미래의 AI 워크로드 요구 사항을 충족하도록 설계된 AMD Pensando™ Pollara 400 AI NIC는 네트워크 자본 지출을 최대 58%까지 줄일 수 있는 개방형 멀티플레인 이더넷 아키텍처를 지원하며 AI 인프라의 진화에 따라 유연하게 확장할 수 있습니다.
운영 우수성 향상
완전히 프로그래밍 가능한 하드웨어 및 소프트웨어를 기반으로 설계된 AMD Pensando™ Pollara 400 AI NIC는 다운타임 최소화, 클러스터 상태 검증, 고급 텔레메트리 제공, AI 인프라의 신속한 운영 준비를 지원합니다.
AMD Pensando™ Pollara 400 AI NIC 스포트라이트
AI를 위한 데이터센터 네트워크 스케일 아웃에서 NIC 프로그래밍 용이성의 중요한 역할
AI 워크로드를 호스팅하기 위한 인프라 증축이 진행되고 있습니다. 효과적인 확장을 위해서는 네트워크가 중요한 역할을 하며, 이러한 네트워크는 이더넷 쪽으로 기울고 있습니다. 그러나 효과적인 네트워킹은 스위치에만 국한되지 않으며, 네트워크 인터페이스 카드에 고급 기능을 구축하는 것이 필수적인 설계 전략입니다. TechTarget의 Enterprise Strategy Group의 엔터프라이즈 네트워킹 수석 분석가인 Jim Frey가 AMD 프로그래밍 가능 NIC가 성공을 향한 최적화된 경로라고 생각하는 이유에 대해 설명합니다.
울트라 이더넷 컨소시엄(UEC) 기능을 지원하는 업계 최초의 AI NIC
AMD Pensando™ Pollara 400 AI NIC는 UEC 전송 기능을 이더넷에 통합하여 UEC RDMA가 AI 워크로드에 보다 일관된 성능을 제공할 수 있도록 지원합니다. 완벽히 프로그래밍할 수 있는 P4 엔진을 갖춘 AI NIC는 소프트웨어를 통해 UEC 기능의 지속적인 도입 및 개선을 지원하므로 하드웨어를 교체하지 않고도 새로운 표준에 맞춰 네트워크를 발전시킬 수 있습니다.
AI 워크로드를 위한 네트워킹 성능 향상
이더넷 AI 집단 통신 성능의 독보적인 리더십
두 환경 모두 표준 이더넷 상에서 RoCEv2를 사용하는 경우, ROCm™ 소프트웨어를 실행하는 AMD Pensando™ Pollara 400 AI NIC는 RCCL을 실행하는 NVIDIA 대비 최대 10% 더 뛰어난 AI 집단 통신 성능을 제공합니다.4
AMD Pensando™ Pollara 400 AI NIC
NVIDIA 400G RDMA NIC
AMD AI NIC의 UEC 지원 RDMA: AI 집단 통신 성능의 탁월한 향상
AMD Pensando™ Pollara 400 AI NIC는 RoCEv2와 비교했을 때 UEC 지원 RDMA를 통해 최대 25% 더 높은 집단 통신 운영 성능을 제공합니다.5
AMD Pensando™ Pollara 400 AI NIC UEC-RDMA - UEC 지원 RDMA
AMD Pensando™ Pollara 400 AI NIC UEC-RDMA - RoCEv2
기능
지능형 네트워크 모니터링 및 로드 밸런싱
- 지능형 패킷 스프레이
- 비순차적 패킷 처리 및 순차적 메시지 전달
- 선택적 재전송
- 경로 인식 혼잡 제어
- 신속한 오류 탐지
지능형 패킷 스프레이
지능형 패킷 스프레이를 통해 팀은 로드 밸런싱을 강화하고 전반적인 효율성 및 확장성을 높임으로써 네트워크 성능을 원활하게 최적화할 수 있습니다. 네트워크 성능이 향상되면 GPU 간 통신 시간이 크게 단축되어 작업 완료 속도가 빨라지고 운영 효율성이 더욱 향상됩니다.
비순차적 패킷 처리 및 순차적 메시지 전달
다중 경로 및 패킷 스프레이 기술을 사용하는 경우에도 메시지가 올바른 순서로 전달되도록 보장합니다. 고급 비순차적 메시지 전달 기능은 순서를 벗어나 도착할 수 있는 데이터 패킷을 효율적으로 처리하여 버퍼링 없이 GPU 메모리에 직접 원활하게 배치합니다.
선택적 재전송
제외되거나 손상된 패킷만 다시 전송되도록 하는 SACK(Selective Acknowledgment) 재전송으로 네트워크 성능을 향상합니다. SACK은 손실되거나 손상된 패킷을 효율적으로 탐지하고 재전송하여 대역폭 사용률을 최적화하고, 패킷 손실 복구 시 지연율을 줄이며, 중복 데이터 전송을 최소화하여 탁월한 효율성을 달성합니다.
경로 인식 혼잡 제어
실시간 원격 측정 및 네트워크 인식 알고리즘을 통해 네트워크 모니터링이 아닌 워크로드에 집중할 수 있습니다. 경로 인식 혼잡 제어 기능은 네트워크 성능 관리를 간소화하므로 팀은 심각한 문제를 신속하게 탐지하고 해결하면서 인캐스트 시나리오의 영향을 완화하도록 지원할 수 있습니다.
신속한 오류 탐지
신속한 오류 탐지를 통해 팀은 몇 밀리초 이내에 문제를 정확히 찾아낼 수 있으므로 거의 즉각적인 페일오버 복구를 지원하고 GPU 다운타임을 크게 줄일 수 있습니다. 실시간에 가까운 지연율 지표, 혼잡 및 제외 통계를 통해 향상된 네트워크 관측성을 활용할 수 있습니다.
AMD Pensando™ Pollara 400 AI NIC 사양
| 최대 대역폭 | 폼 팩터 | 이더넷 인터페이스 | 이더넷 속도 | 이더넷 구성 | 관리 |
| 최대 400Gbps | 절반 높이, 절반 길이 | PCIe® Gen5.0x16, OCP® 3.0 | 25/50/100/200/400Gbps | 최대 4개 포트 지원 |
SMBus를 통한 MCTP |
파트너 에코시스템 솔루션
AMD는 선도적인 OEM(주문자 상표 부착 생산업체) 및 ODM(오리지널 디자인 제조업체)과 협력하여 AMD 네트워킹 기반 솔루션의 포괄적인 에코시스템을 제공합니다. 혁신과 성과를 가속화하도록 설계된 다양한 파트너 제품 포트폴리오를 살펴보세요.
AMD Pensando™ Pollara 400 AI NIC 지원 서버 플랫폼
리소스
AI 네트워킹의 미래를 열다
AMD Pensando Pollara 400 AI NIC가 스케일 아웃 AI 인프라를 어떻게 혁신할 수 있는지 알아보세요.
고성능 첨단 데이터 센터를 위해 설계된 AMD 네트워킹 솔루션의 전체 제품군을 살펴보세요.
각주
- PEN-020: [2025년 9월 15일] 기준 AMD 퍼포먼스 랩에서 실시한 이 테스트는 GPU-GPU 통신용 8노드 SMC-300X 서버로 구성된 테스트 시스템에서 2개의 AMD Pensando Pollara AI NIC 또는 2개의 Nvidia CX-7, 2P AMD EPYC 9454 48코어 프로세서, 8개의 AMD Instinct MI300X GPU, Ubuntu 22.04.5 LTS, 커널 5.15.0-139-generic, ROCm 6.4.1.0-83-69b59e5를 사용하여 수행되었습니다. 본 테스트는 64 GBS(Global Batch Size) 및 8K 시퀀스 길이 조건에서 Llama 3.1-405B를 구동하는 AMD Pensando Pollara AI NIC를 대상으로 합니다.
다음 동작은 게이트웨이 기능의 일부입니다.
구성: 레이어 수=4, 데이터 타입=BF16, DCN - TP=1, PP=1, SP=1, DP=1, FSDP=-1, ICI - TP=1, PP=1, SP=1, DP=1, FSDP=8.
AINIC 컨테이너: jax-private:rocm6.4.0-jax0.5.0-py3.10.12-tedev2.1-20250801_training. 결과는 시스템 구성 및 소프트웨어 설정을 포함하되 이에 국한되지 않은 요인에 따라 달라질 수 있습니다.
- PEN-019: [2025년 9월 15일] 기준 AMD 퍼포먼스 랩에서 실시한 이 테스트는 GPU-GPU 통신용 SMC-300X 서버로 구성된 테스트 시스템에서 2개의 AMD Pensando Pollara AI NIC, 2P AMD EPYC 9454 48코어 프로세서, 8개의 AMD Instinct MI300X GPU, Ubuntu 22.04.5 LTS, 커널 5.15.0-139-generic, ROCm 6.4.1.0-83-69b59e5를 사용하여 AMD Pensando Pollara AI NIC를 대상으로 수행되었습니다. Llama-3.1-8B를 실행하여 테스트, 모델 구성: SEQ_LEN=2048, TP=1, PP=1, CP=1,FP8=1, MBS=10, GBS = 5120. 반복 = 2, 경로 수/QP: 128. 결과는 시스템 구성 및 소프트웨어 설정을 포함하되 이에 국한되지 않은 요인에 따라 달라질 수 있습니다.
- PEN-018: 2025년 7월 6일 기준, GPU 128,000대를 지원할 수 있는 네트워크 패브릭 비용을 비교 및 분석했습니다. 800G Tomahawk 5 기반의 멀티플레인 설계 환경에서 멀티플레인 패브릭 및 패킷 스프레이 기술을 지원하는 Pollara NIC와, 완전 스케줄링 및 대용량 버퍼(Jericho3/Ramon3)를 탑재한 800G 스위칭 플랫폼 기반으로 구성된 일반 팻 트리(Fat-tree) 패브릭을 비교했습니다. 일반적인 시스템은 경쟁업체 NIC를 사용하는 것으로 가정하며, NIC 비용은 비슷한 것으로 간주됩니다. Pollara 기반 설계는 멀티플레인 아키텍처에서 더욱 비용 효율적인 Tomahawk 5 기반 스위칭 활용을 가능하게 함으로써, 최대 58%의 네트워크 스위칭 비용 절감 효과를 제공할 것으로 기대됩니다. 2025년 4월 23일 기준, 독점적인 멀티플레인 패브릭 및 패킷 스프레이 기능을 갖춘 Pensando Pollara NIC 기반 Tomahawk 5 시스템과 일반적인 대용량 버퍼 800G 스위칭 플랫폼을 비교한 AMD의 가격 분석 자료입니다. 일반 시스템은 경쟁사 NIC를 탑재한 것으로 가정하며, 각 NIC의 비용은 유사한 수준으로 상정되었습니다. 다중 패브릭 지원 및 패킷 스프레이 기능을 탑재한 Pollara를 도입하면, 기존 팻 트리(Fat-tree) 설계 대신 더 적은 수의 네트워크 스위치를 사용하여 동일한 네트워크 대역폭을 구현하는 비용 효율적인 멀티플레인 네트워크 패브릭 구축이 가능합니다. 이를 통해 스위치 플랫폼 비용 및 케이블, 옵틱스 관련 비용을 획기적으로 절감할 수 있습니다.
- PEN-015 - 2025년 5월 13일 기준 AMD 퍼포먼스 랩에서 [Pollara AI NIC 및 Nvidia CX7 NIC]를 대상으로 실시한 이 테스트는 8개의 MI300X AMD GPU가 탑재된 8개 노드(총 64개 GPU), Broadcom Tomahawk-5 기반 리프 스위치(64x800G, 모델명 Dell z9864f-r0), RAIL 토폴로지, 64개의 AMD AI NIC Pollara(ROCm™ 버전 6.3.2.0-66-cbc70b5) 또는 64개의 Nvidia CX7 SmartNIC(RCCL 버전 2.24.3-develop:7961624), 각 노드별 듀얼 소켓 AMD EPYC 9454 48코어 프로세서, Ubuntu® 22.04.5 LTS 운영 체제, 커널 5.15.0-139-generic으로 구성된 테스트 시스템에서 수행되었습니다.
하드웨어 전용 로우 레벨 드라이버를 제외한 모든 애플리케이션 소프트웨어 라이브러리(RCCL 및 ROCm) 및 테스트 환경은 동일하게 구성되었습니다.
Nvidia CX7 카드의 경우, NVIDIA 웹사이트에서 공개적으로 제공되는 Linux 드라이버 설치 가이드 링크를 통해 드라이버를 설치합니다.
https://docs.nvidia.com/networking/display/connectx7vpi/linux+driver+installation
AMD Pensando Pollara NIC
현재 내부 빌드 버전의 드라이버를 사용 중이나, 향후 수개월 내에 일반에 공개될 예정입니다.
다음과 같은 집단 통신 작업을 측정했습니다.
Allreduce, Allroall, Alltoallv, Broadcast, Reduce, Scatter, Allgather
- PEN-016 - [2025년 4월 28일] 현재 AMD 퍼포먼스 랩에서 [AMD Pensando™ Pollara 400 AI NIC]로 다음으로 구성된 프로덕션 시스템에서 테스트를 실시했습니다. 8xMI300X AMD GPU 노드 2개(GPU 16개): MICAS 네트워크사의 Broadcom Tomahawk-4 기반 리프 스위치(64x400G), CLOS 토폴로지, 16개의 AMD Pensando Pollara AI NIC, 2개 노드별 CPU 모델 - 듀얼 소켓 5세대 인텔® 제온® 8568 48코어 CPU(PCIe® Gen-5 및 BIOS 버전 1.3.6 적용), 보안 취약점 완화 - 비활성화(기본값)
시스템 프로필 설정 - 성능(기본값) SMT 활성화(기본값), 운영 체제 Ubuntu 22.04.5 LTS, 커널 5.15.0-139-generic.
다음 작업을 측정했습니다. Allreduce
다양한 메시지 크기 샘플(512MB, 1GB, 2GB, 4GB, 8GB, 16GB)에 대한 4QP All-Reduce 작업에서 UEC Ready RDMA를 사용하는 경우와 RoCEv2를 사용하는 경우를 비교한 결과의 평균 25%입니다. 결과는 평균 8회 이상의 테스트 실행을 기준으로 합니다.
- PEN-020: [2025년 9월 15일] 기준 AMD 퍼포먼스 랩에서 실시한 이 테스트는 GPU-GPU 통신용 8노드 SMC-300X 서버로 구성된 테스트 시스템에서 2개의 AMD Pensando Pollara AI NIC 또는 2개의 Nvidia CX-7, 2P AMD EPYC 9454 48코어 프로세서, 8개의 AMD Instinct MI300X GPU, Ubuntu 22.04.5 LTS, 커널 5.15.0-139-generic, ROCm 6.4.1.0-83-69b59e5를 사용하여 수행되었습니다. 본 테스트는 64 GBS(Global Batch Size) 및 8K 시퀀스 길이 조건에서 Llama 3.1-405B를 구동하는 AMD Pensando Pollara AI NIC를 대상으로 합니다.
다음 동작은 게이트웨이 기능의 일부입니다.
구성: 레이어 수=4, 데이터 타입=BF16, DCN - TP=1, PP=1, SP=1, DP=1, FSDP=-1, ICI - TP=1, PP=1, SP=1, DP=1, FSDP=8.
AINIC 컨테이너: jax-private:rocm6.4.0-jax0.5.0-py3.10.12-tedev2.1-20250801_training. 결과는 시스템 구성 및 소프트웨어 설정을 포함하되 이에 국한되지 않은 요인에 따라 달라질 수 있습니다. - PEN-019: [2025년 9월 15일] 기준 AMD 퍼포먼스 랩에서 실시한 이 테스트는 GPU-GPU 통신용 SMC-300X 서버로 구성된 테스트 시스템에서 2개의 AMD Pensando Pollara AI NIC, 2P AMD EPYC 9454 48코어 프로세서, 8개의 AMD Instinct MI300X GPU, Ubuntu 22.04.5 LTS, 커널 5.15.0-139-generic, ROCm 6.4.1.0-83-69b59e5를 사용하여 AMD Pensando Pollara AI NIC를 대상으로 수행되었습니다. Llama-3.1-8B를 실행하여 테스트, 모델 구성: SEQ_LEN=2048, TP=1, PP=1, CP=1,FP8=1, MBS=10, GBS = 5120. 반복 = 2, 경로 수/QP: 128. 결과는 시스템 구성 및 소프트웨어 설정을 포함하되 이에 국한되지 않은 요인에 따라 달라질 수 있습니다.
- PEN-018: 2025년 7월 6일 기준, GPU 128,000대를 지원할 수 있는 네트워크 패브릭 비용을 비교 및 분석했습니다. 800G Tomahawk 5 기반의 멀티플레인 설계 환경에서 멀티플레인 패브릭 및 패킷 스프레이 기술을 지원하는 Pollara NIC와, 완전 스케줄링 및 대용량 버퍼(Jericho3/Ramon3)를 탑재한 800G 스위칭 플랫폼 기반으로 구성된 일반 팻 트리(Fat-tree) 패브릭을 비교했습니다. 일반적인 시스템은 경쟁업체 NIC를 사용하는 것으로 가정하며, NIC 비용은 비슷한 것으로 간주됩니다. Pollara 기반 설계는 멀티플레인 아키텍처에서 더욱 비용 효율적인 Tomahawk 5 기반 스위칭 활용을 가능하게 함으로써, 최대 58%의 네트워크 스위칭 비용 절감 효과를 제공할 것으로 기대됩니다. 2025년 4월 23일 기준, 독점적인 멀티플레인 패브릭 및 패킷 스프레이 기능을 갖춘 Pensando Pollara NIC 기반 Tomahawk 5 시스템과 일반적인 대용량 버퍼 800G 스위칭 플랫폼을 비교한 AMD의 가격 분석 자료입니다. 일반 시스템은 경쟁사 NIC를 탑재한 것으로 가정하며, 각 NIC의 비용은 유사한 수준으로 상정되었습니다. 다중 패브릭 지원 및 패킷 스프레이 기능을 탑재한 Pollara를 도입하면, 기존 팻 트리(Fat-tree) 설계 대신 더 적은 수의 네트워크 스위치를 사용하여 동일한 네트워크 대역폭을 구현하는 비용 효율적인 멀티플레인 네트워크 패브릭 구축이 가능합니다. 이를 통해 스위치 플랫폼 비용 및 케이블, 옵틱스 관련 비용을 획기적으로 절감할 수 있습니다.
- PEN-015 - 2025년 5월 13일 기준 AMD 퍼포먼스 랩에서 [Pollara AI NIC 및 Nvidia CX7 NIC]를 대상으로 실시한 이 테스트는 8개의 MI300X AMD GPU가 탑재된 8개 노드(총 64개 GPU), Broadcom Tomahawk-5 기반 리프 스위치(64x800G, 모델명 Dell z9864f-r0), RAIL 토폴로지, 64개의 AMD AI NIC Pollara(ROCm™ 버전 6.3.2.0-66-cbc70b5) 또는 64개의 Nvidia CX7 SmartNIC(RCCL 버전 2.24.3-develop:7961624), 각 노드별 듀얼 소켓 AMD EPYC 9454 48코어 프로세서, Ubuntu® 22.04.5 LTS 운영 체제, 커널 5.15.0-139-generic으로 구성된 테스트 시스템에서 수행되었습니다.
하드웨어 전용 로우 레벨 드라이버를 제외한 모든 애플리케이션 소프트웨어 라이브러리(RCCL 및 ROCm) 및 테스트 환경은 동일하게 구성되었습니다.
Nvidia CX7 카드의 경우, NVIDIA 웹사이트에서 공개적으로 제공되는 Linux 드라이버 설치 가이드 링크를 통해 드라이버를 설치합니다.
https://docs.nvidia.com/networking/display/connectx7vpi/linux+driver+installation
AMD Pensando Pollara NIC
현재 내부 빌드 버전의 드라이버를 사용 중이나, 향후 수개월 내에 일반에 공개될 예정입니다.
다음과 같은 집단 통신 작업을 측정했습니다.
Allreduce, Allroall, Alltoallv, Broadcast, Reduce, Scatter, Allgather - PEN-016 - [2025년 4월 28일] 현재 AMD 퍼포먼스 랩에서 [AMD Pensando™ Pollara 400 AI NIC]로 다음으로 구성된 프로덕션 시스템에서 테스트를 실시했습니다. 8xMI300X AMD GPU 노드 2개(GPU 16개): MICAS 네트워크사의 Broadcom Tomahawk-4 기반 리프 스위치(64x400G), CLOS 토폴로지, 16개의 AMD Pensando Pollara AI NIC, 2개 노드별 CPU 모델 - 듀얼 소켓 5세대 인텔® 제온® 8568 48코어 CPU(PCIe® Gen-5 및 BIOS 버전 1.3.6 적용), 보안 취약점 완화 - 비활성화(기본값)
시스템 프로필 설정 - 성능(기본값) SMT 활성화(기본값), 운영 체제 Ubuntu 22.04.5 LTS, 커널 5.15.0-139-generic.
다음 작업을 측정했습니다. Allreduce
다양한 메시지 크기 샘플(512MB, 1GB, 2GB, 4GB, 8GB, 16GB)에 대한 4QP All-Reduce 작업에서 UEC Ready RDMA를 사용하는 경우와 RoCEv2를 사용하는 경우를 비교한 결과의 평균 25%입니다. 결과는 평균 8회 이상의 테스트 실행을 기준으로 합니다.