AMD EPYC™ 프로세서로 대규모 GPU 투자의 가치 극대화

GPU 가속기는 복잡한 모델을 훈련시키고 대규모로 효율적인 실시간 추론을 지원하는 데 탁월한 역량을 발휘하는 현대 AI 동력원이 되었습니다. 그러나 GPU 투자의 잠재력을 극대화하려면 강력한 CPU 파트너가 필요합니다.

AI 워크로드에 GPU를 사용해야 하는 이유

GPU는 많은 AI 워크로드에 적합한 도구입니다.

  • AI 훈련: GPU는 병렬 처리 기능을 통해 중대형 모델 훈련의 속도를 높입니다.
  • 전용 AI 배포: GPU는 대규모 배포에서 실시간 추론에 필요한 속도와 확장성을 제공합니다.

CPU의 장점:

GPU의 성능과 적합한 CPU를 결합하면 특정 워크로드에 대한 AI 효율성을 크게 향상시킬 수 있습니다. CPU의 주요 특성은 다음과 같습니다.

  • 고주파 EPYC 프로세서: 광범위한 데이터 준비 및 후처리 작업을 빠르고 효율적으로 처리합니다.
  • 대용량 캐시 크기: 대용량 데이터에 대한 빠른 액세스를 지원합니다.
  • 높은 메모리 대역폭 및 고성능 I/O: CPU와 GPU 간의 신속하고 원활한 데이터 교환이 가능합니다.
  • 에너지 효율적 코어: GPU 사용을 위한 전력을 확보하고 전반적인 에너지 소비를 줄입니다.
  • GPU 및 소프트웨어 에코시스템과의 호환성: 성능, 효율성, 원활한 작동을 최적화합니다.
GPU System with AMD EPYC and Instinct

AMD EPYC 9005 프로세서

고주파수 AMD EPYC 9005 시리즈 프로세서는 대규모 AI 워크로드를 위한 GPU의 진정한 잠재력을 실현할 수 있는 최적의 선택입니다. 이 제품은 호스트 CPU로서 GPU가 적절한 시기에 적절한 데이터를 확보하도록 보장합니다. 지속적인 처리는 최상의 AI 워크로드 처리량과 시스템 효율성을 달성하는 데 매우 중요합니다.  AMD EPYC 고주파수 프로세서를 돋보이게 하는 핵심 요소는 높은 코어 주파수와 대용량 메모리입니다. 이러한 주요 요소가 GPU 처리량을 증가시키는 방법을 알아보려면 문서를 읽어보세요.

애플리케이션 및 산업

AMD EPYC CPU를 탑재한 GPU 가속기 기반 솔루션은 세계에서 가장 빠른 여러 슈퍼컴퓨터와 클라우드 인스턴스를 지원하여 데이터 중심 워크로드를 최적화하고 AI에서 획기적인 결과를 달성할 수 있는 검증된 플랫폼을 기업에 제공합니다.

AMD EPYC 9005 시리즈 프로세서: 대규모 GPU 투자의 가치를 극대화하기 위한 올바른 선택

CPU는 GPU 간의 데이터 전송을 조정 및 동기화하고 커널 실행 오버헤드를 처리하며 데이터 준비를 관리하는 데 중요한 역할을 합니다. 이처럼 “지휘자”와 같은 기능은 GPU가 최고 효율로 작동하도록 지원합니다.

고성능 CPU로 GPU에 대한 투자 가치 최적화

많은 AI 워크로드는 높은 CPU 클럭 속도의 이점을 활용하여 데이터 처리, 전송, 동시 실행을 간소화함으로써 GPU 성능을 향상시키고 GPU 효율성을 높입니다. EPYC 9575F는 최대 5GHz의 속도로 실행되는 고성능 AI 호스트 노드 프로세서로 특수 제작되었습니다.

8개의 GPU 가속기를 사용한 2P 서버의 비교

AMD Instinct GPU를 사용한 AMD 및 인텔 호스트 노드 비교
MLPerf® v4.1 추론 Llama 2-70B 벤치마크¹
8x AMD Instinct™ MI300X + 2P EPYC 5세대 9575F(64코어 – 5GHz)
1.11배
8x AMD Instinct™ MI300X + 2P 제온 8460Y+(40코어 – 3.7GHz)
1.0배

추론 - Llama3.1-70B 추론 벤치마크(BF16)²
8x Nvidia H100 + 2P EPYC 5세대 9575F(64코어)
약 1.20배
8x Nvidia H100 + 2P 제온 8592+(64코어)
1.0배
학습 - Llama3.1-8B 추론 벤치마크(FP8)³
8x Nvidia H100 + 2P EPYC 5세대 9575F(64코어)
약 1.15배
8x Nvidia H100 + 2P 제온 8592+(64코어)
1.0배

효율적인 엔터프라이즈 AI 배포

고성능, 저전력 소비, 효율적인 데이터 처리, 효과적인 전원 관리 기능이 결합된 5세대 AMD EPYC과 같은 프로세서를 통해 AI 인프라가 최고의 성능으로 가동하는 한편 에너지 소비와 비용을 최적화할 수 있습니다.

AMD EPYC 프로세서는 뛰어난 성능을 제공하고 에너지 비용을 절감하여 에너지 효율적인 서버를 구동합니다. 자신 있게 배포하여 에너지 효율적인 솔루션을 만들고 AI 여정을 최적화할 수 있습니다.

AMD Infinity 전원 관리 기능은 AMD EPYC 9005 시리즈 프로세서에서 탁월한 기본 성능을 제공하며 워크로드 관련 동작을 미세 조정할 수 있습니다.

Abstract illustration with glowing blue lines

신뢰할 수 있는 솔루션을 활용하는 AI를 채택하여 마음의 평화를 찾으세요.

AMD EPYC CPU에서 호스팅하는 여러 가지 인증 또는 검증된 GPU 가속 솔루션 중에서 선택하여 AI 워크로드를 강화하세요.

다른 GPU를 사용하십니까? Asus, Dell, Gigabyte, HPE, Lenovo, Supermicro를 포함한 선두 플랫폼 솔루션 공급업체에서 제공하는 AMD EPYC CPU 기반 솔루션에 대해 문의하세요.

성장하고 있는 AMD EPYC CPU + GPU 클라우드 AI/ML 인스턴스 옵션의 생태계

AWS, Azure, Google, IBM Cloud, OCI를 포함한 주요 클라우드 제공업체의 AI/ML 워크로드를 처리할 수 있도록 AMD EPYC CPU와 GPU를 결합한 인스턴스를 문의하세요.

server room photo

리소스

AMD Instinct 가속기

가장 까다로운 AI 워크로드를 발전시킬 수 있도록 설계된 유일한 가속기입니다.

AMD EPYC 엔터프라이즈 AI 개요

CPU 및 GPU를 사용한 AI와 머신러닝 혁신에 대해 설명하는 AMD 및 파트너 문서 찾기

팟캐스트

AMD와 업계의 선도적 기술자들이 서버, 클라우드 컴퓨팅, AI, HPC 등에 관한 최신 트렌드 주제에 대해 토론하는 내용을 들어보세요.

각주
  1. 9xx5-013: 공식 MLPerf™ 추론 점수 v4.1 Llama2-70B-99.9 서버 토큰/s 및 오프라인 토큰/s 결과는 2024년 9월 1일 https://mlcommons.org/benchmarks/inference-datacenter/의 다음 항목에서 검색되었습니다. 4.1-0070(프리뷰) 및 4.1.0022. MLPerf™ 이름과 로고는 미국 및 기타 국가에서 MLCommons Association의 상표입니다. All rights reserved. 무단 사용은 엄격히 금지됩니다. 자세한 사항은 www.mlcommons.org를 참조하세요.
  2. 9xx5-014: Llama3.1-70B 추론 처리율 결과는 2024년 9월 1일 기준 AMD 내부 테스트에 기초합니다. Llama3.1-70B 구성: TensorRT-LLM 0.9.0, nvidia/cuda 12.5.0-devel-ubuntu22.04, FP8, 입력/출력 토큰 구성(사용 사례): [BS=1024 I/O=128/128, BS=1024 I/O=128/2048, BS=96 I/O=2048/128, BS=64 I/O=2048/2048]. 토큰 내 결과/초 2P AMD EPYC 9575F(총 128코어), 8x NVIDIA H100 80GB HBM3, 1.5TB 24x64GB DDR5-6000, 1.0Gbps 3TB Micron_9300_MTFDHAL3T8TDP NVMe®, BIOS T20240805173113(Determinism=Power,SR-IOV=On), Ubuntu 22.04.3 LTS, kernel=5.15.0-117-generic(mitigations=off, cpupower frequency-set -g performance, cpupower idle-set -d 2, echo 3> /proc/syss/vm/drop_caches), 2P 인텔 제온 Platinum 8592+(총 128코어), 8x NVIDIA H100 80GB HBM3, 1TB 16x64GB DDR5-5600, 3.2TB Dell Ent NVMe® PM1735a MU, Ubuntu 22.04.3 LTS, kernel-5.15.0-118-generic,(processor.max_cstate=1, intel_idle.max_cstate=0 mitigations=off, cpupower frequency-set -g performance), BIOS 2.1, (Maximum performance, SR-IOV=On), I/O 토큰 배치 크기 EMR Turin 상대 128/128 1024 814.678 1101.966 1.353 128/2048 1024 2120.664 2331.776 1.1 2048/128 96 114.954 146.187 1.272 2048/2048 64 333.325 354.208 1.063 평균 처리율 1.197배 증가. 결과는 시스템 구성, 소프트웨어 버전 및 BIOS 설정에 따라 달라질 수 있습니다.
  3. 9xx5-015: Llama3.1-8B(BF16, 최대 시퀀스 길이 1024) 교육 테스트 결과는 2024년 9월 5일 기준 AMD 내부 테스트에 기초합니다. Llama3.1-8B 구성: 최대 시퀀스 길이 1024, BF16, Docker: huggingface/transformers-pytorch-gpu:latest 2P AMD EPYC 9575F(총 128코어), 8x NVIDIA H100 80GB HBM3, 1.5TB 24x64GB DDR5-6000, 1.0Gbps 3TB Micron_9300_MTFDHAL3T8TDP NVMe®, BIOS T20240805173113(Determinism=Power,SR-IOV=On), Ubuntu 22.04.3 LTS, kernel=5.15.0-117-generic(mitigations=off, cpupower frequency-set -g performance, cpupower idle-set -d 2, echo 3> /proc/syss/vm/drop_caches), 31.79 교육 샘플/초의 경우 2P 인텔 제온 Platinum 8592+(총 128코어), 8x NVIDIA H100 80GB HBM3, 1TB 16x64GB DDR5-5600, 3.2TB Dell Ent NVMe® PM1735a MU, Ubuntu 22.04.3 LTS, kernel-5.15.0-118-generic, (processor.max_cstate=1, intel_idle.max_cstate=0 mitigations=off, cpupower frequency-set -g performance), BIOS 2.1, (Maximum performance, SR-IOV=On), 27.74 교육 샘플/초의 경우 평균 처리율 1.146배 향상.  결과는 시스템 구성, 소프트웨어 버전 및 BIOS 설정에 따라 달라질 수 있습니다.