라이브 웨비나

AMD EPYC™ 기술로 엔터프라이즈 AI 과제 혁신

우수한 성능을 보장하는 AMD EPYC™ 프로세서와 업계 최고 GPU 가속기를 결합하여 가장 까다로운 엔터프라이즈 AI 과제를 해결하는 데 필요한 역량을 어떻게 제공하는지 알아보세요.

AMD EPYC

AMD EPYC™ 프로세서로 대규모 GPU 투자의 가치 극대화

GPU 가속기는 복잡한 모델을 훈련시키고 대규모로 효율적인 실시간 추론을 지원하는 데 탁월한 역량을 발휘하는 현대 AI 동력원이 되었습니다. 그러나 GPU 투자의 잠재력을 극대화하려면 강력한 CPU 파트너가 필요합니다.

AI 워크로드에 GPU를 사용해야 하는 이유

GPU는 많은 AI 워크로드에 적합한 도구입니다.

  • AI 훈련: GPU는 병렬 처리 기능을 통해 중대형 모델 훈련의 속도를 높입니다.
  • 전용 AI 배포: GPU는 대규모 배포에서 실시간 추론에 필요한 속도와 확장성을 제공합니다.

CPU의 장점:

GPU의 성능과 적합한 CPU를 결합하면 특정 워크로드에 대한 AI 효율성을 크게 향상시킬 수 있습니다. CPU의 주요 특성은 다음과 같습니다.

  • 고주파 및 코어 수: 광범위한 데이터 준비 및 후처리 작업을 빠르고 효율적으로 처리합니다.
  • 대용량 캐시 크기: 대용량 데이터에 대한 빠른 액세스를 지원합니다.
  • 높은 메모리 대역폭 및 고성능 I/O: CPU와 GPU 간의 신속하고 원활한 데이터 교환이 가능합니다.
  • 에너지 효율적 코어: GPU 사용을 위한 전력을 확보하고 전반적인 에너지 소비를 줄입니다.
  • GPU 및 소프트웨어 생태계에 대한 호환성 최적화된 성능, 효율성, 원활한 운영이 가능합니다.
GPU System

AMD EPYC 프로세서

대규모 AI 워크로드의 진정한 잠재력을 실현할 수 있는 최적의 선택입니다. AMD EPYC 프로세서는 GPU 가속기 성능과 전반적인 AI 워크로드 효율성을 극대화하는 데 도움이 됩니다.  또한 고급 보안 기능과 개방형 표준에 대한 일관적인 오랜 노력으로 탄생한 AMD EPYC 프로세서는 기업이 AI 여정의 다음 단계를 자신있게 구현할 수 있도록 지원합니다.  

애플리케이션 및 산업

AMD EPYC CPU를 탑재한 GPU 가속기 기반 솔루션은 세계에서 가장 빠른 여러 슈퍼컴퓨터와 클라우드 인스턴스를 지원하여 데이터 중심 워크로드를 최적화하고 AI에서 획기적인 결과를 달성할 수 있는 검증된 플랫폼을 기업에 제공합니다.

AMD EPYC CPU: 대규모 GPU 투자의 가치를 극대화하기 위한 올바른 선택

CPU는 GPU 간의 데이터 전송을 조정 및 동기화하고 커널 실행 오버헤드를 처리하며 데이터 준비를 관리하는 데 중요한 역할을 합니다. 이처럼 지휘자와 같은 기능으로 GPU가 최고 효율로 작동하도록 보장합니다.

고성능 CPU로 GPU에 대한 투자 가치 최적화

일부 워크로드는 높은 CPU 클럭 속도의 이점을 활용하여 데이터 처리, 전송, 동시 실행을 간소화함으로써 GPU 성능을 향상시키고 GPU 효율성을 높입니다.

CPU 주파수가 높을수록 Llama2-7B 워크로드 처리율이 증가한다는 개념을 입증하기 위해 8대의 NVIDIA H100 GPU가 장착된 2P 서버에서 맞춤형 AMD EPYC 9554 CPU를 사용했습니다1.

Llama2-7B 미세 조정
2.0GHz 수준에서의 상대적 성능
1.0배
2.5GHz 수준에서의 상대적 성능
1.12배
3.0GHz 수준에서의 상대적 성능
1.28배

Llama2-7B 훈련(시퀀스 길이 1K)
2.0GHz 수준에서의 상대적 성능
1.0배
2.5GHz 수준에서의 상대적 성능
1.16배
3.0GHz 수준에서의 상대적 성능
1.2배

Llama2-7B 훈련(시퀀스 길이 2K)
2.0GHz 수준에서의 상대적 성능
1.0배
2.5GHz 수준에서의 상대적 성능
1.1배
3.0GHz 수준에서의 상대적 성능
1.14배

효율적인 엔터프라이즈 AI 배포

고성능, 저전력 소비, 효율적인 데이터 처리, 효과적인 전원 관리 기능이 결합된 프로세서를 통해 AI 인프라가 최고의 성능으로 가동하는 한편 에너지 소비와 비용을 최적화할 수 있습니다.

AMD EPYC 프로세서는 세계에서 가장 에너지 효율적인 서버를 구동하여 탁월한 성능을 제공하고 에너지 비용을 절감합니다.2 신뢰할 수 있는 AI를 배포하여 에너지 효율적인 솔루션을 만들고 AI 여정을 최적화하세요.

AMD Infinity 전원 관리 기능은 AMD EPYC 9004 시리즈 프로세서에서 탁월한 기본 성능을 제공하며 워크로드 관련 동작을 미세 조정할 수 있습니다.

Abstract illustration with glowing blue lines

신뢰할 수 있는 솔루션을 활용하는 AI를 채택하여 마음의 평화를 찾으세요.

AMD EPYC CPU에서 호스팅하는 여러 가지 인증 또는 검증된 GPU 가속 솔루션 중에서 선택하여 AI 워크로드를 강화하세요.

AMD Instinct 가속기를 탑재한 솔루션을 선호하십니까?

다른 GPU를 사용하십니까? Asus, Dell, Gigabyte, HPE, Lenovo, Supermicro를 포함한 선두 플랫폼 솔루션 공급업체에 AMD EPYC CPU 기반 솔루션을 제공하는지 문의하세요.

성장하고 있는 AMD EPYC CPU + GPU 클라우드 AI/ML 인스턴스 옵션의 생태계

AWS, Azure, Google, IBM Cloud, OCI를 포함한 주요 클라우드 제공업체의 AI/ML 워크로드를 처리할 수 있도록 AMD EPYC CPU와 GPU를 결합한 인스턴스를 문의하세요.

server room photo

리소스

AMD Instinct 가속기

가장 까다로운 AI 워크로드를 발전시킬 수 있도록 설계된 유일한 가속기입니다.

AMD EPYC 엔터프라이즈 AI 개요

CPU 및 GPU를 사용한 AI와 머신러닝 혁신에 대해 설명하는 AMD 및 파트너 문서 찾기

팟캐스트

AMD와 업계의 선도적 기술자들이 서버, 클라우드 컴퓨팅, AI, HPC 등에 관한 최신 트렌드 주제에 대해 토론하는 내용을 들어보세요.

각주
  1. SP5-292: Llama2-7B 미세 조정 및 훈련 처리율 결과는 2024년 6월 15일 AMD 내부 개념 증명 테스트를 기반으로 합니다.

    서버 구성: 2P EPYC 9554(맞춤형 주파수 CPU, 64C/128T, 16코어 활성), 1.5TB 메모리(4800MT/s에서 실행되는 64GB DDR5-5600 24개), 3.2TB SSD, Ubuntu® 22.04.4 LTS, 8x NVIDIA H100 80GB HBM3 장착, HuggingFace Transformers V 4.31.0, NVIDIA PyTorch 23.12, PEFT 0.4.0, Python 3.10.12, CUDA 12.3.2.001, TensorRT-LLM v 0.9.0.dev2024, CUDNN 8.9.7.29+cuda12.2, NVIDIA-SMI 드라이버 버전 550.54.15, TRT v8.6.1.6+cuda12.0.1.011, Transformer Engine v1.1

    Llama2-7B 미세 조정: 장치당 BS=4, seqln=128, 평균 4회 이상 실행, 실행당 10Epochs, FP16

    Llama2-7B 훈련(1K): BS=56(7x8 GPU), seqln=1k, GPU의 그래디언트

    Llama2-7B 훈련(2K): BS=24(3x8 GPU), seqln=2k, GPU의 그래디언트

    결과:

    CPU 주파수              2000MHz           2500MHz           3000MHz

    미세 조정 평균 훈련 실행 시간(초) 649.38 584.24 507.1

    처리율 증가(%) 0.00% 11.15% 28.06%

    훈련 처리율 1K 시퀀스 길이 276.08 238.81 230.82

    처리율 증가(%) 0.00% 15.61% 19.61%

    훈련 처리율 2K 시퀀스 길이 883.85 807.94 778.72

    처리율 증가(%) 0.00% 9.40% 13.50%

    결과는 시스템 구성, 소프트웨어 버전 및 BIOS 설정에 따라 달라질 수 있습니다. 참고: 본 결과는 개념 증명에 대한 성능입니다. Nvidia H100 80GB 가속기 8대를 사용하는 다양한 주파수의 호스트 프로세서로 사용된 2P 맞춤형 AMD EPYC™ 9554에서 수집된 데이터입니다. 4세대 EPYC 프로세서는 최종 사용자가 주파수를 조정할 수 없습니다.

  2. EPYC-028D: SPECpower_ssj® 2008, SPECrate®2017_int_energy_base 및 SPECrate®2017_fp_energy_base는 2024년 2월 21일 기준, SPEC의 웹사이트에 게시된 결과에 기초합니다. VMmark® 서버 전력 성능/서버 및 스토리지 전력 성능(PPKW) 기반 결과는 https://www.vmware.com/products/vmmark/results3x.1.html?sort=score에 게시되었습니다. 최고의 종합 효율성 및 종합 ssj_ops/W 결과와 함께, 상위 105개로 랭크된 SPECpower_ssj®2008 게시물은 모두 AMD EPYC 프로세서 기반이었습니다. SPECrate®2017 정수(에너지 기반)의 경우, AMD EPYC CPU는 SPECrate®2017_int_energy_base 성능/시스템 W 점수 중 상위 8개를 구동합니다. SPECrate®2017 부동 소수점(에너지 기반)의 경우, AMD EPYC CPU는 SPECrate®2017_fp_energy_base 성능/시스템 W 점수 중 상위 12개를 구동합니다. VMmark® 서버 전력 성능(PPKW)의 경우, 2소켓 및 4소켓 일치 쌍 결과의 상위 5개 결과는 다른 모든 소켓 결과를 능가하며 VMmark® 서버 및 스토리지 전력 성능(PPKW)의 경우 전체 점수가 가장 높습니다. 전체 목록은 https://www.amd.com/en/claims/epyc4#faq-EPYC-028D를 참조하세요. AMD의 지속 가능성 목표에 대한 자세한 사항은 https://www.amd.com/en/corporate/corporate-responsibility/data-center-sustainability.html을 참조하세요. SPEC®에 대한 자세한 사항 참조: http://www.spec.org. SPEC, SPECrate 및 SPECpower는 Standard Performance Evaluation Corporation의 등록 상표입니다. VMmark는 미국 또는 기타 국가에서 VMware의 등록 상표입니다.