AMD의 강력한 성능으로 대규모 언어 모델 구축
TurkuNLP는 AMD EPYC™ CPU 및 AMD Instinct™ GPU 기반 LUMI 슈퍼컴퓨터에서 192개 노드로 확장하여 핀란드어 거대 언어 모델을 구축했습니다.
고성능 서버는 엔터프라이즈 AI의 토대가 됩니다. AMD EPYC™ 서버 CPU 및 업계 최고 GPU는 AI 훈련 및 대규모 모델 워크로드를 위한 혁신적인 성능을 제공합니다.
라이브 웨비나
우수한 성능을 보장하는 AMD EPYC™ 프로세서와 업계 최고 GPU 가속기를 결합하여 가장 까다로운 엔터프라이즈 AI 과제를 해결하는 데 필요한 역량을 어떻게 제공하는지 알아보세요.
GPU 가속기는 복잡한 모델을 훈련시키고 대규모로 효율적인 실시간 추론을 지원하는 데 탁월한 역량을 발휘하는 현대 AI 동력원이 되었습니다. 그러나 GPU 투자의 잠재력을 극대화하려면 강력한 CPU 파트너가 필요합니다.
GPU는 많은 AI 워크로드에 적합한 도구입니다.
GPU의 성능과 적합한 CPU를 결합하면 특정 워크로드에 대한 AI 효율성을 크게 향상시킬 수 있습니다. CPU의 주요 특성은 다음과 같습니다.
대규모 AI 워크로드의 진정한 잠재력을 실현할 수 있는 최적의 선택입니다. AMD EPYC 프로세서는 GPU 가속기 성능과 전반적인 AI 워크로드 효율성을 극대화하는 데 도움이 됩니다. 또한 고급 보안 기능과 개방형 표준에 대한 일관적인 오랜 노력으로 탄생한 AMD EPYC 프로세서는 기업이 AI 여정의 다음 단계를 자신있게 구현할 수 있도록 지원합니다.
AMD EPYC CPU를 탑재한 GPU 가속기 기반 솔루션은 세계에서 가장 빠른 여러 슈퍼컴퓨터와 클라우드 인스턴스를 지원하여 데이터 중심 워크로드를 최적화하고 AI에서 획기적인 결과를 달성할 수 있는 검증된 플랫폼을 기업에 제공합니다.
CPU는 GPU 간의 데이터 전송을 조정 및 동기화하고 커널 실행 오버헤드를 처리하며 데이터 준비를 관리하는 데 중요한 역할을 합니다. 이처럼 지휘자와 같은 기능으로 GPU가 최고 효율로 작동하도록 보장합니다.
일부 워크로드는 높은 CPU 클럭 속도의 이점을 활용하여 데이터 처리, 전송, 동시 실행을 간소화함으로써 GPU 성능을 향상시키고 GPU 효율성을 높입니다.
CPU 주파수가 높을수록 Llama2-7B 워크로드 처리율이 증가한다는 개념을 입증하기 위해 8대의 NVIDIA H100 GPU가 장착된 2P 서버에서 맞춤형 AMD EPYC 9554 CPU를 사용했습니다1.
고성능, 저전력 소비, 효율적인 데이터 처리, 효과적인 전원 관리 기능이 결합된 프로세서를 통해 AI 인프라가 최고의 성능으로 가동하는 한편 에너지 소비와 비용을 최적화할 수 있습니다.
AMD EPYC 프로세서는 세계에서 가장 에너지 효율적인 서버를 구동하여 탁월한 성능을 제공하고 에너지 비용을 절감합니다.2 신뢰할 수 있는 AI를 배포하여 에너지 효율적인 솔루션을 만들고 AI 여정을 최적화하세요.
AMD Infinity 전원 관리 기능은 AMD EPYC 9004 시리즈 프로세서에서 탁월한 기본 성능을 제공하며 워크로드 관련 동작을 미세 조정할 수 있습니다.
AMD EPYC CPU에서 호스팅하는 여러 가지 인증 또는 검증된 GPU 가속 솔루션 중에서 선택하여 AI 워크로드를 강화하세요.
AMD Instinct 가속기를 탑재한 솔루션을 선호하십니까?
다른 GPU를 사용하십니까? Asus, Dell, Gigabyte, HPE, Lenovo, Supermicro를 포함한 선두 플랫폼 솔루션 공급업체에 AMD EPYC CPU 기반 솔루션을 제공하는지 문의하세요.
AWS, Azure, Google, IBM Cloud, OCI를 포함한 주요 클라우드 제공업체의 AI/ML 워크로드를 처리할 수 있도록 AMD EPYC CPU와 GPU를 결합한 인스턴스를 문의하세요.
서버 구성: 2P EPYC 9554(맞춤형 주파수 CPU, 64C/128T, 16코어 활성), 1.5TB 메모리(4800MT/s에서 실행되는 64GB DDR5-5600 24개), 3.2TB SSD, Ubuntu® 22.04.4 LTS, 8x NVIDIA H100 80GB HBM3 장착, HuggingFace Transformers V 4.31.0, NVIDIA PyTorch 23.12, PEFT 0.4.0, Python 3.10.12, CUDA 12.3.2.001, TensorRT-LLM v 0.9.0.dev2024, CUDNN 8.9.7.29+cuda12.2, NVIDIA-SMI 드라이버 버전 550.54.15, TRT v8.6.1.6+cuda12.0.1.011, Transformer Engine v1.1
Llama2-7B 미세 조정: 장치당 BS=4, seqln=128, 평균 4회 이상 실행, 실행당 10Epochs, FP16
Llama2-7B 훈련(1K): BS=56(7x8 GPU), seqln=1k, GPU의 그래디언트
Llama2-7B 훈련(2K): BS=24(3x8 GPU), seqln=2k, GPU의 그래디언트
결과:
CPU 주파수 2000MHz 2500MHz 3000MHz
미세 조정 평균 훈련 실행 시간(초) 649.38 584.24 507.1
처리율 증가(%) 0.00% 11.15% 28.06%
훈련 처리율 1K 시퀀스 길이 276.08 238.81 230.82
처리율 증가(%) 0.00% 15.61% 19.61%
훈련 처리율 2K 시퀀스 길이 883.85 807.94 778.72
처리율 증가(%) 0.00% 9.40% 13.50%
결과는 시스템 구성, 소프트웨어 버전 및 BIOS 설정에 따라 달라질 수 있습니다. 참고: 본 결과는 개념 증명에 대한 성능입니다. Nvidia H100 80GB 가속기 8대를 사용하는 다양한 주파수의 호스트 프로세서로 사용된 2P 맞춤형 AMD EPYC™ 9554에서 수집된 데이터입니다. 4세대 EPYC 프로세서는 최종 사용자가 주파수를 조정할 수 없습니다.