AI 성능의 새로운 표준
AI 가속기에 대한 고객 투자는 2028년까지 5천억 달러에 이를 것으로 전망되며, 이는 단 4년 만에 5천억 달러의 가치를 비즈니스에 제공하게 되는 것입니다. AI가 비즈니스에 가져다주는 생산성, 개선, 혁신의 수준은 사상 초유이며 비즈니스 리더들은 이 사실을 잘 알고 있습니다. 이것이 바로 이들이 이미 수십억을 투자하며 업무 방식을 혁신한 이유입니다. 수백만 명이 GPT 4, Llama 3.1 405B, Hugging Face 플랫폼의 오픈 소스 모델 100만 가지 이상 중 상당수와 같은 인기 AI 모델을 통해 실행되는 애플리케이션을 사용하여 이미 일상적으로 AMD Instinct™ 가속기에 의존하고 있습니다.
그 수준의 생산성은 급증할 것입니다. 실제로 새로운 AMD Instinct™ MI325X 가속기를 출시하며 AMD는 이러한 상황을 앞당기고 있습니다.
AMD Instinct™ MI325X 가속기
방대한 메모리와 업계 최고 성능의 결합
AMD Instinct™ MI325X 가속기는 생성형 AI 모델 및 데이터 센터 성능과 관련해 새로운 표준을 정립합니다. 3세대 AMD CDNA™ 아키텍처에 기반하여 모델 학습, 추론 등 까다로운 여러 AI 작업에서 뛰어난 성능과 효율성을 발휘하도록 설계되었습니다.
이와 같이 집약적인 AI 애플리케이션에는 많은 메모리가 필요하기 때문에 업계를 선도하는 256GB의 차세대 HBM3e 메모리 용량과 6TB/s의 대역폭을 찾게 됩니다. 필요한 프로세싱 파워 및 광범위한 데이터 유형 지원과 결합된 AMD Instinct MI325X 가속기는 사실상 모든 AI 솔루션에 대해 비즈니스가 필요로 하는 수준의 성능을 제공합니다.1
AMD Instinct MI325X 가속기를 경쟁 제품과 비교해 보면 Mixtral 8x7B, Mistral 7B, Meta Llama-3.1 70B와 같은 모델에서 최대 1.4배의 월등한 추론 성능 향상을 볼 수 있습니다.2, 3, 4
성능 수치와 함께 생산성이 높아지면서 고객은 업계 최고의 메모리 용량과 그에 따른 이점을 누리게 될 것입니다. 고객이 AI 거대 언어 모델에 더 적은 GPU를 사용할 수 있게 되면서 더 작은 클러스터를 사용하여 이전 세대 제품에 비해 동일하거나 더 나은 결과를 달성할 수 있습니다.5 요약하면, 배포 풋프린트가 작아지고, 배포가 간소화되고, 에너지 절감에 기여하는 결과가 나오는 것입니다. AMD Instinct MI325X 가속기는 막대한 TCO 없이 극한의 성능을 원하는 비즈니스에 확실한 선택지입니다.
AMD Instinct™ MI325X 플랫폼
타협 없는 컴퓨팅 리더십의 기반
오늘날의 거대 언어 모델과 생성형 AI가 빠른 결과를 도출하기 위해서는 여러 데이터 유형에 걸친 신속한 가속화, 대규모 데이터 세트를 처리할 수 있는 큰 메모리와 대역폭, 집약적인 I/O 대역폭 등 세 가지 요소가 필요합니다.
이러한 새로운 가속기를 갖춘 플랫폼이라면 고객은 세 가지 모두를 확보할 수 있습니다. 새로운 산업 표준 베이스보드(UBB 2.0)는 최대 8개의 AMD Instinct™ MI325X 가속기와 2TB의 HBM3e 메모리를 탑재하여 가장 까다로운 AI 모델도 처리할 수 있으며, 8개의 x16 PCIe® Gen 5 호스트 I/O 연결과 각 가속기 간에 직접 연결을 제공하는 AMD Infinity Fabric™ 메시 기술을 통해 데이터 병목 현상은 과거의 일이 되었습니다.
유사한 경쟁사 플랫폼에 비해 MI325X 플랫폼은 1.8배의 메모리 용량, 1.3배의 메모리 대역폭을 제공하며 최대 1.4배 더 높은 추론 성능으로 한 발 크게 앞서갑니다. 6, 7, 8
기존 AMD Instinct 인프라에서 업그레이드하려는 고객을 위해 AMD Instinct MI325X 가속기는 AMD Instinct™ MI300X 플랫폼과 즉시 호환이 가능하므로 출시 기간을 단축하고 비용이 많이 드는 인프라 변경을 최소화합니다.
가속기 |
아키텍처 |
메모리 |
메모리 대역폭 |
FP8 성능 |
FP16 성능 |
AMD Instinct™ MI325X |
AMD CDNA™ 3 |
256GB HBM3e |
6TB/s |
2.6PF |
1.3PF |
AMD ROCm™ 플랫폼
오픈 소프트웨어를 통한 AI 추론 및 학습 가속화
AMD Instinct™ MI325X 가속기는 AMD 가속 컴퓨팅의 기반인 AMD ROCm™ 소프트웨어의 성능을 통해 차세대 AI 애플리케이션 또는 첨단 AI 모델에서 작업하거나 복잡한 시뮬레이션을 최적화하는 사용자가 놀라운 기능을 활용할 수 있도록 지원합니다.
AMD 가속기를 선택하는 고객은 PyTorch 및 TensorFlow 등 업계 표준 프레임워크에 대한 0일 차 지원을 받을 수 있어, AI 모델 마이그레이션 및 배포가 간소화되고 필요한 코드 변경은 최소화됩니다. 또한 최신 AMD ROCm 릴리스에서는 AMD Instinct 가속기로 컴파일러, 라이브러리, 런타임 지원이 최적화되어 학습이 1.8배, GPU 추론 성능이 2.4배 개선되며, 빠른 모델 융합, 정확한 모델 예측, 놀라울 만큼 효율적인 GPU 활용성을 보장합니다.9, 10
AMD Instinct™ MI325X 가속기에 관해 자세히 알아보고 싶으신가요? AMD.com을 방문하거나 AMD 담당자에게 자세한 내용과 이용 가능 여부를 문의하세요.
AMD Arena
AMD Ryzen™ PRO, AMD EPYC™, AMD Instinct™ 등에 대한 교육을 통해 AMD 제품 지식을 향상하세요.
구독하기
AMD의 최신 제품, 교육 리소스, 전문가와의 만남 웨비나에 대한 월간 소식을 받으세요.

관련 문서
각주
- 2024년 9월 26일 현재 AMD 퍼포먼스 랩에서 현재 사양 및/또는 추정치를 기준으로 수행한 계산입니다. AMD Instinct™ MI325X OAM 가속기는 256GB HBM3e 메모리 용량과 6TB/s GPU의 이론상 최대 메모리 대역폭 성능을 제공합니다. 프로덕션 실리콘에 따라 실제 결과는 다를 수 있습니다. NVidia Hopper H200(141GB) SXM GPU 가속기에 대해 게시된 최고 결과는 141GB HBM3e 메모리 용량 및 4.8TB/s GPU 메모리 대역폭 성능입니다. https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446. Nvidia Blackwell HGX B100(192GB) 700W GPU 가속기에 대해 게시된 최고 결과는 192GB HBM3e 메모리 용량 및 8TB/s GPU 메모리 대역폭 성능입니다. NVidia Blackwell HGX B200(192GB) GPU 가속기에 대해 게시된 최고 결과는 192GB HBM3e 메모리 용량 및 8TB/s GPU 메모리 대역폭 성능입니다. Nvidia Blackwell 사양은 https://resources.nvidia.com/en-us-blackwell-architecture에서 확인할 수 있습니다. MI325-001A
- MI325-004: 2024년 9월 28일 AMD 퍼포먼스 랩에서 FP16 데이터 유형을 사용해 Mixtral-8x7B 모델의 텍스트 생성 처리율을 측정하여 수행한 테스트를 기준으로 합니다. 테스트는 AMD Instinct™ MI325X GPU 가속기 및 NVIDIA H200 SXM GPU 가속기에 대해 128개 토큰의 입력 길이와 4096개 토큰의 출력 길이를 사용하여 수행되었습니다. vLLM 성능 지원 MI325X(1000W) 1개와 TensorRT-LLM v0.13 지원 H200(700W) 1개 비교. 서버 제조업체별 구성에 따라 다른 결과가 나올 수 있습니다. 최신 드라이버의 사용 여부 및 최적화에 따라 성능이 달라질 수 있습니다. MI325-004
- MI325-005: 2024년 9월 28일 AMD 퍼포먼스 랩에서 FP16 데이터 유형을 사용해 Mistral-7B 모델의 전체 지연율을 측정하여 수행한 테스트를 기준으로 합니다. 테스트는 AMD Instinct™ MI325X GPU 가속기 및 NVIDIA H200 SXM GPU 가속기에 대해 128개 토큰의 입력 길이와 128개 토큰의 출력 길이를 사용하여 수행되었습니다. 서버 제조업체별 구성에 따라 다른 결과가 나올 수 있습니다. 최신 드라이버의 사용 여부 및 최적화에 따라 성능이 달라질 수 있습니다. MI325-005
- MI325-006: 2024년 9월 28일 AMD 퍼포먼스 랩에서 FP8 데이터 유형을 사용해 LLaMA 3.1-70B 모델의 전체 지연율을 측정하여 수행한 테스트를 기준으로 합니다. 테스트는 다음 구성의 AMD INSTINCT™ MI325X GPU 가속기 및 NVIDIA H200 SXM GPU 가속기에 대해 2048개 토큰의 입력 길이와 2048개 토큰의 출력 길이를 사용하여 수행되었습니다. 서버 제조업체별 구성에 따라 다른 결과가 나올 수 있습니다. 최신 드라이버의 사용 여부 및 최적화에 따라 성능이 달라질 수 있습니다. MI325-006
- MI325-003A: 정의된 파라미터와 10% 오버헤드를 더한 모델에서 필요한 메모리 대비 GPU 전용 메모리 크기를 기준으로 계산된 추정치입니다. 계산은 게시된 메모리 크기와 때로는 예비 모델 메모리 크기에 따라 달라집니다. PaLM 1, Llama 3.1 405B, Mixtral 8x22B 및 Samba-1 결과는 시스템/부품 가용성으로 인해 MI325X 및 H200에서 추정되었습니다.
결과(계산):
필요한 GPU: MI325X vs. H200
PaLM-1(540B) 5 9
Llama 3.1(405B) 4 7
Mixtral 8x22B(141B) 2 3
Samba-1(1T) 9 16
서버 제조업체별 구성에 따라 다른 결과가 나올 수 있습니다. 최신 드라이버의 사용 여부 및 최적화에 따라 성능이 달라질 수 있습니다.
- MI325-001A: 2024년 9월 26일 현재 AMD 퍼포먼스 랩에서 현재 사양 및/또는 추정치를 기준으로 수행한 계산입니다. AMD Instinct™ MI325X OAM 가속기는 256GB HBM3e 메모리 용량과 6TB/s GPU의 이론상 최대 메모리 대역폭 성능을 제공합니다. 프로덕션 실리콘에 따라 실제 결과는 다를 수 있습니다. NVidia Hopper H200(141GB) SXM GPU 가속기에 대해 게시된 최고 결과는 141GB HBM3e 메모리 용량 및 4.8TB/s GPU 메모리 대역폭 성능을 기록했습니다: https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446. Nvidia Blackwell HGX B100(192GB) 700W GPU 가속기에 대해 게시된 최고 결과는 192GB HBM3e 메모리 용량 및 8TB/s GPU 메모리 대역폭 성능입니다. NVidia Blackwell HGX B200(192GB) GPU 가속기에 대해 게시된 최고 결과는 192GB HBM3e 메모리 용량 및 8TB/s GPU 메모리 대역폭 성능입니다. Nvidia Blackwell 사양은 https://resources.nvidia.com/en-us-blackwell-architecture에서 확인할 수 있습니다.
- MI325-002: 2024년 5월 28일 AMD 퍼포먼스 랩에서 AMD Instinct™ MI325X GPU에 대해 수행한 계산 결과 1307.4TFLOPS 이론상 최대 반정도(FP16), 1307.4TFLOPS 이론상 최대 Bfloat16 포맷 정도(BF16), 2614.9TFLOPS 이론상 최대 8비트 정도(FP8), 2614.9TOPs INT8 부동 소수점 성능이 나타났습니다. 실제 성능은 최종 사양 및 시스템 구성에 따라 달라집니다.
Nvidia H200 SXM(141GB) GPU에 대해 게시된 결과: 989.4TFLOPS 이론상 최대 반정도 텐서(FP16 텐서), 989.4TFLOPS 이론상 최대 Bfloat16 텐서 포맷 정도(BF16 텐서), 1,978.9TFLOPS 이론상 최대 8비트 정도(FP8), 1,978.9TOPs 이론상 최대 INT8 부동 소수점 성능. Nvidia는 BFLOAT16 텐서 코어, FP16 텐서 코어, FP8 텐서 코어, INT8 텐서 코어 성능을 스파시티를 사용해 게시했습니다. AMD는 비교를 위해 이 숫자를 2로 나누어 비스파시티/밀도로 변환했으며 이러한 숫자는 상단에 나와 있습니다.
Nvidia H200 출처: https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446 및 https://www.anandtech.com/show/21136/nvidia-at-sc23-h200-accelerator-with-hbm3e-and-jupiter-supercomputer-for-2024
주: Nvidia H200 GPU는 H100 제품과 동일한 FLOP 성능이 게시되었습니다(https://resources.nvidia.com/en-us-tensor-core). MI325-002
- MI325-014: 2024년 10월 8일 AMD 퍼포먼스 랩에서 FP8 데이터 유형을 사용해 LLaMA 3.1-405B 모델의 텍스트 생성 처리율을 측정하여 수행한 테스트를 기준으로 합니다. 테스트는 다음 구성의 AMD INSTINCT™ MI325X 8xGPU 플랫폼 및 NVIDIA H200 HGX GPU 플랫폼에 대해 128개 토큰의 입력 길이와 2048개 토큰의 출력 길이를 사용하여 수행되었습니다. vLLM 성능 지원 8xGPU MI325X 플랫폼과 NVIDIA 게시 결과 비교 구성: MI325X 8xGPU 플랫폼 구성 Dell PowerEdge XE9680, 2x 인텔 제온 Platinum 8480+ 프로세서, 8x AMD Instinct MI325X(256GiB, 1000W) GPU, Ubuntu 22.04, ROCm 6.3 사전 릴리스 빌드 vs TensorRT-LLM v0.13에 대해 Nvidia에서 게시한 결과는 다음에서 캡처함: https://github.com/NVIDIA/TensorRT-LLM/blob/v0.13.0/docs/source/performance/perf-overview.md - 3039.7 출력 토큰/초. 서버 제조업체별 구성에 따라 다른 결과가 나올 수 있습니다. 최신 드라이버의 사용 여부 및 최적화에 따라 성능이 달라질 수 있습니다. MI325-014
- MI300-61: AMD AI 제품 관리 팀이 AMD Instinct™ MI300X GPU에서 수행한 측정 결과로, 2024년 9월 28일 기준 Llama 3.1-70B와 Llama 3.1-405B 및 vLLM 0.5.5에서 최적화 방법론을 활성화 및 비활성화하여 거대 언어 모델(LLM) 성능을 비교했습니다.
시스템 구성:
AMD EPYC 9654 96코어 프로세서, 8 x AMD MI300X, ROCm™ 6.1, Linux® 7ee7e017abe3 5.15.0-116-generic #126-Ubuntu® SMP 2024년 7월 1일 월요일 10:14:24 UTC x86_64 x86_64 x86_64 GNU/Linux, 주파수 부스트: 활성화됨. 성능은 다양한 버전의 구성, vLLM, 드라이버를 포함하되 이에 국한되지 않는 요인에 따라 다를 수 있습니다.
- MI300-62: 2024년 9월 29일 기준 AMD 퍼포먼스 랩에서 수행한 테스트는 Llama 3.1-8B, Llama 3.1-70B, Mixtral-8x7B, Mixtral-8x22B, Qwen 72B 모델과 결합된 8개의 AMD Instinct™ MI300X GPU가 탑재된 시스템에서 ROCm 6.2 소프트웨어와 ROCm 6.0 소프트웨어 간의 추론 성능 비교입니다. vLLM 0.5.5가 적용된 ROCm 6.2의 성능이 vLLM 0.3.3이 적용된 ROCm 6.0의 성능과 비교 측정되었으며, 배치 크기 1~256, 시퀀스 길이 128~2048에 걸쳐 테스트가 수행되었습니다.
구성:
8개의 AMD Instinct™ MI300X(192GB, 750W) GPU, Supermicro AS-8125GS-TNMR2, NPS1(소켓당 1개의 NUMA), 1.5TiB(24개의 DIMM, 4800mts 메모리, 64GiB/DIMM), 4개의 3.49TB Micron 7450 스토리지, BIOS 버전: 1.8, ROCm 6.2.0-00, vLLM 0.5.5, PyTorch 2.4.0, Linux 커널 5.15.0-119-generic이 설치된 Ubuntu® 22.04 LTS를 탑재한 1P AMD EPYC™ 9534 CPU 서버.
vs.
8개의 AMD Instinct™ MI300X(192GB, 750W) GPU, Supermicro AS-8125GS-TNMR2, NPS1(소켓당 1개의 NUMA), 1.5TiB(24개의 DIMM, 4800mts 메모리, 64GiB/DIMM), 4개의 3.49TB Micron 7450 스토리지, BIOS 버전: 1.8, ROCm 6.0.0-00, vLLM 0.3.3, PyTorch 2.1.1, Linux 커널 5.15.0-119-generic이 설치된 Ubuntu 22.04 LTS를 탑재한 1P AMD EPYC 9534 CPU 서버.
서버 제조업체별 구성에 따라 다른 결과가 나올 수 있습니다. 성능은 다양한 버전의 구성, vLLM, 드라이버를 포함하되 이에 국한되지 않는 요인에 따라 다를 수 있습니다.
면책 사항: 여기에 담긴 내용은 정보 제공만을 목적으로 하며, 고지 없이 변경될 수 있습니다. 본 문서 작성 시 만전을 기했으나 기술적 부정확, 누락 및 오타가 있을 수 있으며, AMD는 이 정보를 업데이트하거나 달리 교정해야 할 의무가 없습니다. Advanced Micro Devices, Inc.는 본 문서 내용의 정확성 또는 완결성과 관련하여 일체의 보증이나 보장을 하지 않으며, 본 문서에 명시된 AMD 하드웨어, 소프트웨어 또는 기타 제품의 운용이나 사용과 관련해 비위반, 판매적격성 또는 특정 목적에 대한 적합성에 대한 묵시적 보증을 포함하여 어떠한 종류의 책임도 지지 않습니다. 금반언에 의해 암시되거나 발생되는 것을 포함해 지적 재산권에 대한 어떠한 라이선스도 본 문서로 부여되지 않습니다. AMD 제품의 구매 또는 사용에 적용할 수 있는 약관은 당사자 간 서명된 합의서 또는 AMD의 표준 판매 약관에 명시된 바와 같습니다. GD-18u.
© 2024 Advanced Micro Devices, Inc. All rights reserved. AMD, AMD Arrow 로고, EPYC, Instinct, ROCm 및 그 조합은 Advanced Micro Devices, Inc.의 상표입니다. 본 게시물에 사용된 기타 제품명은 구분을 위한 것일 뿐이며 각 소유자의 상표일 수 있습니다. 특정 AMD 기술을 사용하려면 타사 활성화 또는 활성화가 필요할 수 있습니다. 지원되는 기능은 운영 체제에 따라 다를 수 있습니다. 특정 기능에 대해서는 시스템 제조업체에 문의하세요. 어떤 기술이나 제품도 완전히 안전할 수는 없습니다.
- 2024년 9월 26일 현재 AMD 퍼포먼스 랩에서 현재 사양 및/또는 추정치를 기준으로 수행한 계산입니다. AMD Instinct™ MI325X OAM 가속기는 256GB HBM3e 메모리 용량과 6TB/s GPU의 이론상 최대 메모리 대역폭 성능을 제공합니다. 프로덕션 실리콘에 따라 실제 결과는 다를 수 있습니다. NVidia Hopper H200(141GB) SXM GPU 가속기에 대해 게시된 최고 결과는 141GB HBM3e 메모리 용량 및 4.8TB/s GPU 메모리 대역폭 성능입니다. https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446. Nvidia Blackwell HGX B100(192GB) 700W GPU 가속기에 대해 게시된 최고 결과는 192GB HBM3e 메모리 용량 및 8TB/s GPU 메모리 대역폭 성능입니다. NVidia Blackwell HGX B200(192GB) GPU 가속기에 대해 게시된 최고 결과는 192GB HBM3e 메모리 용량 및 8TB/s GPU 메모리 대역폭 성능입니다. Nvidia Blackwell 사양은 https://resources.nvidia.com/en-us-blackwell-architecture에서 확인할 수 있습니다. MI325-001A
- MI325-004: 2024년 9월 28일 AMD 퍼포먼스 랩에서 FP16 데이터 유형을 사용해 Mixtral-8x7B 모델의 텍스트 생성 처리율을 측정하여 수행한 테스트를 기준으로 합니다. 테스트는 AMD Instinct™ MI325X GPU 가속기 및 NVIDIA H200 SXM GPU 가속기에 대해 128개 토큰의 입력 길이와 4096개 토큰의 출력 길이를 사용하여 수행되었습니다. vLLM 성능 지원 MI325X(1000W) 1개와 TensorRT-LLM v0.13 지원 H200(700W) 1개 비교. 서버 제조업체별 구성에 따라 다른 결과가 나올 수 있습니다. 최신 드라이버의 사용 여부 및 최적화에 따라 성능이 달라질 수 있습니다. MI325-004
- MI325-005: 2024년 9월 28일 AMD 퍼포먼스 랩에서 FP16 데이터 유형을 사용해 Mistral-7B 모델의 전체 지연율을 측정하여 수행한 테스트를 기준으로 합니다. 테스트는 AMD Instinct™ MI325X GPU 가속기 및 NVIDIA H200 SXM GPU 가속기에 대해 128개 토큰의 입력 길이와 128개 토큰의 출력 길이를 사용하여 수행되었습니다. 서버 제조업체별 구성에 따라 다른 결과가 나올 수 있습니다. 최신 드라이버의 사용 여부 및 최적화에 따라 성능이 달라질 수 있습니다. MI325-005
- MI325-006: 2024년 9월 28일 AMD 퍼포먼스 랩에서 FP8 데이터 유형을 사용해 LLaMA 3.1-70B 모델의 전체 지연율을 측정하여 수행한 테스트를 기준으로 합니다. 테스트는 다음 구성의 AMD INSTINCT™ MI325X GPU 가속기 및 NVIDIA H200 SXM GPU 가속기에 대해 2048개 토큰의 입력 길이와 2048개 토큰의 출력 길이를 사용하여 수행되었습니다. 서버 제조업체별 구성에 따라 다른 결과가 나올 수 있습니다. 최신 드라이버의 사용 여부 및 최적화에 따라 성능이 달라질 수 있습니다. MI325-006
- MI325-003A: 정의된 파라미터와 10% 오버헤드를 더한 모델에서 필요한 메모리 대비 GPU 전용 메모리 크기를 기준으로 계산된 추정치입니다. 계산은 게시된 메모리 크기와 때로는 예비 모델 메모리 크기에 따라 달라집니다. PaLM 1, Llama 3.1 405B, Mixtral 8x22B 및 Samba-1 결과는 시스템/부품 가용성으로 인해 MI325X 및 H200에서 추정되었습니다.
결과(계산):
필요한 GPU: MI325X vs. H200
PaLM-1(540B) 5 9
Llama 3.1(405B) 4 7
Mixtral 8x22B(141B) 2 3
Samba-1(1T) 9 16
서버 제조업체별 구성에 따라 다른 결과가 나올 수 있습니다. 최신 드라이버의 사용 여부 및 최적화에 따라 성능이 달라질 수 있습니다.
- MI325-001A: 2024년 9월 26일 현재 AMD 퍼포먼스 랩에서 현재 사양 및/또는 추정치를 기준으로 수행한 계산입니다. AMD Instinct™ MI325X OAM 가속기는 256GB HBM3e 메모리 용량과 6TB/s GPU의 이론상 최대 메모리 대역폭 성능을 제공합니다. 프로덕션 실리콘에 따라 실제 결과는 다를 수 있습니다. NVidia Hopper H200(141GB) SXM GPU 가속기에 대해 게시된 최고 결과는 141GB HBM3e 메모리 용량 및 4.8TB/s GPU 메모리 대역폭 성능을 기록했습니다: https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446. Nvidia Blackwell HGX B100(192GB) 700W GPU 가속기에 대해 게시된 최고 결과는 192GB HBM3e 메모리 용량 및 8TB/s GPU 메모리 대역폭 성능입니다. NVidia Blackwell HGX B200(192GB) GPU 가속기에 대해 게시된 최고 결과는 192GB HBM3e 메모리 용량 및 8TB/s GPU 메모리 대역폭 성능입니다. Nvidia Blackwell 사양은 https://resources.nvidia.com/en-us-blackwell-architecture에서 확인할 수 있습니다.
- MI325-002: 2024년 5월 28일 AMD 퍼포먼스 랩에서 AMD Instinct™ MI325X GPU에 대해 수행한 계산 결과 1307.4TFLOPS 이론상 최대 반정도(FP16), 1307.4TFLOPS 이론상 최대 Bfloat16 포맷 정도(BF16), 2614.9TFLOPS 이론상 최대 8비트 정도(FP8), 2614.9TOPs INT8 부동 소수점 성능이 나타났습니다. 실제 성능은 최종 사양 및 시스템 구성에 따라 달라집니다.
Nvidia H200 SXM(141GB) GPU에 대해 게시된 결과: 989.4TFLOPS 이론상 최대 반정도 텐서(FP16 텐서), 989.4TFLOPS 이론상 최대 Bfloat16 텐서 포맷 정도(BF16 텐서), 1,978.9TFLOPS 이론상 최대 8비트 정도(FP8), 1,978.9TOPs 이론상 최대 INT8 부동 소수점 성능. Nvidia는 BFLOAT16 텐서 코어, FP16 텐서 코어, FP8 텐서 코어, INT8 텐서 코어 성능을 스파시티를 사용해 게시했습니다. AMD는 비교를 위해 이 숫자를 2로 나누어 비스파시티/밀도로 변환했으며 이러한 숫자는 상단에 나와 있습니다.
Nvidia H200 출처: https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446 및 https://www.anandtech.com/show/21136/nvidia-at-sc23-h200-accelerator-with-hbm3e-and-jupiter-supercomputer-for-2024
주: Nvidia H200 GPU는 H100 제품과 동일한 FLOP 성능이 게시되었습니다(https://resources.nvidia.com/en-us-tensor-core). MI325-002
- MI325-014: 2024년 10월 8일 AMD 퍼포먼스 랩에서 FP8 데이터 유형을 사용해 LLaMA 3.1-405B 모델의 텍스트 생성 처리율을 측정하여 수행한 테스트를 기준으로 합니다. 테스트는 다음 구성의 AMD INSTINCT™ MI325X 8xGPU 플랫폼 및 NVIDIA H200 HGX GPU 플랫폼에 대해 128개 토큰의 입력 길이와 2048개 토큰의 출력 길이를 사용하여 수행되었습니다. vLLM 성능 지원 8xGPU MI325X 플랫폼과 NVIDIA 게시 결과 비교 구성: MI325X 8xGPU 플랫폼 구성 Dell PowerEdge XE9680, 2x 인텔 제온 Platinum 8480+ 프로세서, 8x AMD Instinct MI325X(256GiB, 1000W) GPU, Ubuntu 22.04, ROCm 6.3 사전 릴리스 빌드 vs TensorRT-LLM v0.13에 대해 Nvidia에서 게시한 결과는 다음에서 캡처함: https://github.com/NVIDIA/TensorRT-LLM/blob/v0.13.0/docs/source/performance/perf-overview.md - 3039.7 출력 토큰/초. 서버 제조업체별 구성에 따라 다른 결과가 나올 수 있습니다. 최신 드라이버의 사용 여부 및 최적화에 따라 성능이 달라질 수 있습니다. MI325-014
- MI300-61: AMD AI 제품 관리 팀이 AMD Instinct™ MI300X GPU에서 수행한 측정 결과로, 2024년 9월 28일 기준 Llama 3.1-70B와 Llama 3.1-405B 및 vLLM 0.5.5에서 최적화 방법론을 활성화 및 비활성화하여 거대 언어 모델(LLM) 성능을 비교했습니다.
시스템 구성:
AMD EPYC 9654 96코어 프로세서, 8 x AMD MI300X, ROCm™ 6.1, Linux® 7ee7e017abe3 5.15.0-116-generic #126-Ubuntu® SMP 2024년 7월 1일 월요일 10:14:24 UTC x86_64 x86_64 x86_64 GNU/Linux, 주파수 부스트: 활성화됨. 성능은 다양한 버전의 구성, vLLM, 드라이버를 포함하되 이에 국한되지 않는 요인에 따라 다를 수 있습니다.
- MI300-62: 2024년 9월 29일 기준 AMD 퍼포먼스 랩에서 수행한 테스트는 Llama 3.1-8B, Llama 3.1-70B, Mixtral-8x7B, Mixtral-8x22B, Qwen 72B 모델과 결합된 8개의 AMD Instinct™ MI300X GPU가 탑재된 시스템에서 ROCm 6.2 소프트웨어와 ROCm 6.0 소프트웨어 간의 추론 성능 비교입니다. vLLM 0.5.5가 적용된 ROCm 6.2의 성능이 vLLM 0.3.3이 적용된 ROCm 6.0의 성능과 비교 측정되었으며, 배치 크기 1~256, 시퀀스 길이 128~2048에 걸쳐 테스트가 수행되었습니다.
구성:
8개의 AMD Instinct™ MI300X(192GB, 750W) GPU, Supermicro AS-8125GS-TNMR2, NPS1(소켓당 1개의 NUMA), 1.5TiB(24개의 DIMM, 4800mts 메모리, 64GiB/DIMM), 4개의 3.49TB Micron 7450 스토리지, BIOS 버전: 1.8, ROCm 6.2.0-00, vLLM 0.5.5, PyTorch 2.4.0, Linux 커널 5.15.0-119-generic이 설치된 Ubuntu® 22.04 LTS를 탑재한 1P AMD EPYC™ 9534 CPU 서버.
vs.
8개의 AMD Instinct™ MI300X(192GB, 750W) GPU, Supermicro AS-8125GS-TNMR2, NPS1(소켓당 1개의 NUMA), 1.5TiB(24개의 DIMM, 4800mts 메모리, 64GiB/DIMM), 4개의 3.49TB Micron 7450 스토리지, BIOS 버전: 1.8, ROCm 6.0.0-00, vLLM 0.3.3, PyTorch 2.1.1, Linux 커널 5.15.0-119-generic이 설치된 Ubuntu 22.04 LTS를 탑재한 1P AMD EPYC 9534 CPU 서버.
서버 제조업체별 구성에 따라 다른 결과가 나올 수 있습니다. 성능은 다양한 버전의 구성, vLLM, 드라이버를 포함하되 이에 국한되지 않는 요인에 따라 다를 수 있습니다.
면책 사항: 여기에 담긴 내용은 정보 제공만을 목적으로 하며, 고지 없이 변경될 수 있습니다. 본 문서 작성 시 만전을 기했으나 기술적 부정확, 누락 및 오타가 있을 수 있으며, AMD는 이 정보를 업데이트하거나 달리 교정해야 할 의무가 없습니다. Advanced Micro Devices, Inc.는 본 문서 내용의 정확성 또는 완결성과 관련하여 일체의 보증이나 보장을 하지 않으며, 본 문서에 명시된 AMD 하드웨어, 소프트웨어 또는 기타 제품의 운용이나 사용과 관련해 비위반, 판매적격성 또는 특정 목적에 대한 적합성에 대한 묵시적 보증을 포함하여 어떠한 종류의 책임도 지지 않습니다. 금반언에 의해 암시되거나 발생되는 것을 포함해 지적 재산권에 대한 어떠한 라이선스도 본 문서로 부여되지 않습니다. AMD 제품의 구매 또는 사용에 적용할 수 있는 약관은 당사자 간 서명된 합의서 또는 AMD의 표준 판매 약관에 명시된 바와 같습니다. GD-18u.
© 2024 Advanced Micro Devices, Inc. All rights reserved. AMD, AMD Arrow 로고, EPYC, Instinct, ROCm 및 그 조합은 Advanced Micro Devices, Inc.의 상표입니다. 본 게시물에 사용된 기타 제품명은 구분을 위한 것일 뿐이며 각 소유자의 상표일 수 있습니다. 특정 AMD 기술을 사용하려면 타사 활성화 또는 활성화가 필요할 수 있습니다. 지원되는 기능은 운영 체제에 따라 다를 수 있습니다. 특정 기능에 대해서는 시스템 제조업체에 문의하세요. 어떤 기술이나 제품도 완전히 안전할 수는 없습니다.