Herausragende HPC- und KI-Performance vorantreiben

AMD Instinct™ MI200-Serie Beschleuniger ermöglichen eine überragende Performance für das Rechenzentrum, im großen Maßstab – von Einzelserver-Lösungen bis hin zu den weltweit größten Supercomputern der Exascale-Klasse.1

Unter der Haube

AMD Instinct Beschleuniger basieren auf der AMD CDNA™ Architektur, die Matrix-Core-Technologien und Unterstützung für eine Vielzahl von Genauigkeiten bietet – von hocheffizienten INT8 und FP8 bis hin zu anspruchsvollsten FP64 für HPC.

Serie kennenlernen

Entdecken Sie AMD Instinct MI250X, MI250 und MI210 Beschleuniger.

AMD Instinct MI250X Beschleuniger

AMD Instinct MI250X Beschleuniger treiben einige der weltweit wichtigsten Supercomputer an.

220 CUs

220 GPU Recheneinheiten

128 GB

128 GB HBM2e Speicher

3,2 TB/s

3,2 TB/s max. Speicherbandbreite

400 GB/s

400 GB/s max. aggregierte Infinity Fabric Bandbreite

Vergleiche der Spezifikationen

Theoretische Leistung von bis zu max. 383 TFLOPS mit halber Genauigkeit (FP16) und bis zu 1,6-mal mehr Speicherkapazität und Bandbreite als GPUs der Konkurrenz für die anspruchsvollsten KI-Auslastungen2,3,4

MI250X

A100

FP32*
95
19
0
20
40
60
80
100
120
FP16
383
312
0
100
200
300
400
500

Bietet einen bis zu 4-fachen Vorteil im Vergleich zu anderen GPUs, mit einer theoretischen Leistung von max. 47,9 TFLOPs FP64 und max. 95,7 TFLOPs FP64 Matrix.2

MI250X

A100

FP64 Vector
47
9
0
10
20
30
40
50
60
FP64 Tensor FP64 Matrix
95
19
0
20
40
60
80
100
120
FP32 Vector
47
19
0
10
20
30
40
50
60

* Das TF32-Datenformat ist nicht IEEE-konform, darum nicht in diesem Vergleich enthalten.

AMD Instinct MI250 Beschleuniger

AMD Instinct MI250 Beschleuniger ermöglichen eine herausragende HPC- und KI-Performance für Anwendungsfälle aus den Bereichen Enterprise, Forschung und Hochschule.

208 CUs

208 GPU Recheneinheiten

128 GB

128 GB HBM2e Speicher

3,2 TB/s

3,2 TB/s max. Speicherbandbreite

100 GB/s

100 GB/s max. Infinity Fabric™ Link Bandbreite

Performance-Benchmarks

HPCG 3.0: Die Benchmark High Performance Conjugate Gradients (HPCG) ist eine Metrik zur Einstufung von HPC-Systemen. HPCG ist als Ergänzung zur Benchmark High Performance LINPACK (HPL) gedacht, die derzeit zur Einstufung der TOP500-Computing-Systeme verwendet wird.5

Metrik

1 x MI250

2 x MI250

4 x MI250

GFLOPS

488,8

972,6

1.927,7

 

HPL: HPL ist eine Implementierung der Benchmark High-Performance Linpack. Der Code löst ein gleichmäßig zufälliges System linearer Gleichungen und meldet die Zeit und die Gleitkomma-Ausführungsrate anhand einer Standardformel für die Anzahl der Operationen.6

Metrik

1 x MI250

2 x MI250

4 x MI250

TFLOPS

40,45

80,666

161,97

 

HPL_AI bzw. High Performance LINPACK for Accelerator Introspection ist eine Benchmark, die die Konvergenz von HPC- und KI-Auslastungen hervorhebt, indem ein System linearer Gleichungen anhand neuartiger Algorithmen mit unterschiedlicher Genauigkeit gelöst wird.7

Metrik

Testmodul

4 x MI250

TFLOPS

FP16/32/64 gemischt

930,44

 

PyFR ist ein Open-Source-Framework auf Basis von Python zur Lösung von Advektions-Diffusions-Problemen auf Streaming-Architekturen unter Verwendung des Flussrekonstruktionsansatzes von Huynh. Das Framework soll eine Reihe von Regelsystemen auf gemischten unstrukturierten Rastern mit verschiedenen Elementtypen lösen.8

Metrik

Testmodul

1 x MI250

Simulationen/Tag

TGV

41,73

 

OpenFOAM (Open-source Field Operation And Manipulation) ist eine C++-Toolbox für die Entwicklung kundenspezifischer numerischer Solver und Pre-/Post-Processing-Anwendungen für die Lösung von Problemen der Kontinuumsmechanik. Hierzu gehört vor allem die numerische Strömungsmechanik.9

Metrik

Testmodul

1 x MI250

2 x MI250

4 x MI250

Zeit (Sek.)

HPC Motorbike (größer ist nicht besser)

662,3

364,26

209,84

 

Amber ist eine Reihe von biomolekularen Simulationsprogrammen, wobei sich der Begriff „Amber“ auf zwei Dinge bezieht. Zum einen handelt es sich um eine Reihe von molekularmechanischen Kraftfeldern für die Simulation von Biomolekülen, zum anderen um ein Paket von Molekularsimulationsprogrammen, das Quelltext und Demos enthält.10

Anwendung

Metrik

Testmodul

Größer ist besser

1 x MI250

AMBER

ns/Tag

Cellulose Production NPT 4fs

Ja

227,2

AMBER

ns/Tag

Cellulose Production NVE 4fs

Ja

242,4

AMBER

ns/Tag

FactorIX Production NPT 4fs

Ja

803,1

AMBER

ns/Tag

FactorIX Production NVE 4fs

Ja

855,2

AMBER

ns/Tag

JAC Production NPT 4fs

Ja

1794

AMBER

ns/Tag

JAC Production NVE 4fs

Ja

1871

AMBER

ns/Tag

STMV Production NPT 4fs

Ja

80,65

AMBER

ns/Tag

STMV Production NVE 4fs

Ja

86,7

 

GROMACS ist ein Molekulardynamik-Paket, das hauptsächlich für Simulationen von Proteinen, Lipiden und Nukleinsäuren konzipiert ist. Es wurde ursprünglich von der Abteilung Biophysikalische Chemie der Universität Groningen entwickelt und wird nun von Mitarbeitern in Universitäten und Forschungszentren weltweit gepflegt.11

Anwendung

Metrik

Testmodul

Größer ist besser

1 x MI250

2 x MI250

4 x MI250

GROMACS

ns/Tag

STMV

Ja

34,2

61,812

89,26

 

LAMMPS ist ein klassischer Molekulardynamik-Code mit Schwerpunkt auf Materialmodellierung. Hierbei handelt es sich um eine Abkürzung für Large-scale Atomic/Molecular Massively Parallel Simulator. LAMMPS hat Potenzial für Festkörperwerkstoffe (Metalle, Halbleiter) und weiche Materie (Biomoleküle, Polymere) sowie grobkörnige oder mesoskopische Systeme.12

Anwendung

Metrik

Testmodul

Größer ist besser

1 x MI250

2 x MI250

4 x MI250

LAMMPS

Atomzeitschritte/s

LJ

Ja

6E+08

1E+09

2E+09

LAMMPS

Atomzeitschritte/s

ReaxFF

Ja

7E+06

1E+07

3E+07

LAMMPS

Atomzeitschritte/s

Tersoff

Ja

5E+08

1E+09

2E+09

 

NAMD ist ein Molekulardynamik-Paket zur Simulation der Bewegung von Biomolekülen im Laufe der Zeit. Es eignet sich für große Biomolekularsysteme. Es wird für die Simulation von Systemen mit über 1 Milliarde Atomen verwendet und bietet eine hervorragende Skalierbarkeit auf Tausenden von CPU-Kernen und GPUs.13

Anwendung

Metrik

Testmodul

Größer ist besser

1 x MI250

2 x MI250

4 x MI250

NAMD 3.0

ns/Tag

APOA1_NVE

Ja

221,4

443,61

879,43

NAMD 3.0

ns/Tag

STMV_NVE

Ja

19,87

39,545

77,132

 

AMD Instinct MI210 Beschleuniger

AMD Instinct MI210 Beschleuniger treiben HPC- und KI-Auslastungen im Bereich Enterprise, Forschung und Hochschule für Einzelserverlösungen und mehr an.

104 CUs

104 GPU Recheneinheiten

64 GB

64 GB HBM2e Speicher

1,6 TB/s

1,6 TB/s max. Speicherbandbreite

100 GB/s

100 GB/s max. Infinity Fabric™ Link Bandbreite

Performance-Benchmarks

HPL: HPL ist eine Implementierung der Benchmark High-Performance Linpack. Der Code löst ein gleichmäßig zufälliges System linearer Gleichungen und meldet die Zeit und die Gleitkomma-Ausführungsrate anhand einer Standardformel für die Anzahl der Operationen.14

Metrik

Größer ist besser

1 x MI210

2 x MI210

4 x MI210 8 x MI210

TFLOPS

Ja

21,07

40,878

81,097 159,73

 

HPL-AI: HPL_AI bzw. High Performance LINPACK for Accelerator Introspection ist eine Benchmark, die die Konvergenz von HPC- und KI-Auslastungen hervorhebt, indem ein System linearer Gleichungen anhand neuartiger Algorithmen mit unterschiedlicher Genauigkeit gelöst wird.15

Metrik

Testmodul

Größer ist besser

4 x MI210

8 x MI210

TFLOPS

FP16/32/64 gemischt

Ja

444,77

976,18

 

LAMMPS: LAMMPS ist ein klassischer Molekulardynamik-Code mit Schwerpunkt auf Materialmodellierung. Hierbei handelt es sich um eine Abkürzung für Large-scale Atomic/Molecular Massively Parallel Simulator. LAMMPS hat Potenzial für Festkörperwerkstoffe (Metalle, Halbleiter) und weiche Materie (Biomoleküle, Polymere) sowie grobkörnige oder mesoskopische Systeme.16

Metrik

Testmodul

Größer ist besser

4 x MI210 8 x MI210

Atomzeitschritte/s

ReaxFF

Ja

1E+07 3E+07

AMD ROCm™ Software

AMD ROCm™ Software beinhaltet ein breites Spektrum an Programmierungsmodellen, Tools, Compilern, Bibliotheken und Laufzeiten für die Optimierung von KI-Modellen und HPC-Auslastungen, die auf AMD Instinct Beschleuniger ausgerichtet sind.

Fallstudien

Lösungen finden

Partner finden, die Lösungen mit AMD Instinct Beschleunigern anbieten.

Ressourcen

Immer informiert bleiben

Melden Sie sich an und erhalten Sie alle Neuigkeiten über Rechenzentren und Server.

Fußnoten
  1. Top-500-Liste, Juni 2023
  2. Die weltweit schnellste GPU für Rechenzentren ist der AMD Instinct™ MI250X. Berechnungen durchgeführt vom AMD Leistungslabor, Stand: 15.09.2021, für den AMD Instinct™ MI250X Beschleuniger (128 GB HBM2e OAM-Modul) bei max. 1.700 MHz Boost-Speichertakt ergaben folgende theoretische Gleitkommaleistung: max. 95,7 TFLOPS mit doppelter Genauigkeit (FP64-Matrix), max. 47,9 TFLOPS mit doppelter Genauigkeit (FP64), max. 95,7 TFLOPS mit einfacher Genauigkeit (FP32-Matrix), max. 47,9 TFLOPS mit einfacher Genauigkeit (FP32), max. 383,0 TFLOPS mit halber Genauigkeit (FP16) und 383,0 TFLOPS maximale Bfloat-Genauigkeit (BF16). Berechnungen durchgeführt vom AMD Leistungslabor, Stand: 18.09.2021, für den AMD Instinct™ MI100 (32 GB HBM2 PCIe®-Karte) Beschleuniger bei max. 1.502 MHz Boost-Speichertakt ergaben folgende theoretische Gleitkommaleistung: max. 11,54 TFLOPS mit doppelter Genauigkeit (FP64), max. 46,1 TFLOPS mit einfacher Genauigkeit (FP32), max. 23,1 TFLOPS  mit einfacher Genauigkeit (FP32) und max. 184,6 TFLOPS mit halber Genauigkeit (FP16). Veröffentlichte Ergebnisse des Nvidia Ampere A100 (80 GB) GPU-Beschleunigers bei 1.410 MHz Boost-Speichertakt ergaben max. 19,5 TFLOPS mit doppelter Genauigkeit Tensor Cores (FP64 Tensor Core) und max. 9,7 TFLOPS mit doppelter Genauigkeit (FP64). Theoretische Gleitkommaleistung: max. 19,5 TFLOPS mit einfacher Genauigkeit (FP32), max. 78 TFLOPS mit halber Genauigkeit (FP16), max. 312 TFLOPS mit halber Genauigkeit (FP16 Tensor Flow), max. 39 TFLOPS Bfloat 16 (BF16) und max. 312 TFLOPS Bfloat16-Genauigkeit (BF16 Tensor Flow).  Das Datenformat TF32 ist nicht IEEE-konform und daher nicht in diesem Vergleich enthalten (siehe: https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/nvidia-ampere-architecture-whitepaper.pdf, Seite 15, Tabelle 1 (Englisch)). MI200-01
  3. Berechnungen durchgeführt im AMD Leistungslabor am 21. September 2021 für die AMD Instinct™ MI250X und MI250 (128 GB HBM2e) OAM-Beschleuniger mit AMD CDNA™ 2 6-nm-FinFet-Prozesstechnologie und einem Spitzenspeichertakt von 1.600 MHz ergaben eine theoretische Spitzen-Speicherbandbreiten-Performance von 3,2768 TFLOPS. Die Speicherbus-Schnittstelle des MI250/MI250X ist 4.096 Bit x 2 Die und die Speicherdatenrate beträgt 3,20 GB/s, was eine Gesamtspeicherbandbreite von 3,2768 TB/s ergibt ((3,20 GB/s * (4.096 Bit * 2)) / 8). Die höchsten veröffentlichten Ergebnisse für den Nvidia Ampere A100 (80 GB) SXM GPU Beschleuniger ergaben eine Speicherbandbreiten-Performance von 2,039 Tbit/s. https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/a100/pdf/nvidia-a100-datasheet-us-nvidia-1758950-r4-web.pdf MI200-07
  4. Berechnungen durchgeführt vom AMD Leistungslabor am 21. September 2021 für die AMD Instinct™ MI250X und MI250 Beschleuniger (OAM) mit AMD CDNA™ 2 6-nm-FinFet-Prozesstechnologie und einem Spitzenspeichertakt von 1.600 MHz ergaben eine HBMe-Speicherkapazität von 128 GB. Die veröffentlichten Spezifikationen der Nvidia Ampere A100 (80 GB) SXM und A100 Beschleuniger (PCIe®) wiesen eine Speicherkapazität von 80 GB auf. Ergebnisse einsehbar unter: https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/a100/pdf/nvidia-a100-datasheet-us-nvidia-1758950-r4-web.pdf MI200-18
  5. Test durchgeführt vom AMD Leistungslabor am 2.11.2022 mithilfe von HPCG 3.0; verglichen wurden zwei Systeme: 2P-Server mit EPYC™ 7763, SMT deaktiviert, mit 1 x, 2 x und 4 x AMD Instinct™ MI250 (128 GB HBM2e) 560 W GPUs, SBIOS M12, Ubuntu 20.04.4, Host ROCm 5.2.0 im Vergleich zu 2P-Server mit AMD EPYC™ 7742, mit 1 x, 2 x und 4 x Nvidia Ampere A100 80 GB SXM 400 W GPUs, SBIOS 0.34, Ubuntu 20.04.4, CUDA 11.6. HPCG 3.0 Container: nvcr.io/nvidia/hpc-benchmarks:21.4-hpcg unter https://catalog.ngc.nvidia.com/orgs/nvidia/containers/hpc-benchmarks. Serverhersteller wählen möglicherweise andere Konfigurationen, was zu anderen Ergebnissen führen kann. Die Performance kann aufgrund neuester Treiber und Optimierungen variieren. MI200-70A.
  6. Tests durchgeführt vom AMD Leistungslabor am 14.11.2022 mithilfe von HPL; es wurden zwei Systeme verglichen. 2P EPYC™ 7763 Server, SMT deaktiviert, mit 1 x, 2 x und 4 x AMD Instinct™ MI250 (128 GB HBM2e) 560 W GPU, Host ROCm 5.2.0 rocHPL6.0.0. AMD HPL Container ist für Infinity Hub noch nicht verfügbar. Im Vergleich zu 2P AMD EPYC™ 7742 Server, SMT aktiviert, mit 1 x, 2 x und 4 x Nvidia Ampere A100 80 GB SXM 400 W GPU, CUDA 11.6 und Treiberversion 510.47.03. HPL Container (nvcr.io/nvidia/hpc-benchmarks:21.4-hpl) abgerufen unter https://catalog.ngc.nvidia.com/orgs/nvidia/containers/hpc-benchmarks. Serverhersteller wählen möglicherweise andere Konfigurationen, was zu anderen Ergebnissen führen kann. Die Performance kann aufgrund neuester Treiber und Optimierungen variieren. MI200-69A.
  7. HPL-AI-Vergleich basierend auf internen AMD Tests vom 02.11.2022, bei denen die HPL-AI-Benchmark-Performance (TFLOPS) unter Verwendung eines Servers mit 2 x EPYC 7763 und 4 x MI250 128 MB HBM2e mit Host ROCm 5.2.0, HPL-AI-AMD v1.0.0 gemessen wurde; im Vergleich zu einem Server mit 2 x EPYC 7742 und 4 x A100 SMX 80 GB HBM2e mit CUDA 11.6, HPL-AI-NVIDIA v2.0.0, Container nvcr.io/nvidia/hpc-benchmarks:21.4-hpl. Serverhersteller wählen möglicherweise andere Konfigurationen, was zu anderen Ergebnissen führen kann. Die Performance kann aufgrund neuester Treiber und Optimierungen variieren. MI200-81.
  8. Tests durchgeführt vom AMD Leistungslabor am 25.11.2022 unter Verwendung von PyFR TGV und NACA 0021. Es wurden zwei Systeme verglichen: 2P-Server mit EPYC™ 7763, SMT deaktiviert, mit 1 x AMD Instinct™ MI250 (128 GB HBM2e) 560 W GPU, SBIOS M12, Ubuntu 20.04.4, Host ROCm 5.2.0 im Vergleich zu 2P-Server mit AMD EPYC™ 7742, SMT aktiviert, mit 1 x Nvidia Ampere A100 80 GB SXM 400 W GPU, SBIOS 0.34, Ubuntu 20.04.4, CUDA 11.6. Serverhersteller wählen möglicherweise andere Konfigurationen, was zu anderen Ergebnissen führen kann. Die Performance kann aufgrund neuester Treiber und Optimierungen variieren. MI200-82.
  9. Tests durchgeführt vom AMD Leistungslabor am 14.04.2023 unter Verwendung von OpenFOAM v2206 auf einem 2P EPYC 7763 CPU Produktionsserver mit 1 x, 2 x und 4 x AMD Instinct™ MI250 GPUs (128 GB, 560 W) mit AMD Infinity Fabric™ Technologie aktiviert, ROCm™ 5.3.3, Ubuntu® 20.04.4 im Vergleich zu einem 2P EPYC 7742 CPU Produktionsserver mit 1 x, 2 x und 4 x Nvidia A100 80 GB SXM GPUs (400 W) mit NVLink Technologie aktiviert, CUDA® 11.8, Ubuntu 20.04.4. Serverhersteller wählen möglicherweise andere Konfigurationen, was zu anderen Ergebnissen führen kann. Die Performance kann aufgrund neuester Treiber und Optimierungen variieren.
  10. Tests durchgeführt vom AMD Leistungslabor am 26.08.2022 unter Verwendung von AMBER: Cellulose_production_NPT_4fs, Cellulose_production_NVE_4fs, FactorIX_production_NPT_4fs, FactorIX_production_NVE_4fs, STMV_production_NPT_4fs, STMV_production_NVE_4fs, JAC_production_NPT_4fs und JAC production_NVE_4fs. Es wurden zwei Systeme verglichen: 2P-Server mit EPYC™ 7763 und 1 x AMD Instinct™ MI250 (128 GB HBM2e) 560 W GPU, ROCm 5.2.0, Amber-Container 22.amd_100 im Vergleich zu 2P-Server mit EPYC™ 7742 und 1 x Nvidia A100 SXM (80 GB HBM2e) 400 W GPU, MPS aktiviert (2 Instanzen), CUDA 11.6. MI200-73.
  11. Tests durchgeführt vom AMD Leistungslabor am 18.10.2022 mithilfe von Gromacs STMV; es wurden zwei Systeme verglichen: 2P-Server mit EPYC™ 7763 und 4 x AMD Instinct™ MI250 (128 GB HBM2e) 560 W GPUs und Infinity Fabric™ Technologie, ROCm™ 5.2.0, Gromacs-Container 2022.3.amd1_174 im Vergleich zu öffentlichen Nvidia-Angaben unter https://developer.nvidia.com/hpc-application-performance. (Gromacs 2022.2). Dual EPYC 7742 mit 4 x Nvidia Ampere A100 SXM 80 GB GPUs. Serverhersteller wählen möglicherweise andere Konfigurationen, was zu anderen Ergebnissen führen kann. Die Performance kann aufgrund von Faktoren wie dem Einsatz neuester Treiber und Optimierungen variieren. MI200-74.
  12. Tests durchgeführt vom AMD Leistungslabor am 03.10.2022 unter Verwendung von LAMMPS: EAM, LJ, ReaxFF und Tersoff; verglichen wurden zwei Systeme: 2P-Server mit EPYC™ 7763 und 4 x AMD Instinct™ MI250 (128 GB HBM2e) 560 W GPU, ROCm 5.2.0, LAMMPS-Container 2021.5.14_121amdih/lammps:2022.5.04_130 im Vergleich zu öffentlichen Nvidia-Angaben unter http://web.archive.org/web/20220718053400/https://developer.nvidia.com/hpc-application-performance. (stable 23Jun2022 update 1). Serverhersteller wählen möglicherweise andere Konfigurationen, was zu anderen Ergebnissen führen kann. Die Performance kann aufgrund neuester Treiber und Optimierungen variieren. MI200-77.
  13. Tests durchgeführt vom AMD Leistungslabor am 13.09.2022 unter Verwendung von NAMD: STMV_NVE, APOA1_NVE; verglichen wurden zwei Systeme: 2P-Server mit EPYC™ 7763 und 1 x, 2 x und 4 x AMD Instinct™ MI250 (128 GB HBM2e) 560 W GPU mit AMD Infinity Fabric™ Technologie, ROCm 5.2.0, NAMD-Container namd3:3.0a9 im Vergleich zu öffentlichen Nvidia-Angaben zur Performance des 2P-Servers EPYC 7742 mit 1 x, 2 x und 4 x Nvidia Ampere A100 80 GB SXM GPU (https://developer.nvidia.com/hpc-application-performance). (v2.15a AVX-512). Serverhersteller wählen möglicherweise andere Konfigurationen, was zu anderen Ergebnissen führen kann. Die Performance kann aufgrund neuester Treiber und Optimierungen variieren. MI200-76.
  14. Tests durchgeführt vom AMD Leistungslabor am 14.11.2022 auf 2P-Sockel AMD EPYC™ 7763 CPU Supermicro 4124 mit 8 x AMD Instinct™ MI210 GPUs (PCIe® 64 GB, 300 W); AMD Infinity Fabric™ Technologie aktiviert. Ubuntu 18.04.6 LTS, Host ROCm 5.2.0, rocHPL 6.0.0. Ergebnisse aus den Mittelwerten von fünf Durchläufen berechnet im Vergleich zu Tests durchgeführt vom AMD Leistungslabor auf 2P-Sockel AMD EPYC™ 7763 Supermicro 4124 mit 8 x NVIDIA A100 GPUs (PCIe 80 GB, 300 W), Ubuntu 18.04.6 LTS, CUDA 11.6, HPL Nvidia Container-Image 21.4-HPL Alle Ergebnisse wurden auf Systemen gemessen, die mit 8 GPUs konfiguriert sind. 2 Kombinationen der 4 x MI210 GPUs verbunden über eine Infinity Fabric™ Link 4-Wege-Brücke; 4 Kombinationen der 2 x A100 80 GB PCIe GPUs verbunden über eine 2-Wege-NVLink-Brücke. Informationen über HPL:  https://www.netlib.org/benchmark/hpl/. AMD HPL Container-Details: HPL Container ist für Infinity Hub noch nicht verfügbar. Nvidia HPL Container-Details: https://ngc.nvidia.com/catalog/containers/nvidia:hpc-benchmarks. Serverhersteller wählen möglicherweise andere Konfigurationen, was zu anderen Ergebnissen führen kann. Die Performance kann aufgrund neuester Treiber und Optimierungen variieren. MI200-49A.
  15. HPL-AI-Vergleich basierend auf internen AMD Tests vom 02.11.2022, bei denen die HPL-AI-Benchmark-Performance (TFLOPS) unter Verwendung eines Servers mit 2 x EPYC 7763 und 8 x MI210 (64 MB HBM2e) und Infinity Fabric Technologie mit Host ROCm 5.2.0, HPL-AI-AMD v1.0.0 gemessen wurde; AMD HPL-AI-Container ist für Infinity Hub noch nicht verfügbar; im Vergleich zu einem Server mit 2 x EPYC 7763 und 8 x A100 PCIe 80 GB HBM2e mit CUDA 11.6, HPL-AI-NVIDIA v2.0.0, Container nvcr.io/nvidia/hpc-benchmarks:21.4-hpl. Serverhersteller wählen möglicherweise andere Konfigurationen, was zu anderen Ergebnissen führen kann. Die Performance kann aufgrund neuester Treiber und Optimierungen variieren. MI200-83.
  16. Tests durchgeführt vom AMD Leistungslabor am 03.10.2022 auf 2P-Sockel AMD EPYC™ 7763 CPU Supermicro 4124 mit 4 x und 8 x AMD Instinct™ MI210 GPU (PCIe® 64 GB, 300 W); AMD Infinity Fabric™ Technologie war aktiviert. SBIOS2.2, Ubuntu® 18.04.6 LTS, Host ROCm™ 5.2.0. LAMMPS Container amdih-2022.5.04_130 (ROCm 5.1) im Vergleich zu öffentlichen Nvidia-Angaben für 4 x und 8 x A100 PCIe 80 GB GPUs http://web.archive.org/web/20220718053400/https://developer.nvidia.com/hpc-application-performance. Serverhersteller wählen möglicherweise andere Konfigurationen, was zu anderen Ergebnissen führen kann. Die Performance kann aufgrund neuester Treiber und Optimierungen variieren. MI200-47A.