AMD EPYC™ Prozessoren maximieren den Wert großer GPU-Investitionen

GPU-Beschleuniger sind die treibende Kraft für moderne KI geworden und zeichnen sich durch das Training großer, komplexer Modelle und die Unterstützung einer effizienten Inferenz in Echtzeit im großen Maßstab aus. Um aber das Potenzial Ihrer Investition in GPUs zu maximieren, ist ein leistungsstarker CPU-Partner erforderlich.

Warum GPUs für KI-Auslastungen?

GPUs sind das richtige Tool für viele KI-Auslastungen.

  • KI-Training: GPUs beschleunigen das Training großer und mittlerer Modelle dank ihrer Funktionen für die parallele Verarbeitung.
  • Dedizierte KI-Bereitstellungen: GPUs bieten die Geschwindigkeit und Skalierbarkeit, die für Echtzeitinferenz in großen Bereitstellungen erforderlich sind.

Der CPU-Vorteil:

Wenn man die Leistung von GPUs mit der richtigen CPU kombiniert, kann man die KI-Effizienz für bestimmte Auslastungen deutlich verbessern. Achten Sie auf diese wichtigen CPU-Funktionen:

  • EPYC Hochfrequenzprozessoren: Wickelt umfangreiche Aufgaben zur Datenvorbereitung und -nachverarbeitung schnell und effizient ab.
  • Großer Cache: Vereinfacht den schnellen Datenzugriff auf massive Datensätze.
  • Hohe Speicherbandbreite und High-Performance-E/A: Ermöglicht einen schnellen nahtlosen Datenaustausch zwischen CPU und GPU.
  • Energieeffiziente Kerne: Spart Strom bei der GPU-Nutzung und kann den Stromverbrauch insgesamt senken.
  • Kompatibilität mit GPU und Softwareökosystem: Ermöglicht optimierte Performance, Effizienz und einen flüssigen Betrieb.
GPU System with AMD EPYC and Instinct

AMD EPYC 9005 Prozessoren

AMD EPYC 9005-Serie Hochfrequenzprozessoren sind die ideale Wahl, um das wahre Potenzial Ihrer großen KI-Auslastungen freizusetzen. Als Host-CPU können sie sicherstellen, dass die GPUs die richtigen Daten zum richtigen Zeitpunkt haben, um die Verarbeitung fortzusetzen. Dies ist entscheidend, um den bestmöglichen KI-Auslastungsdurchsatz und die bestmögliche Systemeffizienz zu erreichen.  Ihre hohe Kernfrequenz und die große Speicherkapazität sind Schlüsselfaktoren, mit denen sich AMD EPYC Hochfrequenzprozessoren auszeichnen. Lesen Sie den Artikel, um zu verstehen, wie diese Schlüsselfaktoren einen höheren GPU-Durchsatz ermöglichen.

Anwendungen und Branchen

Lösungen auf Basis von GPU-Beschleunigern und unterstützt durch AMD EPYC CPUs treiben viele der weltweit schnellsten Supercomputer und Cloud-Instanzen an. So erhalten Unternehmen eine bewährte Plattform zur Optimierung der datengestützten Auslastungen und zur Erzielung bahnbrechender Ergebnisse für KI.

AMD EPYC 9005‑Serie Prozessoren: Die richtige Wahl zur Maximierung des Werts großer GPU-Investitionen

CPUs spielen eine entscheidende Rolle bei der Orchestrierung und Synchronisierung von Datenübertragungen zwischen GPUs, da sie Kernel-Start-Overheads handhaben und die Datenvorbereitung verwalten. Mit dieser „leitenden“ Funktion können GPUs mit höchster Effizienz arbeiten.

GPU-Investitionswert mit High-Performance-CPUs optimieren

Viele KI-Auslastungen profitieren von hohen CPU-Taktraten zur Verbesserung der GPU-Performance, indem die Verarbeitung, Übertragung und gleichzeitige Ausführung von Daten optimiert werden und so die GPU-Effizienz gesteigert wird. Der EPYC 9575F wurde speziell als KI-Host-Knotenprozessor mit hoher Performance entwickelt, der mit einer Geschwindigkeit von bis zu 5 GHz ausgeführt werden kann.

Vergleich von 2P-Servern mit 8 GPU-Beschleunigern

AMD im Vergleich zu Intel Host-Node-CPU mit AMD Instinct GPUs
MLPerf® v4.1 Inference Llama 2-70B Benchmark¹
8 x AMD Instinct™ MI300X und 2P EPYC 9575F der 5. Generation (64 Kerne – 5 GHz)
1,11 x
8 x AMD Instinct™ MI300X und 2P Xeon 8460Y+ (40 Kerne – 3,7 GHz)
1,0 x

Inferenz – Llama3.1-70B Inference Benchmark (BF16)²
8 x Nvidia H100 und 2P EPYC 9575F der 5. Generation (64 Kerne)
~1,20 x
8 x Nvidia H100 und 2P Xeon 8592+ (64 Kerne)
1,0 x
Training – Llama3.1-8B Inference Benchmark (FP8)³
8 x Nvidia H100 und 2P EPYC 9575F der 5. Generation (64 Kerne)
~1,15 x
8 x Nvidia H100 und 2P Xeon 8592+ (64 Kerne)
1,0 x

Unternehmens-KI effizient bereitstellen

Prozessoren wie AMD EPYC der 5. Generation, die hohe Performance, niedrigen Stromverbrauch, effiziente Datenverarbeitung und effektive Energieverwaltungsfunktionen kombinieren, sorgen dafür, dass Ihre KI-Infrastruktur mit optimaler Performance arbeitet und gleichzeitig Energieverbrauch und Kosten optimiert werden.

AMD EPYC Prozessoren sind für energieeffiziente Server geeignet, bieten eine außergewöhnliche Performance und helfen, die Energiekosten zu senken. Setzen Sie sie mit Zuversicht ein, um energieeffiziente Lösungen zu schaffen und Ihre KI-Reise zu optimieren.

In den AMD EPYC 9005-Serie Prozessoren bietet die AMD Infinity Energieverwaltung eine hervorragende standardmäßige Performance und ermöglicht eine Feinabstimmung für auslastungsspezifisches Verhalten.

Abstract illustration with glowing blue lines

Absolut zuverlässig: KI mit bewährten Lösungen einführen

Wählen Sie aus verschiedenen zertifizierten oder validierten GPU-beschleunigten Lösungen, die von AMD EPYC CPUs gehostet werden, um Ihre KI-Auslastungen zu optimieren.

Sie setzen andere GPUs ein? Fragen Sie nach Lösungen mit AMD EPYC CPUs, die bei führenden Anbietern von Plattformlösungen wie Asus, Dell, Gigabyte, HP, Lenovo oder Supermicro erhältlich sind.

Wachsendes Ökosystem mit AMD EPYC CPU + GPU mit Cloud-KI/ML-Instanzoptionen

Fragen Sie nach Instanzen, die eine AMD EPYC CPU mit GPUs für KI-/ML-Auslastungen kombinieren und von großen Cloud-Anbietern wie AWS, Azure, Google, IBM Cloud und OCI verfügbar sind.

server room photo

Ressourcen

AMD Instinct Beschleuniger

Einzigartig gut geeignet, um ihre anspruchsvollsten KI-Auslastungen voranzubringen.

Übersichten zu AMD EPYC Enterprise AI

AMD und Partnerdokumentation finden, die Innovationen zu KI und maschinellem Lernen mit CPUs und GPUs beschreibt

Podcasts

Hören Sie sich an, wie führende Technologieexperten von AMD und aus der Branche die neuesten Trendthemen zu Servern, Cloud-Computing, KI, HPC und mehr diskutieren.

Fußnoten
  1. 9xx5-013: Offizielle Bewertung von MLPerf™ Inference, v4.1 Llama2-70B-99,9 Server-Token/s und Offline-Token/s, abgerufen von https://mlcommons.org/benchmarks/inference-datacenter/ am 01.09.2024 aus den folgenden Einträgen: 4.1-0070 (Vorschau) und 4.1.0022. Der Name bzw. das Logo MLPerf™ sind Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Unbefugte Verwendung ist streng untersagt. Weitere Informationen unter www.mlcommons.org.
  2. 9xx5-014: Llama3.1-70B-Inferenz-Durchsatzergebnisse basierend auf internen Tests von AMD vom 01.09.2024. Llama3.1-70B-Konfigurationen: TensorRT-LLM 0.9.0, nvidia/cuda 12.5.0-devel-ubuntu22.04, FP8, Eingangs-/Ausgangs-Token-Konfigurationen (Anwendungsfälle): [BS=1024 E/A=128/128, BS=1024 E/A=128/2048, BS=96 E/A=2048/128, BS=64 E/A=2048/2048]. Ergebnisse in Token/Sekunde.2P AMD EPYC 9575F (128 Kerne gesamt) mit 8 x NVIDIA H100 80 GB HBM3, 1,5 TB 24 x 64 GB DDR5-6000, 1,0 Gbit/s 3 TB Micron_9300_MTFDHAL3T8TDP NVMe®, BIOS T20240805173113 (Determinism = Power, SR-IOV = On), Ubuntu 22.04.3 LTS, Kernel = 5.15.0-117-generic (mitigations = off, cpupower frequency-set -g performance, cpupower idle-set -d 2, echo 3> /proc/syss/vm/drop_caches), 2P Intel Xeon Platinum 8592+ (128 Kerne gesamt) mit 8 x NVIDIA H100 80 GB HBM3, 1 TB 16 x 64 GB DDR5-5600, 3,2 TB Dell Ent NVMe® PM1735a MU, Ubuntu 22.04.3 LTS, kernel-5.15.0-118-generic, (processor.max_cstate = 1, intel_idle.max_cstate = 0 mitigations = off, cpupower frequency-set -g performance), BIOS 2.1, (Max. Performance, SR-IOV = On), E/A-Token Batch-Größe EMR Turin Relativer Wert 128/128 1024 814,678 1101,966 1,353 128/2048 1024 2120,664 2331,776 1,1 2048/128 96 114,954 146,187 1,272 2048/2048 64 333,325 354,208 1,063Für eine durchschnittliche Durchsatzsteigerung von 1,197 x. Die Ergebnisse können abhängig von Faktoren wie Systemkonfiguration, Softwareversion und BIOS-Einstellungen variieren.
  3. 9xx5-015: Llama3.1-8B (BF16, max. Sequenzlänge 1024) Training Testergebnisse basierend auf internen Tests von AMD vom 05.09.2024. Llama3.1-8B-Konfigurationen: Max. Sequenzlänge 1024, BF16, Docker: huggingface/transformers-pytorch-gpu:latest 2P AMD EPYC 9575F (128 Kerne gesamt) mit 8 x NVIDIA H100 80 GB HBM3, 1,5 TB 24 x 64 GB DDR5-6000, 1,0 Gbit/s 3 TB Micron_9300_MTFDHAL3T8TDP NVMe®, BIOS T20240805173113 (Determinism = Power, SR-IOV = On), Ubuntu 22.04.3 LTS, Kernel = 5.15.0-117-generic (mitigations = off, cpupower frequency-set -g performance, cpupower idle-set -d 2, echo 3> /proc/syss/vm/drop_caches), für 31,79 Trainingsbeispiele/Sekunde 2P Intel Xeon Platinum 8592+ (128 Kerne gesamt) mit 8 x NVIDIA H100 80 GB HBM3, 1 TB 16 x 64 GB DDR5-5600, 3,2 TB Dell Ent NVMe® PM1735a MU, Ubuntu 22.04.3 LTS, kernel-5.15.0-118-generic, (processor.max_cstate = 1, intel_idle.max_cstate = 0 mitigations = off, cpupower frequency-set -g performance), BIOS 2.1, (maximale Performance, SR-IOV = On), für 27,74 Trainingsbeispiele/Sekunde Für eine durchschnittliche Durchsatzsteigerung von 1,146.  Die Ergebnisse können abhängig von Faktoren wie Systemkonfiguration, Softwareversion und BIOS-Einstellungen variieren.