AMD の力で大規模言語モデルを構築する
AMD EPYC™ CPU および AMD Instinct™ GPU を搭載した LUMI スーパーコンピューターで、192 ノードまで TurkuNLP を拡大し、フィンランド語の大規模言語モデルを構築。
ハイパフォーマンス サーバーは、エンタープライズ AI の基盤です。AMD EPYC™ サーバー CPU と最先端 GPU は、AI トレーニングや大規模モデルのワークロードに対し、圧巻のパフォーマンスをお届けします。
ライブ ウェビナー
AMD EPYC™ プロセッサと業界をリードする GPU アクセラレータの最適な組み合わせが、最も要求の厳しいエンタープライズ AI の課題に取り組むうえで必要な力をどのように発揮するかをご覧ください。
GPU アクセラレータは、大規模で複雑なモデルのトレーニングに優れ、効率的なリアルタイム推論を大規模にサポートする、最新の AI の根幹となっています。GPU 投資の成果を最大限に引き出すには、パワフルな CPU が欠かせません。
GPU は、多くの AI ワークロードに適したツールです。
GPU の能力を適切な CPU と組み合わせることで、特定のワークロードに対する AI の効率性を大幅に向上させることができます。CPU の主な機能は次の通りです。
AMD EPYC プロセッサは、大規模な AI ワークロードの真の性能を引き出すうえで理想的な選択肢です。GPU アクセラレータのパフォーマンスと AI ワークロード全体の効率性を最大化するのに役立ちます。 さらに、高度なセキュリティ機能と、オープン スタンダードへの長期にわたる一貫した取り組みにより、AMD EPYC プロセッサは、企業の AI 活用における次の段階を自信を持って展開できるようにします。
AMD EPYC CPU が駆動する GPU アクセラレータ ベース ソリューションは、世界最速クラスのスーパーコンピューターやクラウド インスタンスの多くで利用され、データ駆動型ワークロードを最適化し、AI で画期的な成果を達成するための、高い実績を持つプラットフォームを企業にお届けしています。
CPU は、GPU 間のデータ転送のオーケストレーションと同期、カーネル起動のオーバーヘッドの処理、データ準備の管理において不可欠な役割を果たします。この "指揮者" のような機能により、GPU の最高効率での動作が確保されます。
高い CPU クロック速度の恩恵を受けることで、一部のワークロードではデータの処理、転送、同時実行が合理化され、GPU の性能と GPU の効率性が向上します。
CPU 周波数が高いほど、Llama2-7B ワークロードのスループットが向上するという概念を証明するために、8 台の NVIDIA H100 GPU を搭載した 2P サーバーにカスタム AMD EPYC 9554 CPU を使用しました。1
高性能、低消費電力、効率的なデータ処理、効果的な電源管理機能を兼ね備えたプロセッサを使用することで、エネルギー消費とコストを最適化し、AI インフラストラクチャを最高のパフォーマンスで運用できるようになります。
AMD EPYC プロセッサは、世界で最もエネルギー効率の高いサーバーを駆動し、卓越したパフォーマンスを実現すると共に、電力コストの削減を実現します。2 AMD EPYC プロセッサを自信を持って導入し、エネルギー効率の高いソリューションを構築して AI 活用の道のりを最適化しましょう。
AMD EPYC 9004 シリーズ プロセッサの AMD Infinity Power Management は、優れたデフォルト性能と、ワークロードに応じた動作の微調整を可能にします。
AMD EPYC CPU がホストする認定済みまたは検証済みの GPU アクセラレーテッド ソリューションの中から、お客様の AI ワークロードを強化するオプションをお選びください。
AMD Instinct のアクセラレータを搭載したソリューションをお望みですか?
ほかの GPU をお使いですか? Asus、Dell、Gigabyte、HPE、Lenovo、Supermicro をはじめとする業界トップクラスのプラットフォーム ソリューション プロバイダーが提供する、AMD EPYC CPU を搭載するソリューションについてお問い合わせください。
AWS、Azure、Google、IBM Cloud、OCI などの主要なクラウド プロバイダーの、AI/ML ワークロード向けに AMD EPYC CPU と GPU を組み合わせたインスタンスについてお問い合わせください。
サーバー構成: 2P EPYC 9554 (周波数がカスタマイズされた CPU、64C/128T、アクティブな 16 コア)、1.5 TB メモリ (4800 MT/s で動作する 24x 64 GB DDR5-5600)、3.2 TB SSD、Ubuntu® 22.04.4 LTS、8x NVIDIA H100 80 GB HBM3、HuggingFace Transformers v 4.31.0、NVIDIA PyTorch 23.12、PEFT 0.4.0、Python 3.10.12、CUDA 12.3.2.001、TensorRT-LLM v 0.9.0.dev2024、CUDNN 8.9.7.29+cuda12.2、NVIDIA-SMI ドライバー バージョン 550.54.15、TRT v8.6.1.6+cuda12.0.1.011、Transformer Engine v1.1
Llama2-7B 微調整: 1 デバイスあたり BS=4、seqln=128、4 回の実行の平均値、1 回の実行あたり 10 エポック、FP16
Llama2-7B トレーニング (1K): BS=56 (7x8 GPU)、seqln=1k、GPU 上での勾配
Llama2-7B トレーニング (2K): BS=24 (3x8 GPUs)、seqln=2k、GPU 上での勾配
結果:
CPU Freq 2000 MHz 2500 MHz 3000 MHz
微調整平均トレーニング実行時間 (秒) 649.38 584.24 507.1
スループットの向上: 0.00% 11.15% 28.06%
トレーニング スループット 1K シーケンス長: 276.08 238.81 230.82
スループットの向上: 0.00% 15.61% 19.61%
トレーニング スループット 2K シーケンス長: 883.85 807.94 778.72
スループットの向上: 0.00% 9.40% 13.50%
実際の結果は、システムの構成、ソフトウェアのバージョン、BIOS の設定などの要因によって異なります。注: このパフォーマンスは概念実証です。8 基の Nvidia H100 80 GB アクセラレータを使用し、さまざまな周波数で動作するホスト プロセッサとして、カスタムの 2P AMD EPYC™ 9554 でデータを収集しています。第 4 世代の EPYC プロセッサでは、エンドユーザーは周波数を調整できません。