運用 AMD 的強大威力建立大型語言模型
在採用 AMD EPYC™ 處理器和 AMD Instinct™ 顯示卡的 LUMI 超級電腦上將 TurkuNLP 調整為 192 個節點,為芬蘭文建立一個大型語言模型。
高效能伺服器是企業 AI 的基礎。AMD EPYC™ 伺服器處理器和頂尖的顯示卡能為您的 AI 訓練和大型模型工作負載提供驚人的效能。
即時網路研討會
瞭解 AMD EPYC™ 處理器和領先業界的顯示卡加速器的致勝組合如何提供應付最嚴苛之企業 AI 挑戰所需的能力。
顯示卡加速器已經成為現代 AI 的主力,善於訓練大型、複雜的模型,並支援大規模的高效率即時推論。然而,將您顯示卡投資的潛力最大化需要強大的處理器合作夥伴。
顯示卡是許多 AI 工作負載的正確工具。
結合顯示卡的強大威力與合適的處理器,可大幅提升特定工作負載的 AI 效率。尋找下列主要處理器功能:
您釋放龐大 AI 工作負載真正潛力的最佳選擇。它們能協助最大化顯示卡加速器效能和整體 AI 工作負載效率。 此外,AMD EPYC 進階安全性功能加上對開放標準的長期一致承諾,讓企業在 AI 旅程中安心部署下一階段。
由 AMD EPYC 處理器推動的顯示卡加速器式解決方案驅動全球許多最快的超級電腦和雲端執行個體,為企業提供經過實證的平台,可最佳化資料導向的工作負載,並在 AI 方面達到突破性的成果。
處理器在協調和同步處理顯示卡之間的資料傳輸、處理內核啟動負擔,以及管理資料準備方面扮演著重要的角色。這項「導體」功能可確保顯示卡能以最高效率運作。
有些工作負載會受惠於高處理器時脈速度,藉由簡化資料處理、傳輸和同時執行來提高顯示卡效率,進而增強顯示卡效能。
為了證明更高的處理器頻率可以提升 Llama2-7B 工作負載輸送量這項概念,我們在配備 8x NVIDIA H100 顯示卡1 的雙路伺服器中使用客製的 AMD EPYC 9554 處理器
結合高效能、低耗電量、高效率資料處理,以及有效電源管理功能的處理器,讓您的 AI 基礎架構能以最高效能運作,同時最佳化能源消耗和成本。
AMD EPYC 處理器驅動全球最節能的伺服器,提供優異的效能,並協助降低能源成本。2 自信地部署,以建立節能解決方案並協助最佳化您的 AI 旅程。
AMD EPYC 9004 系列處理器中,AMD Infinity Power Management 提供優異的預設效能,並可針對特定工作負載的行為進行微調。
選擇由 AMD EPYC 處理器託管,經過多項認證或驗證的顯示卡加速解決方案,可大幅提升您的 AI 工作負載。
較偏好 AMD Instinct 加速器驅動解決方案嗎?
使用其他顯示卡?歡迎洽詢領先平台解決方案供應商所提供的 AMD EPYC 處理器驅動解決方案,包括 Asus、Dell、Gigabyte、HPE、Lenovo 和 Supermicro。
向 AWS、Azure、Google、IBM Cloud 和 OCI 等主要雲端供應商請求提供結合 AMD EPYC 處理器與 AI/ML 工作負載之顯示卡的執行個體。
伺服器配置:雙路 EPYC 9554(客製頻率的處理器,64 核心/128 執行緒,16 使用中核心),1.5 TB 記憶體(以 4800 MT/s 執行的 24x 64GB DDR5-5600),3.2 TB SSD,Ubuntu® 22.04.4 LTS,搭配 8x NVIDIA H100 80GB HBM3,HuggingFace Transformers v 4.31.0,NVIDIA PyTorch 23.12,PEFT 0.4.0,Python 3.10.12,CUDA 12.3.2.001,TensorRT-LLM v 0.9.0.dev2024,CUDNN 8.9.7.29+cuda12.2,NVIDIA-SMI 驅動程式版本 550.54.15,TRT v8.6.1.6+cuda12.0.1.011,Transformer Engine v1.1
Llama2-7B 微調:每個裝置的 BS=4,seqln=128,平均執行時間超過 4 次,每次執行 10 個時期,FP16
Llama2-7B 訓練 (1K):BS=56(7x8 顯示卡),seqln=1k,顯示卡上的梯度
Llama2-7B 訓練 (2K):BS=24(3x8 顯示卡),seqln=2k,顯示卡上的梯度
成果:
處理器頻率 2000 MHz 2500 MHz 3000 MHz
微調平均訓練執行時間秒數 649.38 584.24 507.1
% 輸送量增加 0.00% 11.15% 28.06%
訓練輸送量 1K 序列長度 276.08 238.81 230.82
% 輸送量增加 0.00% 15.61% 19.61%
訓練輸送量 2K 序列長度 883.85 807.94 778.72
% 輸送量增加 0.00% 9.40% 13.50%
視系統組態、軟體版本及 BIOS 設定等因素而定,結果可能有所不同。備註:這項效能是概念性驗證。資料是在雙路客製 AMD EPYC™ 9554 上所收集,作為採用 8x Nvidia H100 80GB 加速器的託管處理器,具有不同頻率。第 4 代 EPYC 處理器不允許終端用戶調整頻率