借助 AMD 计算技术的强大力量构建大语言模型
TurkuNLP 通过将 LUMI 超级计算机(基于 AMD EPYC(霄龙)CPU 和 AMD Instinct GPU)上的节点扩展至 192 个,借助其强大算力构建芬兰语大语言模型。
高性能服务器为企业 AI 解决方案奠定基础。AMD EPYC(霄龙)服务器 CPU 和先进的 GPU 为您的 AI 训练和大型模型工作负载带来卓越性能。
实时网络研讨会
了解 AMD EPYC(霄龙)处理器结合行业领先的 GPU 加速器如何带来强大算力,助力企业应对各种非常考验性能的 AI 挑战。
GPU 加速器已成为现代 AI 的主力军,在训练大型复杂模型和支持高效的大规模实时推理方面表现卓越。但要充分发挥 GPU 的潜力,您需要搭配性能强大的 CPU。
GPU 是处理多种 AI 工作负载的合适工具。
对于某些工作负载,将 GPU 的强大功能与合适的 CPU 结合可显著提高 AI 效率。以下为需要考虑的重要 CPU 特性:
助您全面释放硬件性能,高效处理大型 AI 工作负载。助力大幅提升 GPU 加速器性能与整体 AI 工作负载效率。此外,凭借先进的安全功能和对开放标准的长期坚持,AMD EPYC(霄龙)处理器使企业能够从容部署其 AI 旅程的下一阶段。
基于 AMD EPYC(霄龙)CPU 的 GPU 加速器解决方案为全球最快的一些超级计算机和云实例提供支持,通过这个经过实践检验的平台,企业能够轻松优化数据驱动的工作负载并在 AI 领域实现突破性成果。
CPU 在协调和同步 GPU 间的数据传输、处理内核启动开销以及管理数据准备方面发挥着关键作用。这种“指挥”角色发挥的功能可确保 GPU 以更高的效率运行。
某些工作负载受益于高 CPU 时钟速度,通过优化数据处理、传输和并发执行来提升 GPU 性能,实现更高的 GPU 效率。
为了验证更高的 CPU 频率能提升 Llama2-7B 工作负载的吞吐量,我们在搭载 8 个 NVIDIA H100 GPU 的双路服务器中使用了定制的 AMD EPYC(霄龙)9554 CPU1
集高性能、低功耗、高效数据处理和有效电源管理于一体的处理器,使您的 AI 基础设施能够以峰值性能运行,同时优化能耗和成本。
AMD EPYC(霄龙)处理器助力打造能效出色的服务器,不仅性能卓越,还有助于降低能源成本。2放心部署基于 EPYC(霄龙)处理器的高能效解决方案,全面优化您的 AI 之旅。
在 AMD EPYC(霄龙)9004 系列处理器中,AMD Infinity Power Management 不仅提供出色的默认性能,还允许针对特定工作负载行为进行精细调整。
选择基于 AMD EPYC(霄龙)CPU 的多款经过认证或验证的 GPU 加速解决方案,为 AI 工作负载提供强劲助力。
更倾向于采用基于 AMD Instinct 加速器的解决方案?
正在使用其他 GPU?如需了解基于 AMD EPYC(霄龙)CPU 的解决方案,请咨询各大平台解决方案提供商,包括 Asus、Dell、Gigabyte、HPE、Lenovo 和 Supermicro 等。
如需了解基于 AMD EPYC(霄龙)CPU 与 GPU 的 AI/ML 工作负载实例,请咨询各大云服务提供商,包括 AWS、Azure、Google、IBM Cloud 和 OCI 等。
服务器配置:双路 EPYC(霄龙)9554(CPU 频率定制,64 核/128 线程,16 个活动核心),1.5 TB 内存(24 条 64 GB DDR5-5600,运行速度 4800 MT/s),3.2 TB SSD,Ubuntu® 22.04.4 LTS,配备 8 个 NVIDIA H100 80GB HBM3,HuggingFace Transformers v 4.31.0,NVIDIA PyTorch 23.12,PEFT 0.4.0,Python 3.10.12,CUDA 12.3.2.001,TensorRT-LLM v 0.9.0.dev2024,CUDNN 8.9.7.29+cuda12.2,NVIDIA-SMI 驱动程序版本 550.54.15,TRT v8.6.1.6+cuda12.0.1.011,Transformer Engine v1.1
Llama2-7B 微调设置:每个器件的批量大小为 4,序列长度为 128,4 次运行取平均值,每次运行训练 10 个周期,使用 16 位浮点数进行计算
Llama2-7B 训练 (1K):批量大小为 56 (7x8 GPU),序列长度为 1k,梯度计算在 GPU 上进行
Llama2-7B 训练 (2K):批量大小为 24 (3x8 GPU),序列长度为 2k,梯度计算在 GPU 上进行
结果:
CPU 频率 2000 MHz 2500 MHz 3000 MHz
在进行模型微调时,平均训练运行时间分别为 649.38 秒、584.24 秒和 507.1 秒
吞吐量提升百分比分别为 0.00%、11.15%、28.06%
在训练过程中,处理长度为 1K 的序列时,吞吐量分别为 276.08、238.81 和 230.82
吞吐量提升百分比分别为 0.00%、15.61%、19.61%
在训练过程中,处理长度为 2K 的序列时,吞吐量分别为 883.85、807.94 和 778.72
吞吐量提升百分比分别为 0.00%、9.40%、13.50%
结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。注释:以上性能数据仅用作概念验证,不代表最终产品性能。性能数据采集自搭载 8 个 Nvidia H100 80GB 加速器的双路定制 AMD EPYC(霄龙)9554 处理器主机,处理器在不同的频率下运行。第四代 EPYC(霄龙)处理器不支持最终用户调整频率