实时网络研讨会

AMD EPYC(霄龙)技术助力企业应对 AI 挑战

了解 AMD EPYC(霄龙)处理器结合行业领先的 GPU 加速器如何带来强大算力,助力企业应对各种非常考验性能的 AI 挑战。

AMD EPYC

AMD EPYC(霄龙)处理器助力充分实现大型 GPU 投资的价值

GPU 加速器已成为现代 AI 的主力军,在训练大型复杂模型和支持高效的大规模实时推理方面表现卓越。但要充分发挥 GPU 的潜力,您需要搭配性能强大的 CPU。

为何选择 GPU 处理 AI 工作负载?

GPU 是处理多种 AI 工作负载的合适工具。

  • AI 训练:GPU 能够利用其并行处理能力,加速大型和中型模型的训练。
  • 专用 AI 部署:GPU 为大规模部署的实时推理提供所需的速度和可扩展性

CPU 优势:

对于某些工作负载,将 GPU 的强大功能与合适的 CPU 结合可显著提高 AI 效率。以下为需要考虑的重要 CPU 特性:

  • 高频率和多核心:快速高效地处理大量数据准备和后处理任务。
  • 大容量高速缓存:便于快速访问海量数据集。
  • 高内存带宽和高性能 I/O:支持 CPU 和 GPU 之间快速无缝地交换数据。
  • 高能效核心:节约功耗以供 GPU 使用,同时有助于降低整体能耗。
  • 与 GPU 和软件生态系统兼容,实现性能优化、效率提升和流畅运行。
GPU System

AMD EPYC(霄龙)处理器

助您全面释放硬件性能,高效处理大型 AI 工作负载。助力大幅提升 GPU 加速器性能与整体 AI 工作负载效率。此外,凭借先进的安全功能和对开放标准的长期坚持,AMD EPYC(霄龙)处理器使企业能够从容部署其 AI 旅程的下一阶段。  

行业应用

基于 AMD EPYC(霄龙)CPU 的 GPU 加速器解决方案为全球最快的一些超级计算机和云实例提供支持,通过这个经过实践检验的平台,企业能够轻松优化数据驱动的工作负载并在 AI 领域实现突破性成果。

AMD EPYC(霄龙)CPU:充分实现大型 GPU 投资价值的明智选择

CPU 在协调和同步 GPU 间的数据传输、处理内核启动开销以及管理数据准备方面发挥着关键作用。这种“指挥”角色发挥的功能可确保 GPU 以更高的效率运行。

借助高性能 CPU 优化 GPU 投资价值

某些工作负载受益于高 CPU 时钟速度,通过优化数据处理、传输和并发执行来提升 GPU 性能,实现更高的 GPU 效率。

为了验证更高的 CPU 频率能提升 Llama2-7B 工作负载的吞吐量,我们在搭载 8 个 NVIDIA H100 GPU 的双路服务器中使用了定制的 AMD EPYC(霄龙)9554 CPU1

Llama2-7B 性能微调
2.0GHz 时的相对性能
1.0 倍
2.5GHz 时的相对性能
1.12 倍
3.0GHz 时的相对性能
1.28 倍

Llama2-7B 训练(1K 序列长度)
2.0GHz 时的相对性能
1.0 倍
2.5GHz 时的相对性能
1.16 倍
3.0GHz 时的相对性能
1.2 倍

Llama2-7B 训练(2K 序列长度)
2.0GHz 时的相对性能
1.0 倍
2.5GHz 时的相对性能
1.1 倍
3.0GHz 时的相对性能
1.14 倍

高效部署企业 AI 解决方案

集高性能、低功耗、高效数据处理和有效电源管理于一体的处理器,使您的 AI 基础设施能够以峰值性能运行,同时优化能耗和成本。

AMD EPYC(霄龙)处理器助力打造能效出色的服务器,不仅性能卓越,还有助于降低能源成本。2放心部署基于 EPYC(霄龙)处理器的高能效解决方案,全面优化您的 AI 之旅。

在 AMD EPYC(霄龙)9004 系列处理器中,AMD Infinity Power Management 不仅提供出色的默认性能,还允许针对特定工作负载行为进行精细调整。

Abstract illustration with glowing blue lines

安心无忧:通过备受信赖的解决方案来部署 AI

选择基于 AMD EPYC(霄龙)CPU 的多款经过认证或验证的 GPU 加速解决方案,为 AI 工作负载提供强劲助力。

更倾向于采用基于 AMD Instinct 加速器的解决方案?

正在使用其他 GPU?如需了解基于 AMD EPYC(霄龙)CPU 的解决方案,请咨询各大平台解决方案提供商,包括 Asus、Dell、Gigabyte、HPE、Lenovo 和 Supermicro 等。

基于 AMD EPYC(霄龙)CPU 与 GPU 的云端 AI/ML 实例解决方案日益丰富。

如需了解基于 AMD EPYC(霄龙)CPU 与 GPU 的 AI/ML 工作负载实例,请咨询各大云服务提供商,包括 AWS、Azure、Google、IBM Cloud 和 OCI 等。

server room photo

资源

AMD Instinct 加速器

为应对要求严苛的 AI 工作负载提供量身定制的解决方案。

AMD EPYC(霄龙)企业 AI 解决方案简介

查找 AMD 及其合作伙伴发布的关于使用 CPU 和 GPU 进行 AI 和机器学习创新的文档

播客

来自 AMD 和行业的技术专家为您讲解服务器、云计算、AI、HPC 等热门技术主题。

附注
  1. SP5-292:Llama2-7B 微调和训练吞吐量结果基于截至 2024 年 6 月 15 日的 AMD 内部概念验证测试。

    服务器配置:双路 EPYC(霄龙)9554(CPU 频率定制,64 核/128 线程,16 个活动核心),1.5 TB 内存(24 条 64 GB DDR5-5600,运行速度 4800 MT/s),3.2 TB SSD,Ubuntu® 22.04.4 LTS,配备 8 个 NVIDIA H100 80GB HBM3,HuggingFace Transformers v 4.31.0,NVIDIA PyTorch 23.12,PEFT 0.4.0,Python 3.10.12,CUDA 12.3.2.001,TensorRT-LLM v 0.9.0.dev2024,CUDNN 8.9.7.29+cuda12.2,NVIDIA-SMI 驱动程序版本 550.54.15,TRT v8.6.1.6+cuda12.0.1.011,Transformer Engine v1.1

    Llama2-7B 微调设置:每个器件的批量大小为 4,序列长度为 128,4 次运行取平均值,每次运行训练 10 个周期,使用 16 位浮点数进行计算

    Llama2-7B 训练 (1K):批量大小为 56 (7x8 GPU),序列长度为 1k,梯度计算在 GPU 上进行

    Llama2-7B 训练 (2K):批量大小为 24 (3x8 GPU),序列长度为 2k,梯度计算在 GPU 上进行

    结果:

    CPU 频率              2000 MHz           2500 MHz           3000 MHz

    在进行模型微调时,平均训练运行时间分别为 649.38 秒、584.24 秒和 507.1 秒

    吞吐量提升百分比分别为 0.00%、11.15%、28.06%

    在训练过程中,处理长度为 1K 的序列时,吞吐量分别为 276.08、238.81 和 230.82

    吞吐量提升百分比分别为 0.00%、15.61%、19.61%

    在训练过程中,处理长度为 2K 的序列时,吞吐量分别为 883.85、807.94 和 778.72

    吞吐量提升百分比分别为 0.00%、9.40%、13.50%

    结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。注释:以上性能数据仅用作概念验证,不代表最终产品性能。性能数据采集自搭载 8 个 Nvidia H100 80GB 加速器的双路定制 AMD EPYC(霄龙)9554 处理器主机,处理器在不同的频率下运行。第四代 EPYC(霄龙)处理器不支持最终用户调整频率

  2. EPYC-028D:SPECpower_ssj® 2008、SPECrate®2017_int_energy_base 和 SPECrate®2017_fp_energy_base 性能评估基于截至 2024 年 2 月 21 日 SPEC 网站发布的结果。基于 VMmark® 服务器的每台服务器功耗性能比和存储功耗性能比 (PPKW) 的结果发布于:https://www.vmware.com/products/vmmark/results3x.1.html?sort=score。具有最高总体效率结果(overall ssj_ops/W)的前 105 项 SPECpower_ssj®2008 发布数据都来自基于 AMD EPYC(霄龙)处理器的系统。对于 SPECrate®2017 Integer (Energy Base),排名前 8 位的 SPECrate®2017_int_energy_base 系统每瓦性能分数都来自基于 AMD EPYC(霄龙)CPU 的系统。对于 SPECrate®2017 Floating Point (Energy Base),排名前 12 位的 SPECrate®2017_fp_energy_base 系统每瓦性能分数都来自基于 AMD EPYC(霄龙)CPU 的系统。对于 VMmark® 服务器功耗性能比 (PPKW),在双路和四路配对结果中排名前 5 位的结果优于所有其他结果;对于 VMmark® 服务器和存储功耗性能比 (PPKW),总分排名最高。完整列表参见 https://www.amd.com/zh-hans/claims/epyc4#faq-EPYC-028D。有关 AMD 可持续发展目标的更多信息,请访问:https://www.amd.com/zh-cn/corporate/corporate-responsibility/data-center-sustainability.html。有关 SPEC® 的更多信息,请访问 http://www.spec.org。SPEC、SPECrate 和 SPECpower 是 Standard Performance Evaluation Corporation 的注册商标。VMmark 是 VMware 在美国和其他国家/地区的注册商标。