面向企业 AI 推理工作负载的出色解决方案

AI 推理是指将经过训练的 AI 模型应用于全新数据并据此做出预测。AMD 具有一系列专为 AI 推理打造的出色解决方案,可适应不同模型大小并胜任不同的应用需求。对于需要尽量接近数据源的中小型 AI 模型和工作负载而言,AMD EPYC(霄龙)处理器是适合之选。对于延迟不会造成重大影响的批处理或离线处理应用而言,AMD EPYC(霄龙)处理器是可以满足推理需求的高性价比解决方案。

以下是 AMD EPYC(霄龙)处理器可以出色驾驭的部分 AI 工作负载。如需深入了解每种工作负载,请仔细阅读此文

低延迟容忍度
 

系统类型

示例

原理

推荐系统

  • 基于内容过滤
  • 协同过滤
  • 分类和相似性
  • 通常使用较小的模型
  • 支持稀疏数据和多样化数据
  • 存在一定的精度容差

机器学习

  • 决策树
  • 线性回归
  • 支持向量机
  • 使用顺序操作
  • 各种数学计算

中等延迟容忍度
 

系统类型

示例

原理

自然语言处理

  • 文本分类
  • 情绪分析
  • 文本转语音与语音转文本
  • 针对人类行为理解准确率设定的性能要求
  • 较小的模型和数据集

混合型 AI 应用

  • 数据库分析
  • 仿真和建模
  • 实时交互
  • 顺序数据处理
  • 工作流程中的快速上下文切换

高延迟容忍度

系统类型

示例

原理

生成式 AI

  • 文档生成
  • 基于文本生成图像
  • 基于图像生成视频
  • 通常是重复性的批量内容创作工作流程
  • 适用于传统的人力和资源密集型任务

大语言模型

  • 聊天机器人
  • 总结
  • 翻译
  • 较少的提示
  • 较小的数据集

行业应用

随着 AI 模型逐步融入计算机视觉、自然语言处理和推荐系统,多个行业迎来变革,给企业带来了重大影响。这些模型在物体识别、异常分类、书面及口头语言理解及建议生成方面展现出巨大潜力,可为企业提供强势助力。如果能够加速开发这些模型,各行各业的企业都将从中获益。

Automated Driving Illustration

汽车行业

计算机视觉模型能够帮助自动驾驶汽车识别信号、行人及需要避让的车辆,确保汽车安全顺畅行驶。自然语言处理模型则可以帮助识别车载远程信息处理单元接收到的口头指令。

data image

金融服务

借助 AI 驱动的异常检测技术,可有效防止信用卡欺诈。计算机视觉模型则可以帮助监测包括客户支票在内的可疑文件。

abstract retail image

零售

AI 模型不仅可用于识别商品,助力实现结账流程自动化,甚至还可以将顾客与他们选择放入购物袋中的商品关联起来,助力打造超便捷的自主购物体验。无论是线上还是线下商店,都可以利用产品推荐引擎为顾客提供个性化的替代品建议。

Manufacturing  Gears

制造

从食品生产到印刷电路板制造,计算机视觉模型可在各类生产流程中用于监控产品质量。通过将遥测数据输入建议引擎,可以预测如下问题并生成主动维护建议:磁盘驱动器是否即将发生故障?发动机是否耗油过多?

Top view of cardiologist doctor medical healthcare desk

医疗

计算机视觉模型可用于检测骨折、肿瘤等异常状况。这些模型还可在医学研究中用于评估体外细胞的生长和增殖情况。

Big data analytics AI technology

服务自动化

在 IT 技术支持与客户服务领域,自然语言处理模型可以根据客户说出的要求自动采取行动,而推荐引擎则可以帮助客户找到满意的解决方案和替代产品。

面向企业 AI 推理工作负载的出色解决方案

AMD EPYC(霄龙)9005 系列处理器采用全新的开放标准与技术,无论是在纯 CPU 部署场景还是在结合 GPU 的混合部署中作为主机运行更大模型,都可以凭借出色性能助力企业加速 AI 推理工作负载。

专为 AI 推理而打造

多达 192 个 AMD“Zen 5”核心:以全部 512 位宽数据路径支持 AVX-512 指令,带来出色的 AI 推理工作负载并行处理性能,从而减少对 GPU 加速的需求。

适用于并行 AI 工作负载和传统工作负载:第五代 AMD EPYC(霄龙)处理器为传统工作负载带来更高的整数性能。1AMD EPYC(霄龙)处理器可助力实现高效推理,充分满足各类 AI 工作负载的需求并适应不同模型大小。

快速处理性能与高 I/O:对于 AI 工作负载,每时钟周期指令数 (IPC) 比上一代增加了 37%。2DDR5 内存和 PCIe® Gen 5 I/O 帮助实现快速数据处理。

AMD EPYC™ 9005 Series

AMD 面向 AI 推理的软件优化

框架支持:AMD 支持涵盖图像分类、推荐引擎等多种应用场景的各种常见 AI 框架,包括 TensorFlow、PyTorch 和 ONNX Runtime。

开源和兼容性:将优化融入常用框架之中,实现广泛兼容性和开源上游友好设计。此外,AMD 正在与 Hugging Face 合作,通过 ZenDNN 助力打造开箱即用的开源模型。

ZenDNN 插件:借助这些插件,可优化运算符、充分利用微内核并在 AMD EPYC(霄龙)核心上实现高效多线程,从而加速处理 AI 推理工作负载。

图像缩放
AMD Software Optimizations Diagram

在 AI 时代,数据安全变得愈发重要

随着数字化、云计算、AI 及其他新兴技术投入使用,数据在不断增多,这使得对高级安全防护措施的需求变得更加迫切。另外,由于隐私法规在全球范围内越来越受重视,而且对违规行为的处罚也越来越严厉,使得对安全防护的需求变得愈发迫切。因此,保护数据抵御不断增多的安全风险变得至关重要。

AMD Infinity Guard 带来芯片级别的安全防护,出色安全功能可帮助抵御各类内部和外部威胁,保护数据安全无虞。3

Cyber security illustration

AI 工作负载模型

借助基于 AMD EPYC(霄龙)9005 处理器的服务器和云实例解决方案,在靠近客户和数据源的位置快速高效地处理 AI 工作负载。

双路服务器运行 Llama3.1-8B BF16⁴(每秒相对 token 数量)
第五代 AMD EPYC(霄龙)9965
1.8 倍
第四代 AMD EPYC(霄龙)9654
1.3 倍
参照基准
1.0 倍
双路服务器运行 FAISS⁵(每小时请求数)
第五代 AMD EPYC(霄龙)9965
3.8 倍
第四代 AMD EPYC(霄龙)9654
2.0 倍
参照基准
1.0 倍
双路服务器运行 TPCx-AI @ SF30⁶(每分钟吞吐量)
第五代 AMD EPYC(霄龙)9965
3.8 倍
第四代 AMD EPYC(霄龙)9654
2.3 倍
参照基准
1.0 倍
双路服务器运行 XGBoost @ SF30⁷(每小时运行次数)
第五代 AMD EPYC(霄龙)9965
3.0 倍
第四代 AMD EPYC(霄龙)9654
2.0 倍
参照基准
1.0 倍

资源

AMD EPYC(霄龙)企业 AI 解决方案简介

查找介绍 AI 及机器学习创新的 AMD 和合作伙伴文档

AMD EPYC(霄龙)9005 系列处理器

借助 AMD EPYC(霄龙)9005 处理器,在靠近企业数据源的位置实现快速高效的 AI 推理,推动业务全面提升。

播客

来自 AMD 和行业的技术专家为您讲解服务器、云计算、AI、HPC 等热门技术主题。

附注
  1. 9xx5-002D:SPECrate®2017_int_base 性能评估基于截至 2024 年 10 月 10 日 www.spec.org 网站发布的分数。双路 AMD EPYC(霄龙)9965(SPECrate®2017_int_base 得分为 3000,总计 384 个核心,500W 热设计功耗 (TDP),CPU 总成本为 $14,813,SPECrate®2017_int_base 得分与 CPU 功耗比为 6.060,SPECrate®2017_int_base 得分与 CPU 成本比为 0.205,https://www.spec.org/cpu2017/results/res2024q4/cpu2017-20240923-44837.html);双路 AMD EPYC(霄龙)9755(SPECrate®2017_int_base 得分为 2720,总计 256 个核心,500W 热设计功耗 (TDP),CPU 总成本为 $12,984,SPECrate®2017_int_base 得分与 CPU 功耗比为 5.440,SPECrate®2017_int_base 得分与 CPU 成本比为 0.209,https://www.spec.org/cpu2017/results/res2024q4/cpu2017-20240923-44824.html);双路 AMD EPYC(霄龙)9754(SPECrate®2017_int_base 得分为 1950,总计 256 个核心,360W 热设计功耗 (TDP),CPU 总成本为 $11,900,SPECrate®2017_int_base 得分与 CPU 功耗比为 5.417,SPECrate®2017_int_base 得分与 CPU 成本比为 0.164,https://www.spec.org/cpu2017/results/res2023q2/cpu2017-20230522-36617.html);双路 AMD EPYC(霄龙)9654(SPECrate®2017_int_base 得分为 1810,总计 192 个核心,360W 热设计功耗 (TDP),CPU 总成本为 $11,805,SPECrate®2017_int_base 得分与 CPU 功耗比为 5.028,SPECrate®2017_int_base 得分与 CPU 成本比为 0.153,https://www.spec.org/cpu2017/results/res2024q1/cpu2017-20240129-40896.html)。SPEC®、SPEC CPU® 和 SPECrate® 是 Standard Performance Evaluation Corporation 的注册商标。如需了解更多信息,请访问 www.spec.org。‎
  2. 9xx5-001:基于截至 2024 年 9 月 10 日的 AMD 内部测试,计算了固定频率下性能提升 (IPC) 的几何平均值。- 使用选定的 24 种工作负载,测得第五代 EPYC(霄龙)CPU 在 ML/HPC 服务器工作负载中的代际 IPC 提升幅度为 1.369 倍(几何平均值),采用代表性 ML 服务器工作负载(几何平均值)和代表性 HPC 服务器工作负载(几何平均值)的几何平均值。“Genoa”配置(全部为 NPS1):EPYC(霄龙)9654 BIOS TQZ1005D 12 核心 12 线程(1 核心 1 线程/CCD,12+1 CCD),FF 3GHz,12x DDR5-4800(2Rx4 64GB),32Gbps xGMI;“Turin”配置(全部为 NPS1):   EPYC(霄龙)9V45 BIOS RVOT1000F 12 核心 12 线程(1 核心 1 线程/CCD,12+1 CCD),FF 3GHz,12x DDR5-6000 (2Rx4 64GB),32Gbps xGMI 在 Ubuntu® 22.04(含 6.8.0-40-generic 内核)操作系统上,除 LAMMPS、HPCG、NAMD、OpenFOAM、Gromacs(使用 24.04 系统,含 6.8.0-40-generic 内核)外,所有工作负载均使用“性能确定性”设置和性能调节器。SPEC® 和 SPECrate® 是 Standard Performance Evaluation Corporation 的注册商标。了解更多信息,请访问 spec.org。
  3. GD-183A:AMD Infinity Guard 的功能随 EPYC(霄龙)处理器的更新迭代和/或系列而有所变化。Infinity Guard 的安全功能必须由服务器 OEM 和/或云服务提供商启用才能使用。请联系您的 OEM 厂商或提供商,以确认是否支持这些功能。如需进一步了解 Infinity Guard,请访问 https://www.amd.com/zh-cn/products/processors/server/epyc/infinity-guard.html
  4. 9xx5-009:Llama3.1-8B 吞吐量测试结果基于截至 2024 年 9 月 5 日的 AMD 内部测试。Llama3-8B 配置:IPEX.LLM 2.4.0,NPS=2,BF16,批次大小为 4,输入/输出 token 配置(应用场景):[汇总 = 1024/128,聊天机器人 = 128/128,转换 = 1024/1024,短文 = 128/1024,字幕 = 16/16]。   双路 AMD EPYC(霄龙)9965(总计 384 个核心),6 个 64 核心实例,1.5TB 24x64GB DDR5-6400(速率 6000 MT/s), 1DPC,1.0 Gbps NetXtreme BCM5720 千兆以太网 PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu® 22.04.3 LTS,6.8.0-40-generic(tuned-adm profile throughput-performance、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192),BIOS RVOT1000C,(SMT=off、Determinism=Power、Turbo Boost=Enabled),NPS=2;双路 AMD EPYC(霄龙)9755(总计 256 个核心),4 个 64 核心实例,1.5TB 24x64GB DDR5-6400(速率 6000 MT/s),1DPC,1.0 Gbps NetXtreme BCM5720 千兆以太网 PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu 22.04.3 LTS,6.8.0-40-generic(tuned-adm profile throughput-performance、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192),BIOS RVOT1000C(SMT=off、Determinism=Power、Turbo Boost=Enabled),NPS=2;双路 AMD EPYC(霄龙)9654(总计 192 个核心),4 个 48 核心实例,1.5TB 24x64GB DDR5-4800,1DPC,1.0 Gbps NetXtreme BCM5720 千兆以太网 PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu® 22.04.4 LTS,5.15.85-051585-generic(tuned-adm profile throughput-performance、ulimit -l 1198117616、ulimit -n 500000、ulimit -s 8192),BIOS RVI1008C(SMT=off、Determinism=Power、Turbo Boost=Enabled),NPS=2。  结果:CPU:参照基准(64 核)、双路 Turin(192 核)、双路 Turin(128 核)、双路 Genoa(96 核) 总吞吐量平均聚合中值:99.474、193.267、182.595、138.978 相对于基准的提升幅度:1、1.943、1.836、1.397 代际提升幅度:不适用、1.391、1.314、1 结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。
  5. 9xx5-011:FAISS(每小时请求数)吞吐量测试结果基于截至 2024 年 9 月 5 日的 AMD 内部测试。FAISS 配置:sift1m 数据集,16 核心实例,FP32,MKL 2024.2.1    双路 AMD EPYC(霄龙)9965(总计 384 个核心),24 个 16 核心实例,1.5TB 24x64GB DDR5-6400(速率 6000 MT/s),1DPC,1.0 Gbps NetXtreme BCM5720 千兆以太网 PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu® 22.04.4 LTS,6.8.0-40-generic(tuned-adm profile throughput-performance、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192),BIOS RVOT1000C(SMT=off、Determinism=Power、Turbo Boost=Enabled),NPS=4;双路 AMD EPYC(霄龙)9654(总计 192 个核心),12 个 16 核心实例,1.5TB 24x64GB DDR5-4800,1DPC,2 个 1.92 TB Samsung MZQL21T9HCJR-00A07 NVMe,Ubuntu 22.04.3 LTS,BIOS 1006C(SMT=off、Determinism=Power),NPS=4 结果如下: CPU、吞吐量中值、相对于基准的提升幅度、代际提升幅度 双路 Turin(192 核)、64.2、3.776、1.861 双路 Genoa(96 核)、34.5、2.029、1 参照基准(64 核)、17、1、不适用 结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。
  6. 9xx5-012:TPCx-AI @SF30 多实例 32 核心实例大小吞吐量测试结果基于截至 2024 年 9 月 5 日的 AMD 内部测试,测试中运行了多个 VM 实例。聚合端到端 AI 吞吐量测试结果源自 TPCx-AI 基准测试,与已发布的 TPCx-AI 结果不具有可比性,因为端到端 AI 吞吐量测试结果不符合 TPCx-AI 规范。双路 AMD EPYC(霄龙)9965(总计 384 个核心),12 个 32 核心实例,NPS1,1.5TB 24x64GB DDR5-6400(速率 6000 MT/s),1DPC,1.0 Gbps NetXtreme BCM5720 千兆以太网 PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu® 22.04.4 LTS,6.8.0-40-generic(tuned-adm profile throughput-performance、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192),BIOS RVOT1000C(SMT=off、Determinism=Power、Turbo Boost=Enabled);双路 AMD EPYC(霄龙)9755(总计 256 个核心),8 个 32 核心实例,NPS1,1.5TB 24x64GB DDR5-6400(速率 6000 MT/s),1DPC,1.0 Gbps NetXtreme BCM5720 千兆以太网 PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu 22.04.4 LTS,6.8.0-40-generic(tuned-adm profile throughput-performance、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192),BIOS RVOT0090F(SMT=off、Determinism=Power、Turbo Boost=Enabled);双路 AMD EPYC(霄龙)9654(总计 192 个核心),6 个 32 核心实例,NPS1,1.5TB 24x64GB DDR5-4800,1DPC,2 个 1.92 TB Samsung MZQL21T9HCJR-00A07 NVMe,Ubuntu 22.04.3 LTS,BIOS 1006C(SMT=off、Determinism=Power)。结果如下:CPU、吞吐量中值、相对于基准的提升幅度、代际提升幅度 Turin(192 核,12 个实例)、6067.531、3.775、2.278 Turin(128 核,8 个实例)、4091.85、2.546、1.536 Genoa(96 核,6 个实例)、2663.14、1.657、1 参照基准(64 核,4 个实例)、1607.417、1、不适用 结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。TPC、TPC 基准测试和 TPC-C 是 Transaction Processing Performance Council 的商标。
  7. 9xx5-040A:XGBoost(每小时运行次数)吞吐量测试结果基于截至 2024 年 9 月 5 日的 AMD 内部测试。XGBoost 配置:v2.2.1,Higgs 数据集,32 核心实例,FP32 双路 AMD EPYC(霄龙)9965(总计 384 个核心),12 个 32 核心实例,1.5TB 24x64GB DDR5-6400(速率 6000 MT/s),1.0 Gbps NetXtreme BCM5720 千兆以太网 PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu® 22.04.4 LTS,6.8.0-45-generic(tuned-adm profile throughput-performance、ulimit -l 198078840、ulimit -n 1024、ulimit -s 8192),BIOS RVOT1000C(SMT=off、Determinism=Power、Turbo Boost=Enabled),NPS=1;双路 AMD EPYC(霄龙)9755(总计 256 个核心),1.5TB 24x64GB DDR5-6400(速率 6000 MT/s),1DPC,1.0 Gbps NetXtreme BCM5720 千兆以太网 PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu 22.04.4 LTS,6.8.0-40-generic(tuned-adm profile throughput-performance、ulimit -l 198094956、ulimit -n 1024、ulimit -s 8192),BIOS RVOT0090F(SMT=off、Determinism=Power、Turbo Boost=Enabled),NPS=1;双路 AMD EPYC(霄龙)9654(总计 192 个核心),1.5TB 24x64GB DDR5-4800,1DPC,2 个 1.92 TB Samsung MZQL21T9HCJR-00A07 NVMe®,Ubuntu 22.04.4 LTS,6.8.0-40-generic(tuned-adm profile throughput-performance、ulimit -l 198120988、ulimit -n 1024、ulimit -s 8192),BIOS TTI100BA(SMT=off、Determinism=Power),NPS=1。结果如下:CPU、第 1 次运行吞吐量、第 2 次运行吞吐量、第 3 次运行吞吐量、吞吐量中值、相对于基准的提升幅度、代际提升幅度 双路 Turin(192 核,NPS1)、1565.217、1537.367、1553.957、1553.957、3、2.41 双路 Turin(128 核,NPS1)、1103.448、1138.34、1111.969、1111.969、2.147、1.725 双路 Genoa(96 核,NPS1)、662.577、644.776、640.95、644.776、1.245、1 参照基准(64 核)、517.986、421.053、553.846、517.986、1、不适用 结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。