专题网络研讨会

了解 AMD EPYC(霄龙)9004 系列处理器如何助力企业快速部署基于 CPU 的 AI 处理解决方案,轻松高效运行各种小型 AI 模型、传统机器学习和推理工作负载,并通过 AI 进一步增强传统计算工作负载处理性能。

Abstract connected dots and lines

面向企业 AI 推理工作负载的出色解决方案

AI 推理是指将经过训练的 AI 模型应用于全新数据并据此做出预测。  AMD 具有一系列专为 AI 推理打造的出色解决方案,可适应不同模型大小并胜任不同的应用需求。  对于需要尽量接近数据源的中小型 AI 模型和工作负载来说,AMD EPYC(霄龙)CPU 是适合之选。对于需要超高性能和可扩展性的大型模型和专用 AI 部署,AMD Instinct GPU 可以轻松胜任。两种方案都兼具出色性能与能效,您可以根据自身需求选择合适的解决方案。

小型模型

模型大小   类型 优点 缺点 典型应用场景
小型   传统
  • 推理速度更快
  • 资源需求较低
  • 准确性较低
  • 复杂度较低的任务
  • 图像识别(基础)
  • 情绪分析
  • 垃圾邮件检测
生成式
  • 创意内容生成(例如音乐、艺术作品)
  • 个性化体验
  • 对输出的控制有限
  • 可能存在偏见
  • 文本生成(简短)
  • 聊天机器人

中型模型

模型大小   类型 优点 缺点 典型应用场景
中型 传统
  • 速度与准确性之间达到良好平衡
  • 适合中等复杂度的任务
  • 可能需要更多训练数据
  • 当数据集很大时效率较低
  • 视频内对象检测
  • 机器翻译
  • 客户服务聊天机器人
预测性
  • 可提供准确预测,适合各类任务
  • 可灵活扩展以适应较大的数据集
  • 计算成本可能较高
  • 准备数据时需要非常仔细
  • 欺诈检测
  • 风险评估
  • 销售预测

大型模型

模型大小   类型 优点 缺点 典型应用场景
大型   生成式
  • 可生成高度逼真、高度复杂的内容
  • 具有高级语言理解能力
  • 非常耗费资源
  • 引发偏见和伦理问题的风险较高
  • 文本生成(复杂)
  • 图像和视频生成
  • 创意内容设计
传统
  • 准确性高,可胜任复杂任务
  • 可以处理大规模、多样化的数据集
  • 非常耗费资源
  • 难以解析和说明
  • 医疗诊断
  • 自动驾驶汽车
  • 面部识别
预测性
  • 可处理大型数据集并生成高度准确的预测
  • 可处理复杂关系和模式
  • 训练和运行成本高
  • 需要大量数据和丰富的专业知识
  • 个性化推荐
  • 金融市场分析
  • 科学探索

行业应用

随着 AI 模型逐步融入计算机视觉、自然语言处理和推荐系统,多个行业迎来变革,给企业带来了重大影响。这些模型在物体识别、异常分类、语言理解及建议生成方面展现出巨大潜力,可为企业提供强势助力。如果能够加速开发这些模型,各行各业的企业都将从中获益。

Automated Driving Illustration

汽车行业

计算机视觉模型能够帮助自动驾驶汽车识别信号、行人及需要避让的车辆,确保汽车安全顺畅行驶。自然语言处理模型则可以帮助识别车载远程信息处理单元接收到的口头指令。

data image

金融服务

借助 AI 驱动的异常检测技术,可有效防止信用卡欺诈。计算机视觉模型则可以帮助监测包括客户支票在内的可疑文件。

abstract retail image

零售

AI 模型不仅可用于识别商品,助力实现结账流程自动化,甚至还可以将顾客与他们选择放入购物袋中的商品关联起来,助力打造超便捷的自主购物体验。无论是线上还是线下商店,都可以利用产品推荐引擎为顾客提供个性化的替代品建议。

Manufacturing  Gears

制造

从食品生产到印刷电路板制造,计算机视觉模型可在各类生产流程中用于监控产品质量。通过将遥测数据输入建议引擎,可以预测如下问题并生成主动维护建议:磁盘驱动器是否即将发生故障?发动机是否耗油过多?

Big data analytics AI technology

服务自动化

在 IT 技术支持与客户服务领域,自然语言处理模型可以根据客户说出的要求自动采取行动,而推荐引擎则可以帮助客户找到满意的解决方案和替代产品。

面向企业 AI 推理工作负载的出色解决方案

AMD EPYC(霄龙)9004 系列处理器采用全新的开放标准与技术,无论是在纯 CPU 部署场景还是在结合 GPU 的混合部署中作为主机运行更大模型,都可以凭借出色性能助力企业加速 AI 推理工作负载。

专为 AI 推理而打造

多达 128 个 AMD“Zen 4”核心以及 AVX-512 指令支持,带来出色的 AI 推理工作负载并行处理性能,从而减少对 GPU 加速的需求。

出色能效:AMD EPYC(霄龙)处理器助力打造超高能效服务器,不仅带来出色的性能,而且能够进一步降低能源成本。1

快速处理性能与高 I/O:每时钟周期指令数、DDR5 内存和 PCIe® Gen 5 I/O 比上一代增加了 14%,可实现快速数据处理。2

AMD EPYC™ 9004 processor

AMD 面向 AI 推理的软件优化

框架支持:AMD 支持涵盖图像分类、推荐引擎等多种应用场景的各种常见 AI 框架,包括 TensorFlow、PyTorch 和 ONNX Runtime。

开源和兼容性:将优化融入常用框架之中,实现广泛兼容性和开源上游友好设计。  此外,AMD 正在与 Hugging Face 合作,通过 ZenDNN 助力打造开箱即用的开源模型。

ZenDNN 插件:借助这些插件,可优化运算符、利用微内核并在 AMD EPYC(霄龙)核心上实现高效多线程,从而加速处理 AI 推理工作负载。

图像缩放
AMD Software Optimizations Diagram

在 AI 时代,数据安全变得愈发重要

随着数字化、云计算、AI 及其他新兴技术投入使用,数据在不断增多,这使得对高级安全防护措施的需求变得更加迫切。另外,由于隐私法规在全球范围内越来越受重视,而且对违规行为的处罚也越来越严厉,使得对安全防护的需求变得愈发迫切。因此,保护数据抵御不断增多的安全风险变得至关重要。

AMD Infinity Guard 带来芯片级别的安全防护,出色安全功能可帮助抵御各类内部和外部威胁,保护数据安全无虞。3

Cyber security illustration

借助基于 AMD EPYC(霄龙)9004 处理器的服务器和云实例解决方案,在靠近客户和数据源的位置快速高效地处理 AI 工作负载。

 

适用于中小型 AI 工作负载/模型

双路服务器运行 Llama2-7B CHAT-HF 和 13B CHAT-HF LLM⁴(每秒相对 token 数量)
AMD EPYC(霄龙)9654
1.36 倍
参考基准
1.0 倍
双路服务器运行 Phi-3 Mini (4K)⁵(每秒相对 token 数量)
AMD EPYC(霄龙)9654
1.24 倍
参考基准
1.0 倍
AWS 实例运行 DLRMv2,精度为 Int8⁶
第四代 EPYC(霄龙)(HPC7a.96xl)
约 1.44 倍
参考基准
1.0 倍
AWS 实例运行 MiniLM、PyTorch 和 Neural Magic Deepsparse 引擎,精度为 FP32⁷
第四代 EPYC(霄龙)(m7a.48xl)
约 1.78 倍
参考基准
1.0 倍
AWS 实例运行 Llama2-7B,精度为 BF16⁸
第四代 EPYC(霄龙)(m7a.8xl)
约 1.19 倍
参考基准
1.0 倍

传统 ML 工作负载/模型

双路服务器运行聚类分析库 FAISS⁹(每秒聚类分析量)
AMD EPYC(霄龙)9654
高达约 2.0 倍
参考基准
1.0 倍
双路服务器运行 XGBoost 和 Higgs boson 粒子研究数据集¹⁰(吞吐量)
AMD EPYC(霄龙)9654
高达约 1.7 倍
参考基准
1.0 倍
双路服务器运行随机决策森林分类模型(SciKit-Learning RandomForest airline_ohe 吞吐量)¹¹
AMD EPYC(霄龙)9654
高达约 1.36 倍
参考基准
1.0 倍
双路服务器运行 OpenVINO™ Road¹² Segmentation 推理(每秒帧数,每瓦性能)
AMD EPYC(霄龙)9754
高达约 2.4 倍
参考基准
1.0 倍
双路服务器运行 TPCx-AI @ SF30¹³(每分钟吞吐量)
AMD EPYC(霄龙)9654
高达约 1.65 倍
参考基准
1.0 倍

资源

AMD EPYC(霄龙)企业 AI 解决方案简介

查找介绍 AI 及机器学习创新的 AMD 和合作伙伴文档

AMD ZenDNN 库

AMD EPYC(霄龙)处理器助力提升开源深度学习模型性能。

播客

来自 AMD 和行业的技术专家为您讲解服务器、云计算、AI、HPC 等热门技术主题。

附注
  1. EPYC-028D:SPECpower_ssj® 2008、SPECrate®2017_int_energy_base 和 SPECrate®2017_fp_energy_base 性能评估基于截至 2024 年 2 月 21 日 SPEC 网站发布的结果。基于 VMmark® 服务器的每台服务器功耗性能比和存储功耗性能比 (PPKW) 的结果发布于:https://www.vmware.com/products/vmmark/results3x.1.html?sort=score。具有最高总体效率结果(overall ssj_ops/W)的前 105 项 SPECpower_ssj®2008 发布数据都来自基于 AMD EPYC(霄龙)处理器的系统。对于 SPECrate®2017 Integer (Energy Base),排名前 8 位的 SPECrate®2017_int_energy_base 系统每瓦性能分数都来自基于 AMD EPYC(霄龙)CPU 的系统。对于 SPECrate®2017 Floating Point (Energy Base),排名前 12 位的 SPECrate®2017_fp_energy_base 系统每瓦性能分数都来自基于 AMD EPYC(霄龙)CPU 的系统。对于 VMmark® 服务器功耗性能比 (PPKW),在双路和四路配对结果中排名前 5 位的结果优于所有其他结果;对于 VMmark® 服务器和存储功耗性能比 (PPKW),总分排名最高。完整列表参见 https://www.amd.com/zh-hans/claims/epyc4#faq-EPYC-028D。有关 AMD 可持续发展目标的更多信息,请访问:https://www.amd.com/zh-cn/corporate/corporate-responsibility/data-center-sustainability.html。有关 SPEC® 的更多信息,请访问 http://www.spec.org。SPEC、SPECrate 和 SPECpower 是 Standard Performance Evaluation Corporation 的注册商标。VMmark 是 VMware 在美国和其他国家/地区的注册商标。
  2. EPYC-038:AMD 内部实验室于 2022 年 9 月 19 日进行了测试,使用第四代 AMD EPYC(霄龙)9554 CPU 与第三代 AMD EPYC(霄龙)7763 CPU 在相同的固定频率下比较性能提升几何平均值,使用的部分工作负载(共 33 项)包括 est. SPECrate®2017_int_base、est. SPECrate®2017_fp_base 和典型的服务器工作负载。SPEC® 和 SPECrate® 是 Standard Performance Evaluation Corporation 的注册商标。了解更多信息,请访问 spec.org。
  3. GD-183A:AMD Infinity Guard 的功能随 EPYC(霄龙)处理器的更新迭代和/或系列而有所变化。Infinity Guard 的安全功能必须由服务器 OEM 和/或云服务提供商启用才能使用。请联系您的 OEM 厂商或提供商,以确认是否支持这些功能。有关 Infinity Guard 的更多信息,请访问 https://www.amd.com/zh-cn/products/processors/server/epyc/infinity-guard.html
  4. SP5-222:Llama2(每秒 token 数)工作负载声明基于截至 2023 年 12 月 1 日的 AMD 内部测试。双路服务器配置:双路 EPYC(霄龙)9654 (96C/192T);BIOS AMI RTI1001C(NPS=1,性能确定性,SMT=关闭);内存:1.5TB (24x 64GB DDR5-4800);存储:NVMe 3.2T x 5 + NVMe 1T;操作系统:Ubuntu 22.04.2 LTS (Linux 5.15.0-84-generic);软件:Python 3.9.18、conda 4.12.0、huggingface-hub 0.17.3、intel-openmp 2023.2.0、mkl 2023.2.0、numpy 1.26.1、sentencepiece 0.1.99、tokenizers 0.14.1 torch 2.1.0+cpu、tpp-pytorch-extension 0.0.1、transformers 4.35.0,运行 24 个实例,平均每秒 token 数高达 27.24(Llama2-13B-CHAT-HF,输入 token 大小:8,bfloat16),每秒平均 token 数高达 52.89(Llama2-7B-CHAT-HF,输入大小:8,bfloat16)。‎‎‎‎‎结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。
  5. 待定 "SP5-289:Phi-3-mini 吞吐量结果基于截至 2024 年 6 月 10 日的 AMD 内部测试。
    Phi-3-mini 配置:单个实例,IPEX 2.3.0,BF16,批大小 1,输入 token 16,输出 token 32。
    服务器配置:
    双路 EPYC(霄龙)9654 (96C/192T),Lenovo ThinkSystem SR665 V3,(SMT=关闭,NPS=1,性能确定性、BIOS 1.56),1.5TB(24x 64GB DDR5-5600,运行速率 4800 MT/s),3.2 TB SSD,Ubuntu® 22.04.4 LTS。

    Phi-3-mini 4K 结果:
                   中位数得分     相对 EMR 值

    AMD EPYC(霄龙)9654               15.68    1.241
    Phi-3-mini 128K 结果:
                   中位数得分     相对 EMR 值

    AMD EPYC(霄龙)9654               15.21    1.093
  6. SP5C-065:AWS HPC7a.96xlarge 平均得分与节省的云计算运营支出。48xl 运行深度学习推荐模型 (dlrm-v2.99),批大小为 2000,精度为 Int8,使用 OneDNN 库和 IPEX 扩展,采用按需定价模式,美国东部(俄亥俄州),Linux®,数据截至 2024 年 6 月 11 日。‎‎HPC7a.96xlarge:7.20 美元/小时AWS 价格:https://aws.amazon.com/ec2/pricing/on-demand/
    云性能结果基于配置测试日期。结果可能会因底层配置的更改和其他条件(如虚拟机及其资源的放置、云服务提供商的优化、访问的云区域、共同承租人以及系统上同时运行的其他工作负载类型)而有所不同。
  7. SP5C-070:AWS m7a.48xl 平均得分与节省的云计算运营支出,在 PyTorch 和 Neural Magic Deepsparse 引擎上运行 HuggingFace all-MiniLM-L6-v2model,24 个并行运行,批大小为 1,输入 token 大小为 512,输出 token 大小 128,精度为 FP32,采用按需定价模式,美国东部(俄亥俄州),Linux®,数据截至 2024 年 7 月 15 日。‎  m7a.48xl:11.12832 美元/小时
    AWS 价格:https://aws.amazon.com/ec2/pricing/on-demand/
    云性能结果基于配置测试日期。结果可能会因底层配置的更改和其他条件(如虚拟机及其资源的放置、云服务提供商的优化、访问的云区域、共同承租人以及系统上同时运行的其他工作负载类型)而有所不同
  8. SP5C-071:AWS M7a.8xl 平均得分与节省的云计算运营支出,运行 Llama2 模型,在单个实例上运行 7B 参数,精度为 BF16,使用 Intel TPP 库,批大小为 4,输入 token 大小为 2016,输出 token 大小为 256。
    云性能结果基于配置测试日期。结果可能会因底层配置的更改和其他条件(如虚拟机及其资源的放置、云服务提供商的优化、访问的云区域、共同承租人以及系统上同时运行的其他工作负载类型)而有所不同。
  9. SP5C-060:AWS m7a.4xl 平均得分与节省的云计算运营支出,运行 BERT-Large- pruned80_quant-none.vnni 模型,精度为 FP32,批大小为 1、128、256,输入 token 大小为 512,输出 token 大小为 512,采用按需定价模式,美国东部(俄亥俄州),Linux®,数据截至 2024 年 6 月 11 日。‎M7a.4xl:0.92736 美元/小时云性能结果基于配置测试日期。结果可能会因底层配置的更改和其他条件(如虚拟机及其资源的放置、云服务提供商的优化、访问的云区域、共同承租人以及系统上同时运行的其他工作负载类型)而有所不同。
  10. SP5-185A:FAISS v1.7.4 1000 吞吐量工作负载声明基于截至 2024 年 4 月 19 日的 AMD 内部测试。双路服务器配置:双路 EPYC(霄龙)9654 (96C/96T)、BIOS 1006C(SMT=关闭,NPS=1,性能确定性)、1.5TB (24x 64GB DDR5-4800)、Samsung MZQL21T9HCJR-00A07 1.92 TB、Ubuntu® 22.04.3 LTS 运行 8 个实例/24 个核心/实例,吞吐量中位数得分为 39.6。结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。
  11. SP5-251:XGBoost 2.0.3 吞吐量工作负载声明基于截至 2024 年 4 月 19 日的 AMD 内部测试。双路服务器配置:双路 EPYC(霄龙)9654 (96C/192T)、BIOS 1006C(SMT=关闭,NPS=1,性能确定性)、1.5TB (24x 64GB DDR5-4800)、Samsung MZQL21T9HCJR-00A07 1.92 TB、Ubuntu 22.04.3 LTS,Airline 吞吐量中位数得分为 203(运行 16 个实例/12 个核心/实例),Higgs 吞吐量中位数得分为 2057(运行 32 个实例/6 个核心/实例)。结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。
  12. SP5-184A:SciKit-Learning Random Forest v2023.2 airline_ohe 数据集吞吐量工作负载声明基于截至 2024 年 4 月 19 日的 AMD 内部测试。双路服务器配置:双路 EPYC(霄龙)9654 (96C/96T)、BIOS 1006C(SMT=关闭,NPS=1,性能确定性)、1.5TB (24x 64GB DDR5-4800)、2x Samsung MZQL21T9HCJR-00A07 1.7 TB、Ubuntu® 22.04.3 LTS 运行 12 个实例/16 个核心/实例,吞吐量中位数得分为 166.8。结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。
  13. SP5-252:第三方测试 OpenVINO 2023.2.dev FPS 评估基于 Phoronix 截至 2023 年 12 月 14 日的部分 OpenVINO 测试:Vehicle Detection FP16、Person Detection FP16、Person Vehicle Bike Detection FP16、Road Segmentation ADAS FP16 和 Face Detection Retail FP16。Road Segmentation ADAS FP16 性能提升高达 2.36 倍。AMD 尚未独立验证相关测试。分数会因系统配置和使用的确定性模式(已使用性能确定性模式)而有所不同。OpenVINO 是 Intel Corporation 或其子公司的商标。
  14. SP5-051A:运行多个虚拟机实例时,TPCx-AI SF30 生成的工作负载评估结果,基于截至 2024 年 4 月 13 日的 AMD 内部测试。综合端到端 AI 吞吐量测试结果源自 TPCx-AI 基准测试,与已发布的 TPCx-AI 结果不具有可比性,因为端到端 AI 吞吐量测试结果不符合 TPCx-AI 规范。AMD 系统配置:处理器:2 个 AMD EPYC(霄龙)9654;频率:2.4 GHz | 3.7 GHz;核心:每插槽 96 个核心(每插槽 1 个 NUMA 域);L3 高速缓存:384MB/插槽(总计 768MB);内存:1.5TB (24) 双列 DDR5-5600 64GB DIMM;1DPC(平台最高支持 4800MHz);NIC:2 个 100 GbE Mellanox CX-5 (MT28800);存储:3.2 TB Samsung MO003200KYDNC U.3 NVMe;BIOS:1.56;BIOS 设置:SMT=开启,确定性=性能,NPS=1,PPL=400W,Turbo Boost=启用;OS:Ubuntu® 22.04.3 LTS;测试配置:6 个实例,64 个 vCPU/实例,2663 个 AI 用例/分钟。‎‎‎‎‎‎‎‎‎‎‎‎结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。  TPC、TPC 基准测试和 TPC-C 是 Transaction Processing Performance Council 的商标。