推进数据中心可持续发展

现代数据中心不断努力提高效率和可扩展性,同时带来出色的性能和安全性。随着人工智能 (AI) 和生成式 AI 工作负载的兴起,全球电力消耗趋势表明,未来 20 年内,能源消耗总量将超过市场的供应能力。1

创新型能源解决方案的需求日益增长,而数据中心对这类解决方案的需求尤为迫切。AMD 深知自身在应对这些关键挑战方面肩负着重要责任。我们专注于提高服务器能效、支持基础设施整合,降低数据中心总体拥有成本 (TCO) 并提供高性能计算 (HPC),以帮助解决世界上最棘手的挑战。

Server room center exchanging cyber datas 3D rendering

AMD 30x25 能效目标

我们的目标是从 2020 年到 2025 年,将用于 AI 训练和高性能计算的 AMD 处理器和加速器的能效提高 30 倍。2

这些重要且快速增长的计算领域面临着极为严苛的工作负载。根据这些计算领域的全球能源消耗来衡量,这一目标是 2015-2020 年行业能效提升趋势的 2.5 倍以上。3

即使制程工艺不断进步,摩尔定律的放缓效应也是显而易见的。制程进步带来的能效提升越来越小。因此,除了制程工艺可以预见的提升外,大部分提升还得来自芯片架构和封装创新。

截至 2024 年底,通过采用由四个 AMD Instinct MI300X GPU 和一个第五代 AMD EPYC(霄龙)CPU 组成的配置,AMD 加速计算节点实现了 28.3 倍4(以 2020 年为基准年)的能效提升。我们的进度报告采用经过著名计算能效研究专家 Jonathan Koomey 博士验证的权威测量方法2

AMD Goal Pathway Chart

*仅供参考之用。详情参见附注中的数据表。

Macro leaves background

环境效益

我们的 30 倍能效提升目标相当于从 2020 年到 2025 年将计算的能耗减少 97%。如果全球所有的 AI 和高性能计算服务器节点都能实现相似的提升,相对于基准趋势,到 2025 年可节省数十亿千瓦时的电力。

使用高能效服务器意味着只需更少的物理服务器就能满足计算需求,这将产生连锁效应,避免一系列环境影响,包括减少原材料使用、生产制造、运输配送、能源消耗和数据中心空间占用。

采用 AMD 计算技术的服务器能够以更少的物理服务器满足性能需求,从而减少数据中心的占地面积以及相关的能源消耗和温室气体排放。例如,要实现 10,000 单位整数性能的计算量,只需要 6 台 AMD 服务器 [双路 96 核 9654 EPYC(霄龙)CPU]。5这意味着运营功耗最多可节省 45%,三年内可以避免高达 107 公吨的二氧化碳排放,并节省高达 37,700 美元的能源成本。

另一项评估(2024 年 2 月)发现,只需 3 台第四代 AMD EPYC 服务器就可以替代 15 台 2019-2021 年的主流服务器。更高性能和高能效解决方案带来的服务器整合可以产生连锁反应,避免一系列环境影响,包括减少原材料使用、生产制造、运输配送、能源消耗和数据中心空间占用。

行业观点

成功案例

LUMI

芬兰的 LUMI 超级计算机正为环境可持续发展实践树立榜样,帮助人们解决一些迫在眉睫的气候相关问题。

Nokia

Nokia 核心网络事业部选择 AMD EPYC(霄龙)处理器来帮助降低 CSP 的能源使用量和成本。

支持资源

附注
  1. “半导体十年规划”,Semiconductor Research Corporation,https://www.src.org/about/decadal-plan/(2024 年 5 月 15 日摘选)。
  2. 在四加速器 CPU 主机配置中采用适合 AI 训练和高性能计算的高性能 CPU 和 GPU 加速器。目标计算基于标准性能指标得出的性能分数(高性能计算:具有 4k 矩阵大小的 Linpack DGEMM kernel FLOPS;AI 训练:在 4k 矩阵上运行的专用低精度训练浮点数学运算 GEMM kernel),除以一个典型的加速计算节点(包括 CPU 主机 + 内存以及 4 个 GPU 加速器)的额定功耗。
  3. 基于 2015-2020 年能效提升行业趋势和 2025 年数据中心能耗。
  4. EPYC-030B:AMD 在四加速器 CPU 主机配置中对适合 AI 训练和高性能计算的高性能 AMD CPU 和 GPU 加速器进行计算节点性能功耗比测量。
    • 高性能计算工作负载的性能基于具有 4k 矩阵大小的 Linpack DGEMM kernel FLOPS。AI 训练的性能基于在 4k 矩阵上运行的专用低精度训练浮点数学运算 GEMM kernel。
    • 功耗基于一个典型的加速计算节点(包括 CPU 主机 + 内存以及 4 个 GPU 加速器)的热设计功耗 (TDP)。

    为了使该目标与全球能源使用量密切相关,AMD 与 Koomey Analytics 合作评估可用的研究和数据,其中包括 GPU 高性能计算 (HPC) 和机器学习 (ML) 等特定领域数据中心能源使用效率 (PUE)。AMD CPU 和 GPU 节点功耗包含特定领域使用(活动与空闲)百分比,并乘以 PUE 来确定实际总能耗,从而能够计算出性能功耗比。

    能耗基准采用 2015-2020 年数据中观察到的行业单位作业能耗提升率,并根据这一变化率推测至 2025 年。AMD 目标趋势线(表 1)显示到 2025 年实现能效提升 30 倍目标所需的指数级提升。AMD 实际发布产品(表 2)是表 1 AMD 目标能效提升的来源。

    2020 年到 2025 年各领域单位作业能耗提升值是由全球预计销量加权得出(根据 IDC - Q1 2021 TrackerHyperion- Q4 2020 Tracker Hyperion 高性能计算市场分析,2021 年 4 月)。将这些销量换算到机器学习训练和高性能计算市场,会得出如下表 3 所示的节点量。然后将这些节点量乘以 2025 年各计算领域的典型能源消耗 (TEC)(表 4),得出一个有意义的全球实际能源使用提升的总体指标。


    表 1:预计到 2025 年的能效数据汇总

     

    2020

    2021

    2022

    2023

    2024

    2025

    目标趋势线

    1.00

    1.97

    3.98

    7.70

    15.20

    30.00

    AMD 目标状态(能耗加权后的性能功耗比)

    1.00

    3.90

    6.79

    13.49

    28.29

     

     

    表 2:AMD 产品

    2020

    2021

    2022

    2023

    2024

    2025

    EPYC(霄龙)第一代 CPU + M50 GPU

    EPYC(霄龙)第二代 CPU + MI100 GPU

    EPYC(霄龙)第三代 CPU + MI250 GPU

    MI300A APU(搭载 AMD CDNA 3 计算单元的第四代 AMD EPYC(霄龙)CPU)

    EPYC(霄龙)第五代 CPU + MI300X GPU

     

    *AMD 产品受最新软件支持,包括 AMD ROCm

     

    表 3:预测销量(百万/年)

     

    2020

    2021

    2022

    2023

    2024

    2025

    高性能计算 GPU 节点销量

    0.05

    0.06

    0.07

    0.09

    0.10

    0.12

    机器学习 GPU 节点销量

    0.09

    0.10

    0.12

    0.14

    0.17

    0.20

     

    表 4:2025 年基准情景所售产品用电量,用于加权能效指数(TWh/年)

     

    2025

    基准高性能计算

    4.49

    基准机器学习

    29.79

    总体基准

    34.28

    *随着高性能计算和机器学习计算节点的功能不断发展,我们将自 2025 年起,在原有预测的基础上每年更新全球能耗估算数据,同时将 AI 发展给机器学习性能指标带来的权重提升纳入其中。

  5. SP5TCO-034:该方案包含许多假设和估算,虽然基于 AMD 内部研究和最佳近似值,但应被视为仅供参考的示例,而不是用于实际测试的决策依据。裸机服务器温室气体排放总体拥有成本估算工具 v6.80 评估了提供 10,000 单位整数性能所需的 AMD EPYC(霄龙)服务器解决方案,采用了这些 AMD EPYC(霄龙)CPU 服务器解决方案截至 2023 年 1 月 10 日发布的分数。  本次估算代表是 3 年期费用,采用的 PUE 为 1.7,美国用电成本为 0.16 美元/千瓦时。  本次分析评估了搭载 AMD 64 核 EPYC(霄龙)9554 CPU 的双路服务器(估计得分为 1300 SPECrate2017_int_base,https://spec.org/cpu2017/results/res2023q1/cpu2017-20221107-32790.pdf)。我们利用这些数据对环境影响进行了评估,并采用了“2020 年电网电力排放因素 v1.4 – 2020 年 9 月”中的国家/地区特定电力因素、美国国家环境保护局“温室气体当量计算器”。欲知更多详情,请访问 https://www.amd.com/zh-cn/legal/claims/epyc-claims.html#q=SP5TCO-034