联想问天 WA7785a G3 服务器创下大模型推理新纪录

联想携手 AMD 打造的联想问天 WA7785a G3 服务器在单机部署 671B 参数（满血版）DeepSeek 大模型时实现了 8000 token/s 的极限吞吐量，刷新了单台服务器运行大模型性能的行业记录。这一突破充分展现了 AMD 先进计算技术与联想系统设计创新的协同优势。

技术挑战与解决方案

随着大语言模型规模与应用需求的快速增长，企业迫切需要高性能、高效率的 AI 基础设施。基于这一市场需求，AMD 与联想展开了紧密合作，结合双方在硬件、架构和系统优化方面的专长，共同解决大模型部署中的关键挑战。

硬件配置

联想问天 WA7785a G3 服务器采用以下 AMD 技术：

2颗 AMD EPYC 处理器
8颗 AMD 新一代 Instinct OAM GPU
单颗 GPU 配备 192GB HBM3e 显存，总计 1.5TB 显存容量
显存带宽高达 5.3TB/s
GPU 聚合带宽达 896GB/s
节点间网络带宽 3.2TB/s

系统架构与优化

联想与 AMD 工程团队通过一系列创新方法提升了系统性能：

依托联想万全异构智算平台进行访存优化和显存优化
采用 PCIe 5.0 全互联架构创新
精选 SGLang 框架中性能最优算子
对大模型从预训练、后训练到推理的全流程进行持续优化
实施三重独立风道设计，分别针对 CPU 节点、GPU 节点和交换机节点进行精准散热控制

性能表现

经过联想中国基础设施业务群、联想研究院 ICI 实验室和 AMD 的联合设计与协同调优，联想问天 WA7785a G3 服务器在实际应用场景中取得了出色表现：

问题对话场景（上下文序列长度128/1K）

最高支持并发数：158
TPOT（Token Processing Time）：93毫秒
TTFT（Time To First Token）：2.01秒

代码生成场景（上下文序列长度512/4K）

并发数：140
TPOT：100毫秒
TTFT：5.53秒

这些性能数据表明，单台联想问天 WA7785a G3 服务器可以支撑 1500 人规模企业的日常 AI 应用需求，大幅提升了企业级 AI 部署效率。

合作成果与前景

这一突破是联想与 AMD 深度合作的重要成果，展示了双方在 AI 计算领域的技术实力。值得注意的是，当前的性能数据并非最终结果，联想与 AMD 团队仍在持续探索更深层次的调优方法，致力于实现更高的性能突破。

通过这一合作项目，AMD 的高性能计算芯片与联想的系统设计创新相结合，为客户提供了更高密度、更低能耗、更易部署的 AI 算力基础设施，推动 AI 计算向更高效、更普惠、更可持续的方向发展。

希望详细了解 AMD 可以为您的数据中心提供哪些解决方案吗？

随时掌握最新动态

联系销售人员

数据中心

商用系统

个人和游戏

嵌入式产品

资源

加速器

自适应加速器

DPU 加速器

以太网适配器

工作站

台式机

笔记本电脑

资源

自适应 SoC 和 FPGA

模块化系统 (SOM)

技术

开发者资源

评估板与套件

处理器工具

显卡工具和应用

自适应 SoC 和 FPGA

IP 与应用

GPU 加速器工具和应用

概要

面向数据中心和云计算

面向边缘计算和终端

面向开发人员

行业

行业

行业

行业

Industrias

工作负载

游戏

系统

技术

资源

EPYC（霄龙）处理器

Radeon 显卡与 AMD 芯片组

FPGA 和自适应 SoC

Alveo 加速器和 Kria SOM

锐龙处理器

以太网适配器

概要

处理器

加速器

自适应 SoC、FPGA 和 SOM

显卡

概要

资源按市场领域

资源按产品

资源按类型

关于我们的合作伙伴

AMD 全球支持

处理器与显卡

加速器

FPGA 与自适应 SoC

选择我们的零售合作伙伴

自适应和嵌入式计算

Get AMD Fan Gear

Buy Direct From AMD

Buy Direct From AMD

Buy Direct From AMD

Buy Direct From AMD

Buy Direct From AMD

联想问天 WA7785a G3 服务器创下大模型推理新纪录