联想问天 WA7785a G3 服务器创下大模型推理新纪录
联想携手 AMD 打造的联想问天 WA7785a G3 服务器在单机部署 671B 参数(满血版)DeepSeek 大模型时实现了 8000 token/s 的极限吞吐量,刷新了单台服务器运行大模型性能的行业记录。这一突破充分展现了 AMD 先进计算技术与联想系统设计创新的协同优势。
技术挑战与解决方案
随着大语言模型规模与应用需求的快速增长,企业迫切需要高性能、高效率的 AI 基础设施。基于这一市场需求,AMD 与联想展开了紧密合作,结合双方在硬件、架构和系统优化方面的专长,共同解决大模型部署中的关键挑战。
硬件配置
联想问天 WA7785a G3 服务器采用以下 AMD 技术:
- 2颗 AMD EPYC 处理器
- 8颗 AMD 新一代 Instinct OAM GPU
- 单颗 GPU 配备 192GB HBM3e 显存,总计 1.5TB 显存容量
- 显存带宽高达 5.3TB/s
- GPU 聚合带宽达 896GB/s
- 节点间网络带宽 3.2TB/s
系统架构与优化
联想与 AMD 工程团队通过一系列创新方法提升了系统性能:
- 依托联想万全异构智算平台进行访存优化和显存优化
- 采用 PCIe 5.0 全互联架构创新
- 精选 SGLang 框架中性能最优算子
- 对大模型从预训练、后训练到推理的全流程进行持续优化
- 实施三重独立风道设计,分别针对 CPU 节点、GPU 节点和交换机节点进行精准散热控制
性能表现
经过联想中国基础设施业务群、联想研究院 ICI 实验室和 AMD 的联合设计与协同调优,联想问天 WA7785a G3 服务器在实际应用场景中取得了出色表现:
问题对话场景(上下文序列长度128/1K)
- 最高支持并发数:158
- TPOT(Token Processing Time):93毫秒
- TTFT(Time To First Token):2.01秒
代码生成场景(上下文序列长度512/4K)
- 并发数:140
- TPOT:100毫秒
- TTFT:5.53秒
这些性能数据表明,单台联想问天 WA7785a G3 服务器可以支撑 1500 人规模企业的日常 AI 应用需求,大幅提升了企业级 AI 部署效率。
合作成果与前景
这一突破是联想与 AMD 深度合作的重要成果,展示了双方在 AI 计算领域的技术实力。值得注意的是,当前的性能数据并非最终结果,联想与 AMD 团队仍在持续探索更深层次的调优方法,致力于实现更高的性能突破。
通过这一合作项目,AMD 的高性能计算芯片与联想的系统设计创新相结合,为客户提供了更高密度、更低能耗、更易部署的 AI 算力基础设施,推动 AI 计算向更高效、更普惠、更可持续的方向发展。
