

概述
灵活、实时的预处理
AMD 可编程逻辑凸显差异化优势,设计师由此能连接到各种类型的传感器,并开发低延迟的专有处理功能。
高效率的 AI 推理
新一代 AI 引擎支持更多数据类型,算力功耗比相较于上一代 AI 引擎架构提升多达 3 倍。1
高性能的后期处理
对于复杂的决策及相似工作负载,处理系统的性能进一步增强,标量算力相较于第一代 Versal 器件提升多达 10 倍2。
为 AI 系统提供端到端支持
为全部三个计算阶段加速
第二代 Versal AI Edge 系列自适应 SoC 可实现灵活、实时的预处理、高效率的 AI 推理以及高性能的后期处理,从而缩小占用面积、降低复杂性。


提升系统性能
发挥异构计算的多功能性
凭借先进的可编程逻辑、集成 CPU、出色的安全性、安全功能等诸多优势,第二代 Versal AI Edge 系列自适应 SoC 能在推理以外的更广阔领域大展身手。
产品优势
全新第二代 Versal AI Edge 系列
第二代 Versal AI Edge 系列自适应 SoC 对经过量产考验的 Versal 架构进一步强化,采用一体化器件设计,将先进的 Versal 可编程逻辑与全新高性能处理系统和新一代 AI 引擎相结合,同时提供增强的安全和保护。
主要功能特性
如需了解每个器件/封装对应的可用功能集合,请参阅相应数据表概览。
处理系统
多达 8 个 Arm® Cortex®-A78AE 应用处理器和多达 10 个 Cortex-R52 实时处理器可实现超过 200k DMIPs 的总算力,同时支持 USB 3.2、DisplayPort™ 1.4、10 GbE、PCIe® Gen5 和更多外设。
可编程逻辑和 I/O
先进的 Versal 可编程逻辑和全新高性能 X5IO,此外还支持 MIPI C-PHY,因而可带来灵活性,实现实时处理并适应未来变化。
AI 引擎
相较于上一代产品,全新 AIE-ML v2 模块能使单位模块算力翻倍3,带来出色的能效并支持新的原生数据类型,包括可提升吞吐量和性能功耗比的 MX6 和 MX9。
硬图像/视频处理
全新硬图像信号处理器 (ISP) IP 可加速图像处理,而增强的视频编解码单元 (VCU) 模块支持 HEVC 和 AVC 4K60 4:4:4 12 位编码和解码。5
DDR5 和 LPDDR5X
硬核 DDR 存储器控制器支持 DDR5-6400 和 LPDDR5X 8533,并具有全新的内联加密功能,带来高达 170 GB/s 的内存带宽。
集成 GPU
Arm Mali™-G78AE GPU 能以高达 4K60 的分辨率和高达 268 GFLOPs 的算力支持显示/HMI 应用。6更多相关信息,请参见白皮书。
探索 Versal 自适应 SoC 的更多功能

第二代 Versal AI Edge 系列产品简介
了解第二代 Versal AI Edge 系列自适应 SoC 如何采用一体化器件设计,为 AI 驱动的嵌入式系统实现端到端加速,同时提供增强的安全和保护。
推动汽车行业创新
随着电动汽车、车辆自动驾驶技术的兴起,以及安全和信息娱乐系统(其中许多采用了 AI 技术)不断取得创新,汽车行业正在经历巨大的变革,同时也面临着新的机遇。在这本电子书中,您将了解当前推动这一变革的趋势,以及这些趋势带来的技术和制造挑战。


应用和行业

ADAS 和自动驾驶
第二代 Versal AI Edge 系列致力于满足汽车高级驾驶辅助系统 (ADAS) 和自动驾驶 (AD) 的中央计算需求,所采用的增强 AI 引擎可提升能效,同时单位功耗性能与上一代产品相比提升多达 3 倍1。第二代 AI Edge 系列的异构架构非常适用于需要传感器融合和实时决策的多传感器视觉感知系统。
工业自动化、机器人技术和机器视觉
高生产力是工业自动化、机器人技术和机器视觉应用追求的主要目标之一。全面优化的第二代 Versal AI Edge 系列自适应 SoC 可高效率满足此类处理密集型工作负载,同时还能兼顾功能安全性、延迟、确定性、传感器对接、AI 推理、功耗、实时控制和网络等重要考虑因素。

医疗成像
高质量图像、扫描深度、AI 处理和显示实时结果都是当前医疗诊断成像设备不可或缺的重要属性。第二代 Versal AI Edge 系列之类的系统级芯片系列拥有出色稳定的计算和内存性能、集成硬件功能加速器、新一代高速连接以及丰富的软件开发环境,因而非常适用于医疗成像设备。


嵌入式 AI Box
随着实时 Edge AI 应用和高性能要求系统的兴起,同时兼顾功率、延迟和 AI 性能变得更加重要。第二代 Versal AI Edge 系列旨在通过其 AI 引擎模块和视频编解码器单元来提升 AI 性能并优化延迟。它还具有丰富灵活的 I/O 接口并提供参考设计,可简化实时数据同步和设计流程。
产品规格
AI 性能
2VE3304 | 2VE3358 | 2VE3504 | 2VE3558 | 2VE3804 | 2VE3858 | |
---|---|---|---|---|---|---|
INT8 TOPS(密集) | 31 | 31 | 123 | 123 | 184 | 184 |
INT8 TOPS(稀疏性最高) | 61 | 61 | 246 | 246 | 369 | 369 |
MX6 TOPS(密集) | 61 | 61 | 246 | 246 | 369 | 369 |
AI 引擎
2VE3304 | 2VE3358 | 2VE3504 | 2VE3558 | 2VE3804 | 2VE3858 | |
---|---|---|---|---|---|---|
AIE-ML v2 模块 | 24 | 24 | 96 | 96 | 144 | 144 |
处理系统
2VE3304 | 2VE3358 | 2VE3504 | 2VE3558 | 2VE3804 | 2VE3858 | |
---|---|---|---|---|---|---|
应用核心/实时核心 | 4 / 4 | 8 / 10 | 4 / 4 | 8 / 10 | 4 / 4 | 8 / 10 |
应用处理器 | Arm Cortex-A78AE,配备 64 KB L1 指令高速缓存(支持奇偶校验)及 L1 数据高速缓存(支持 ECC)、512 KB L2 高速缓存、1 MB L3 高速缓存(每个 2 核集群)、CMN600 架构 4 MB 最后一级高速缓存(共享) | |||||
实时处理器 | Arm Cortex-R52,32 KB L1 高速缓存(支持 ECC)、128 KB TCM(支持 ECC) | |||||
内存 | 支持 ECC 的 2 MB 片上内存 | |||||
高速连接 | 4 个 PCI Express® Gen5 通道、USB 3.2、DisplayPort™ 1.4、10G 以太网接口、1G 以太网接口、UFS 3.1 | |||||
通用连接 | CAN/CAN-FD、SPI、UART、USB 2.0、I2C/I3C、GPIO |
可编程逻辑
2VE3304 | 2VE3358 | 2VE3504 | 2VE3558 | 2VE3804 | 2VE3858 | |
---|---|---|---|---|---|---|
系统逻辑单元 | 206920 | 206920 | 492188 | 492188 | 1188040 | 1188040 |
LUT | 94592 | 94592 | 225000 | 225000 | 543104 | 543104 |
DSP 引擎 | 184 | 184 | 700 | 700 | 2064 | 2064 |
内存、接口、I/O 和收发器
2VE3304 | 2VE3358 | 2VE3504 | 2VE3558 | 2VE3804 | 2VE3858 | |
---|---|---|---|---|---|---|
总 PL 内存 (Mb) | 21.1 | 21.1 | 23.9 | 23.9 | 97.0 | 97.0 |
最大内存带宽 (LPDDR5X) | 102 GB/秒 | 102 GB/秒 | 136 GB/秒 | 136 GB/秒 | 170 GB/秒 | 170 GB/秒 |
100G 多速率以太网 MAC | 1 | 1 | 1 | 1 | 3 | 3 |
PL PCIe (Gen5x4) | 1 | 1 | 3 | 3 | 4 | 4 |
高性能 I/O | 260 | 260 | 384 | 384 | 512 | 512 |
GTYP 收发器(仅 PL) | 4 | 4 | 12 | 12 | 20 | 20 |
图像/视频处理
2VE3304 | 2VE3358 | 2VE3504 | 2VE3558 | 2VE3804 | 2VE3858 | |
---|---|---|---|---|---|---|
视频编解码单元 (VCU) 模块 | 0 | 1 | 0 | 1 | 0 | 1 |
图像信号处理器 (ISP) 模块 | 0 | 1 | 0 | 3 | 0 | 3 |
GPU | 1 个 4 核 Arm Mali-G78AE GPU |
面向所有开发者
AMD 提供优秀的软件开发环境以供开发者利用自适应 SoC 和 FPGA 开展设计工作,其中包括各种工具(编译器、仿真器等)、IP 和解决方案。
该环境不但可以帮助开发者缩短开发时间,还可以助力实现更出色的性能功耗比。AMD 自适应 SoC 和 FPGA 设计工具可帮助 AI 科学家、应用与算法工程师、嵌入式软件以及传统硬件等各类开发人员使用 AMD 自适应计算解决方案。

资源

抢先体验计划
第二代 Versal AI Edge 系列现已开放抢先体验。请联系本地 AMD 销售代表,申请加入抢先体验计划,或访问“联系销售人员”页面。
随时掌握最新动态
加入 Versal 自适应 SoC 通知列表,及时接收最新动态与资讯。
附注
- 基于对第二代 Versal AI Edge 系列(使用 MX6 数据类型)中采用的 AIE-ML v2 计算模块架构的 AMD 内部性能和功耗预测,对比性能规格以及第一代 Versal AI Edge 系列(使用 INT8 数据类型)中采用的 AIE-ML 计算模块架构的 AMD Power Design Manager 功耗估算。假设:2 行 8 列子阵列。运行条件:1 GHz Fmax、0.7V AIE 工作电压、100°C 结温、典型制程工艺、60% 矢量负载、激活 % = 0 < 10%。最终产品上市时的实际性能可能会有所不同。性能预测截至 2024 年 3 月。(VER-023)
- 基于对第二代 Versal AI Edge 系列和第二代 Versal Prime 系列处理系统的 DMIPs 合计总值的 AMD 内部流片前性能估算,配置为 8 个 Arm Cortex-A78AE 应用核心 @2.2 GHz 和 10 个 Arm Cortex-R52 实时核心 @1.05 GHz,对比第一代 Versal AI Edge 系列和第一代 Versal Prime 系列处理系统已发布的 DMIPs 合计总值。第二代 Versal AI Edge 系列和第二代 Versal Prime 系列运行条件:最高可用速度等级、0.88V PS 工作电压、分离模式运行、最大支持运行频率。第一代 Versal AI Edge 和 Prime 系列运行条件:最高可用速度等级、0.88V PS 工作电压、最大支持运行频率。最终产品上市时的实际 DMIPs 性能可能会有所不同。(VER-027)
- 基于第二代 Versal AI Edge 系列中采用的 AIE-ML v2 计算模块的产品规格(每个时钟周期运行 1024 次 INT8 运算),对比第一代 Versal AI Edge 系列中采用的 AIE-ML 计算模块架构已发布的产品规格(每个时钟周期运行 512 次 INT8 运算)。性能预测截至 2024 年 2 月。(VER-024)
- 基于对第二代 Versal AI Edge 系列和第二代 Versal Prime 系列处理系统的应用处理单元 (APU) 的 DMIPs 总值的 AMD 内部流片前功能安全性目标和性能估算,配置为 8 个 Arm Cortex-A78AE 应用核心 @2.2 GHz。运行条件:最高可用速度等级、0.88V PS 工作电压和最大支持运行频率,所有 APU 核心以 Lock-Step 模式运行。最终产品上市时的实际性能可能会有所不同。(VER-028)
- 在未使用/安装兼容的媒体播放器的情况下,视频编解码器加速(至少包括 HEVC (H.265)、H.264、VP9 和 AV1 编解码器)将无法正常运行。(GD-176)
- 基于第二代 Versal AI Edge 系列和第二代 Versal Prime 系列器件 Arm 已发布的产品规格,分别配置 4 核 Arm Mali-G78AE GPU,最大运行频率为 1050 MHz,每次运算/每个时钟周期/每个核心的 FP32 值为 64,每次运算/每个时钟周期/每个核心的纹素值为 4。最终产品上市时,第二代 Versal AI Edge 系列和第二代 Prime 系列产品的实际性能可能会有所不同。(VER-030)
- 基于对第二代 Versal AI Edge 系列(使用 MX6 数据类型)中采用的 AIE-ML v2 计算模块架构的 AMD 内部性能和功耗预测,对比性能规格以及第一代 Versal AI Edge 系列(使用 INT8 数据类型)中采用的 AIE-ML 计算模块架构的 AMD Power Design Manager 功耗估算。假设:2 行 8 列子阵列。运行条件:1 GHz Fmax、0.7V AIE 工作电压、100°C 结温、典型制程工艺、60% 矢量负载、激活 % = 0 < 10%。最终产品上市时的实际性能可能会有所不同。性能预测截至 2024 年 3 月。(VER-023)
- 基于对第二代 Versal AI Edge 系列和第二代 Versal Prime 系列处理系统的 DMIPs 合计总值的 AMD 内部流片前性能估算,配置为 8 个 Arm Cortex-A78AE 应用核心 @2.2 GHz 和 10 个 Arm Cortex-R52 实时核心 @1.05 GHz,对比第一代 Versal AI Edge 系列和第一代 Versal Prime 系列处理系统已发布的 DMIPs 合计总值。第二代 Versal AI Edge 系列和第二代 Versal Prime 系列运行条件:最高可用速度等级、0.88V PS 工作电压、分离模式运行、最大支持运行频率。第一代 Versal AI Edge 和 Prime 系列运行条件:最高可用速度等级、0.88V PS 工作电压、最大支持运行频率。最终产品上市时的实际 DMIPs 性能可能会有所不同。(VER-027)
- 基于第二代 Versal AI Edge 系列中采用的 AIE-ML v2 计算模块的产品规格(每个时钟周期运行 1024 次 INT8 运算),对比第一代 Versal AI Edge 系列中采用的 AIE-ML 计算模块架构已发布的产品规格(每个时钟周期运行 512 次 INT8 运算)。性能预测截至 2024 年 2 月。(VER-024)
- 基于对第二代 Versal AI Edge 系列和第二代 Versal Prime 系列处理系统的应用处理单元 (APU) 的 DMIPs 总值的 AMD 内部流片前功能安全性目标和性能估算,配置为 8 个 Arm Cortex-A78AE 应用核心 @2.2 GHz。运行条件:最高可用速度等级、0.88V PS 工作电压和最大支持运行频率,所有 APU 核心以 Lock-Step 模式运行。最终产品上市时的实际性能可能会有所不同。(VER-028)
- 在未使用/安装兼容的媒体播放器的情况下,视频编解码器加速(至少包括 HEVC (H.265)、H.264、VP9 和 AV1 编解码器)将无法正常运行。(GD-176)
- 基于第二代 Versal AI Edge 系列和第二代 Versal Prime 系列器件 Arm 已发布的产品规格,分别配置 4 核 Arm Mali-G78AE GPU,最大运行频率为 1050 MHz,每次运算/每个时钟周期/每个核心的 FP32 值为 64,每次运算/每个时钟周期/每个核心的纹素值为 4。最终产品上市时,第二代 Versal AI Edge 系列和第二代 Prime 系列产品的实际性能可能会有所不同。(VER-030)