AMD 高性能计算和 AI 客户:ROCm 5.7 全新发布
AMD ROCm 开放式平台是一个开源软件平台,可助力在 AMD 和其他厂商硬件上实现卓越的高性能计算和 AI 计算。通过 ROCm,客户在运行高性能计算工作负载时能够体会到更出色的自由和访问便捷。
ROCm 5.7 更新版带来了大量全新更新、功能和改进,可帮助您的客户更充分地利用 AMD 硬件,在各种应用中实现卓越表现。支持 hipTensor 以及更多 AMD 显卡,并实现了性能提升;ROCm 5.7 进行了全面改进,为用户带来更多优势。
在基于 AMD RDNA 3 架构打造的 AMD Radeon 显卡上进行机器学习
基于 Linux® 的 ROCm 5.7 支持 AMD Radeon RX 7900 XTX 显卡和 AMD Radeon PRO W7900 显卡,让客户可以充分利用性能强大的 AMD Radeon RX 7900 系列台式机显卡来运行其机器学习模型和算法。
AMD Radeon RX 7900 系列显卡基于 AMD RDNA 3 架构打造,其每个计算单元的 AI 性能都是上一代产品的两倍以上。1 不仅如此,它们还可提供多达 192 个 AI 加速器以及出色的显存带宽,其搭载的显存最高可达 24GB 或 48GB,可助力客户处理大型机器学习模型。
现在,客户可利用现成的硬件创建本地专用工作负载,为机器学习训练等提供支持,这让先前依赖云解决方案的客户有了更好的选择。
hipTensor 支持
ROCm 5.7 更新版全新推出 hipTensor 支持—这是一个用于加速张量原语的 AMD C++ 库,其中的原语是可以用在复杂的高性能计算和 AI 工作流程中的构建块。此支持不仅增强了所用原语的灵活性,缩短了开发时间,还提高了端到端效率。
MIGraphX 的新功能
MIGraphX 是一个推理引擎,它专注于利用多种图级转换和优化来加速 AMD 硬件的机器学习推理,并通过一系列优化来利用预先存在的模型,既重视速度也重视精度。
MIGraphX 现在推出了全新功能 Dynamic Batch。在 ROCm 5.7 发布前,客户需要为不同大小的批处理编译不同的模型。对于根据数据输入运行模型的客户而言,如果模型涉及多个批处理大小,整个过程无疑非常复杂。而这一新功能可以让客户使用单个编译模型来支持多种不同的批处理大小,既精简了机器学习工作流程,降低了存储空间需求,又减少了系统确定应使用的模型时所需要的脚本逻辑。
离散分布的 rocRAND RNG 性能得到了提升
rocRAND 库是 ROCm 开源软件平台的一部分,可提供多个函数在 AMD 显卡上生成随机数,非常适合模拟、统计模型及机器学习算法应用。
除了 ROCm 5.7 更新版带来的其他更新之外,对于离散分布,rocRAND 的随机数生成 (RNG) 性能提升了 15%,从而确保客户在将 AMD 硬件用于此类应用时可畅享更高的效率并加速实现成果。
AMD 将会持续不断地开发新技术和改进现有技术,以增强高性能计算和机器学习领域的客户应用。我们的合作伙伴深知,只有不断交付领先产品才能为实现未来的业务目标提供支持,因此他们将一如既往地专注于开源、易于访问的软件和为客户提供更出色的成果之上,并且坚持不懈地向客户提供性能可靠的 AMD 产品。
如需详细了解 ROCm 5.7 更新版,请阅读此处的 AMD 博客文章。如需详细了解高性能计算领域的 AMD 产品和技术,请联系您的 AMD 代表或点击此处联系我们。
附注
- 基于 AMD 内部实验室于 2022 年 11 月进行的测试,比较以下两款产品:AMD Radeon RX 7900 XTX,2.5 GHz 加速时钟频率、搭载 96 个计算单元 (CU)、每时钟发出 2 倍 Bfloat16 数学运算。对比 AMD Radeon RX 6900 XT 显卡,2.25 GHz 加速时钟频率、搭载 80 个 CU、每时钟发出 1 倍 Bfloat16 数学运算。RX-821。
- 基于 AMD 内部实验室于 2022 年 11 月进行的测试,比较以下两款产品:AMD Radeon RX 7900 XTX,2.5 GHz 加速时钟频率、搭载 96 个计算单元 (CU)、每时钟发出 2 倍 Bfloat16 数学运算。对比 AMD Radeon RX 6900 XT 显卡,2.25 GHz 加速时钟频率、搭载 80 个 CU、每时钟发出 1 倍 Bfloat16 数学运算。RX-821。