转化音视频内容价值,优化媒体工作流程

根据麦肯锡的一项调查,39% 的机构已在其业务中实施某种形式的机器学习 (ML)。虽然还处于初期阶段,但更高效率、客户行为预测以及具有洞察力的商业智能性让这一应用的前景对于专业 AV 及广播市场来说极具吸引力。

媒体系统可利用 AMD 平台上的 ML 功能执行 AI 边缘处理。无需网络连接,直接在边缘处理,不仅在低时延性能方面具有巨大的优势,而且还可以避免有关隐私以及在云端存储身份信息等难题。将这些机器学习功能与音视频处理流水线整合在 AMD 灵活应变的平台中,意味着企业可以通过分析转化价值,提高工作流程效率并提升可用性。最终,这些集成的 ML 功能将帮助企业加速实现创新与产品差异化。

机器学习解决方案 广播使用案例 专业音视频使用案例
视频对象检测
锁定一个对象并创建一个边界框,输出原始视频的裁剪部分 平移、倾斜和变焦摄影机控制,聚焦讲话者;质量优于裁剪和缩放
检测特定目标,如人员、动物或汽车。识别出的目标周围的区域以一个方框为界,将方框坐标输入编码器进行 ROI 编码。
体育赛事实况转播自动化  
自然语言处理
隐藏字幕语音至文本的转换 自动会议记录
脚本翻译或电影区域化 在自动服务终端交互过程中检测语音压力
性别或年龄检测
  根据性别或年龄提供广告
视频质量分析
检测复杂序列并优化编码参数
情绪分析
在现场制作过程中,检测演员的情绪,以确定其动作是否符合导演的要求。
在视频剪辑中寻找带特定情绪的演员。
在后期制作中,按照创作/艺术意图,使用 ML 微调演员的面部表情
使用数字自助服务终端检测一个人的情绪
手势检测
  用手势比划,以免触摸交互式零售屏幕或自助服务终端屏幕
协同控制摄像头工作

特性

目标区域编码

利用 ML 优化视频编码带宽,以节省成本

大型视频文件及超高清内容的传输与存储成本很容易累积。目标区域 (ROI) 编码有助于缓解这个问题。通过先降低内容的整体比特率,然后在眼睛最容易注意的区域应用最佳视频质量 (VQ),特别是人脸和人,与此同时降低不太重要的区域(如背景)的视频质量。

在控制室应用中还可以通过 ROI 来保存重要区域的细节信息。例如,在出现事故的情况下并且正好大型视频墙上有监控,那么在后续调查中准确了解细节就很重要,并且这些信息还可以用来对相关人员进行培训以便从错误中吸取教训并改进行动计划。这就意味着不仅可在使用静态坐标进行 ROI 编码的文本覆盖区域(例如时钟)保持高视频质量,而且还可在使用 ML 动态坐标的人脸或人员身上保持高视频质量。

avml-encoding.png

自然语言处理和大语言模型 (LLM)

可应用于各种 AV 使用场景的语言模型

基于自然语言处理 (NLP) 和大语言模型 (LLM) 的语音识别技术现已在家庭中广泛采用,Alexa、Google Assistant 及其他智能设备可响应命令、呈现信息和媒体内容,也可控制房屋的各个方面。通过在 AV 设备中直接内置 NLP 和 LLM,可将同样的功能应用于专业媒体,使用户界面更简单直观,使设备安装更轻松快捷,无需云连接,也无需任何相关订阅服务,便可执行相同的任务。借助边缘 AI,您可以将技术支持有效嵌入 AV 产品中,从而能够回答关于配置的问题、讨论故障、检查网络设置以及执行预测性维护。

avml-voice.png

智能标牌

展示有针对性的广告并通过观众分析转化价值

有针对性的广告对于营销者而言极为难得。使用各种 ML 模型来分析数字标牌前的观众,可以根据年龄和性别等指标,提供相关性更高、更有针对性的广告。对于广告主来说,这让标牌供应商变得更加有吸引力,从而愿意为更好的广告展示支付更多的费用。此外,这还可为广告主带来宝贵的数据,比如观众的兴趣,从而可以提高服务的使用率,并为他们代理的制造商提供真正有价值的反馈。观众还会看到更个性化的相关广告,这可改善他们的整体购物体验。交互式自助服务终端可以选择使用多种 ML 模型,用手势控制取代触摸屏,避免接触污染,观看下一个广告或者开心下单。

avml-intelligent-signage.png

动态裁剪与窗口创建

利用一台高分辨率摄影机创建多个窗口输出

比如我们正在本地大学直播一场有关艺术家作品的讨论。该活动预算很低,受众是小群体,因此制作成本会很低。通常会使用单个摄影机,通过偶尔的缩放和平移来捕捉整个讨论小组的信息。使用 ML 面部跟踪,可以通过一台静态 4K 摄影机捕捉整个讨论小组的情况,然后围绕每位讨论者自动创建超低分辨率和高清窗口输出并根据讨论情况进行跟踪。因此,从一台 4K 摄影机,可以在现场直播期间有四种不同的输出镜头,在广角与三个特写镜头之间切换。这可创造更多的视觉效果,无需架设任何额外的摄影机设备 — 摄影师可以成为视频混合操作员,只选择要传输的帧。

这种方法可以与各种 ML 跟踪模型一起应用于专业广播应用,如体育报道,或者在视频会议协作环境中自动跟踪多个与会者。

MakarenaLabs MuseBox

面向实时 AV 广播应用的机器学习系统

MuseBox 由 AMD 合作伙伴 MakarenaLabs 提供,是一款专门为专业 AV 及广播应用设计的实时机器学习系统。它可用于现场直播,满足交互式或实时应用需求,当您有大量文件要处理并且这些文件因法律原因不能在本地网络之外访问时,也可使用本地文件。该系统既可以基于 Zynq UltraScale+ MPSoC 实现多媒体和 ML 功能,也可以基于 AMD Alveo 加速卡以进行现场分析。MuseBox 支持面部及人员分析、对象检测以及音频分析等!

MakarenaLabs 具有丰富的机器学习经验,可为各种 AV 使用场景提供相应的库和产品。Mooseka 系统不仅可用于音频分析、识别与特性提取,而且还可用于其 MRadio 流媒体分析器中以自动识别音乐内容来实现版权保护、无线推广与市场营销分析。

avml-makarena-labs.png