微软的人工智能会自动对视频剪辑进行评论

导读使用人工智能生成实时视频字幕可以提高社交媒体的参与度，或者作为视频文本翻译任务的基准。由于这个原因，编码器-解码器模型被用来生成注

使用人工智能生成实时视频字幕可以提高社交媒体的参与度，或者作为视频文本翻译任务的基准。由于这个原因，编码器-解码器模型被用来生成注释，但是它们没有显式地建模视频和注释之间的交互，因此它们倾向于生成不相关的注释。

这就是为什么微软亚洲研究院和哈尔滨工业大学的一组研究人员在Arxiv.org发表的一篇预印论文中提出了一项新技术。他们的模型不断学习捕捉评论、视频和音频中的表示，他们说它比实验中最先进的方法表现得更好。

系统的代码可以在Github上找到，它将最相关的评论与候选集中的视频进行匹配，这样就可以共同学习跨模态表示。它基于谷歌的转换器架构。像所有的神经网络一样，它包含分层排列的功能(神经元)，从数据中传输信号，并缓慢调整连接的强度(权重)。唯一的是转换器有注意力，这意味着每个输出元素都连接到每个输入元素，它们之间的权重是动态计算的。

具体来说，自动实时评论系统由三部分组成：将不同模式的视频和候选评论转换到矢量编码器层。数学表示)；学习每个模态的表示的匹配层；并且预测层输出用于测量视频剪辑和评论之间的匹配度的分数。给定视频和时间戳，该模型的目标是从候选集中选择一个注释，该注释基于周围的注释、视觉部分和音频部分，并且与时间戳附近的视频剪辑最相关。注释是在时间戳附近提取的。对于可视位，系统对时间戳附近的视频帧进行采样。

研究人员在包含2361个视频和895929条评论的视频评论数据集上对该系统进行了评估，这些评论来自中国视频流媒体平台哔哩哔哩。他们构建了一个候选评论集，其中每个视频片段包含100条评论，包括基本事实评论、前20条热门评论和随机选择的评论。

据该团队称，该模型在几个方面优于几个基线，包括相关性和正确性。比如在一个以唐团为主角的视频片段中，准确的在视频片段的关键点对唐团进行了点评。研究者写道：“我们认为多模态预训练将是一个很有前景的探索方向，其中图像字幕、视频字幕等任务将受益于预训练模型。”“在未来的研究中，我们将进一步研究现实世界中视觉、听觉和文本的多模态交互。”

免责声明：本文由用户上传，如有侵权请联系删除！

标签：

微软的人工智能会自动对视频剪辑进行评论

猜你喜欢

最新文章