微软的人工智能会自动对视频剪辑进行评论
使用人工智能生成实时视频字幕可以提高社交媒体的参与度,或者作为视频文本翻译任务的基准。由于这个原因,编码器-解码器模型被用来生成注释,但是它们没有显式地建模视频和注释之间的交互,因此它们倾向于生成不相关的注释。
这就是为什么微软亚洲研究院和哈尔滨工业大学的一组研究人员在Arxiv.org发表的一篇预印论文中提出了一项新技术。他们的模型不断学习捕捉评论、视频和音频中的表示,他们说它比实验中最先进的方法表现得更好。
系统的代码可以在Github上找到,它将最相关的评论与候选集中的视频进行匹配,这样就可以共同学习跨模态表示。它基于谷歌的转换器架构。像所有的神经网络一样,它包含分层排列的功能(神经元),从数据中传输信号,并缓慢调整连接的强度(权重)。唯一的是转换器有注意力,这意味着每个输出元素都连接到每个输入元素,它们之间的权重是动态计算的。
具体来说,自动实时评论系统由三部分组成:将不同模式的视频和候选评论转换到矢量编码器层。数学表示);学习每个模态的表示的匹配层;并且预测层输出用于测量视频剪辑和评论之间的匹配度的分数。给定视频和时间戳,该模型的目标是从候选集中选择一个注释,该注释基于周围的注释、视觉部分和音频部分,并且与时间戳附近的视频剪辑最相关。注释是在时间戳附近提取的。对于可视位,系统对时间戳附近的视频帧进行采样。
研究人员在包含2361个视频和895929条评论的视频评论数据集上对该系统进行了评估,这些评论来自中国视频流媒体平台哔哩哔哩。他们构建了一个候选评论集,其中每个视频片段包含100条评论,包括基本事实评论、前20条热门评论和随机选择的评论。
据该团队称,该模型在几个方面优于几个基线,包括相关性和正确性。比如在一个以唐团为主角的视频片段中,准确的在视频片段的关键点对唐团进行了点评。研究者写道:“我们认为多模态预训练将是一个很有前景的探索方向,其中图像字幕、视频字幕等任务将受益于预训练模型。”“在未来的研究中,我们将进一步研究现实世界中视觉、听觉和文本的多模态交互。”