以标题搜视频?智能视频检索将更“强悍”

Time: 2020-10-15  admin    

        视频监控在我们的生活中越来越常见,大街上抬头就是随处可见的监控摄像头,有很多人的家里也安装了摄像头,昼夜不停地监视和录像。然而,有了这些录制的视频,不等于就可以让目标信息一目了然,查找视频、分析视频的工作常常会耗用大量的时间和人力,如何才能在海量视频中更精准、更方便、更省力地检索到目标信息呢?

        近日,北京邮电大学先进信息网络北京实验室创新性的提出一种基于随机游走规则图卷积神经网络的视频-文本检索算法,首次实现了视频中物体间的交互关系建模,极大地提高了检索精确度,同时也为后续视频-文本检索算法研究提供了新的视角,为今后新闻视频智能剪辑、影视智能点播等应用的实现奠定了坚实的基础。

        随着数字技术和网络技术的飞速发展,视频信息的飞快增长,电视、电影等需要保存的视频素材也越来越多,对这些多媒体资料的存储、管理和再利用变得非常困难。

        以往通用的视频检索系统是根据视频标题作为依据进行相似度比对,经过排序得到视频检索结果,大量的视频信息不仅费时费力,而且精确度差,同时还需要大量的人力进行标注。

        基于随机游走规则图卷积神经网络的视频-文本检索算法,是在视频内容理解的基础上,支持给定描述语句检索符合其内容表述的视频,或者将视频作为查询输入获得刻画其内容的文本,能够有效减少多媒体数据库管理上的人力劳动,实现智能检索。  

图片关键词 

可视化分析图

        传统的视频-文本检索模型主要基于视频帧的特征,缺乏了对视频中出现物体细粒度的挖掘。为此,该实验室研发团队成员将视频中的物体作为图节点,交互关系作为图边,构建出图模型,为解决物体间的交互关系表征这一难题,团队还利用谱图分析中的图拉普拉斯变换,结合图卷积神经网络在谱域捕捉了物体间的交互关系,并通过严谨的理论推导,实现了随机游走规则与图卷积神经网络的有机结合,解决了不同密切程度的交互关系在嵌入空间的向量表示问题。

        团队提出的基于随机游走规则图卷积神经网络的视频-文本检索算法,从物体级别的特征表示入手,重点建模物体间的关联和关系表征,有效提高了视频和文本两个不同模态之间的匹配一致性。在公开的MSR-VTT和MSVD数据集上综合召回率指标分别为151.1和257.8,性能表现均达到了最高水平,极大推动了视频-文本检索的相关应用在未来的实际落地。该研究成果已发表在人工智能领域顶级学术会议IJCAI 2020。


分享:
Bjsyslm@163.com

北京实验室联盟丨工作联系邮箱

北京实验室联盟 版权所有 @2019 本站的内容若涉及版权问题,请及时通知我们,我们将立即予以删除!

京ICP备18059187号-2

京ICP备18059187号-2