我院韩亚洪教授课题组的研究生王慧云(研二)和宋小萌(研一)同学在“视频内容理解”和“视频问答推理”的研究中取得进展,她们分别撰写的两篇论文同时被多媒体领域顶级学术会议ACM Multimedia 2018录用(Full Research Paper,CCF-A)。
王慧云同学的论文"Spotting and Aggregating Salient Regions for Video Captioning"关注视频标题自动生成(Video Captioning),提出新的深度学习框架(如上图):由Spot Module对视频前景和背景进行分离,并区分“Hard Separation”和“Soft Separation”,从而学习到刻画不同区域信息的视频描述符,在提升性能的同时,也表现出了比较好的可解释性。
宋小萌同学的论文"Explore Multi-Step Reasoning in Video Question Answering"关注视频问答(Video QA)中的多步推理(Multi-Step Reasoning),在所构建的大规模数据集SVQA中,定义了有复杂结构的问题语言模板(如上图),使得生成的“问题-视频”需通过“多步(Multi-Step)推理”才能得到答案,论文提出新的问答推理学习机制,取得了优异性能。
本年度的ACM多媒体大会(ACM Multimedia 2018)将于2018年10月22日-26日在韩国首尔召开,两位同学将参会并介绍她们的论文。