我院韩亚洪老师实验室的研究生在视频语义理解中“Video to Language”的研究中取得进展和突破:硕士研究生杨子伟同学以第一作者撰写的论文“Catching the Temporal Regions-of-Interest for Video Captioning”被ACM Multimedia 2017(CCF-A,多媒体领域顶级学术会议)录用为Full Paper with Oral Presentation(长文大会宣读,7.5%的录用率:50 of 675 submissions),这是天津大学计算机学院的研究生首次以第一作者在ACM Multimedia上发表Full (Oral) Paper;同时由于该论文所有作者均来自天津大学,这也是天津大学独立完成的第一篇ACM Multimedia长文(Oral Paper)。在论文双盲评审中,三个审稿人中有两位对该论文给出了“Strong Accept”和“Recommend to be a candidate for Best Paper Award”的正面评价。
Video-to-Language,即计算机自动为视频内容生成自然语言的语义描述(或称作Video Captioning)是当前人工智能、多媒体和计算机视觉等领域的研究热点,也引起了业界的广泛关注。微软亚洲研究院(MSRA)于2016年发布了大规模“Video to Text”的数据集MSR-VTT,并在ACM Multimedia 2016大会组织了首届MSR Video to Language Challenge。今年,MSRA扩充了MSR-VTT,并在ACM Multimedia 2017上组织了第二届MSR Video to Language Challenge。韩亚洪老师实验室的硕士研究生杨子伟同学作为队长,许有疆、王慧云、王博等硕士生同学作为队员组成的“TJU_Media”代表队在2017年MSR Video to Language Challenge中M1和M2值分别排在第二名和第三名。
ACM Multimedia是ACM SIGMM的Flagship Conference,是多媒体领域的顶级学术会议,中国计算机学会推荐A类学术会议。今年是ACM Multimedia大会的25周年,将于2017年10月23日-27日在美国加州硅谷附近的Mountain View召开,韩亚洪老师实验室将在本次会议上宣读论文和进行学术交流。