视觉常识推理(Visual Commonsense Reasoning, VCR)基于视觉内容对自然语言问题进行自动回答,并对答案的证据(Rational)或解释(Explanation)进行推理(如图1所示),VCR在一定程度上需要视觉学习和推理算法实现从识别(Recognition)到认知(Cognition)的跨越,是人工智能领域的前沿热点问题,属于国务院“新一代人工智能发展规划”中五大智能技术新方向中的“跨媒体智能”。
图1视觉常识推理(Visual Commonsense Reasoning)
如图2所示,于2013年发表于《Science》的论文对神经科学中“从大脑网络连接到认知”进行的研究表明,大脑功能和认知过程可以看作是对大脑局部神经元连接(Connectivity)结构进行全局和动态集成的生理过程,这种全局或动态集成的过程特定于当前的认知任务。
图2大脑神经元的链接(Connectivity)机制
(H. Park and K. Friston. Structural and functional brain networks: from connections to cognition.Science, 342(6158):1238411, 2013.)
在以上研究的启发下,我学部韩亚洪教授的博士生武阿明同学提出新的视觉神经元组织和量化模型GraphVLAD,对图像中的局部视觉神经元结构的动态集成过程进行建模和学习,使其对特定视觉问答任务上下文敏感(Context Sensitive)。同时,受人类认知过程存在方向性(Direction)这一特性的启发,提出“有向图卷积网络”(Directional Graph Convolution Network),对推理过程中的特定方向进行学习。最终,论文提出“连接认知网络(Connective Cognition Network, CCN)”(如图3所示),在视觉常识推理中取得好的性能。该研究撰写的论文被NeurIPS 2019录用,论文信息如下:
● Aming Wu, Yahong Han, Linchao Zhu, Yi Yang. Connective Cognition Network for Directional Visual Commonsense Reasoning, NeurIPS 2019 (Accepted).
图3连接认知网络(Connective Cognition Network, CCN)
以上研究工作是天津大学智能与计算学部博士生武阿明同学(导师:韩亚洪教授)在悉尼科技大学(UTS)杨易教授(Prof. Yi Yang)课题组交流期间完成,该访问交流得到了天津大学研究生院留学基金的资助。(图文来源 韩亚洪)