学部17项研究成果被人工智能领域顶级学术会议AAAI-20录用-天津大学智能与计算学部

（通讯员刘远哲）近日，人工智能领域顶级学术会议AAAI-20论文录用名单出炉，我学部17篇论文被该会议录用。

AAAI-20的全称为The Thirty-Fourth AAAI Conference on Artificial Intelligence，由美国人工智能协会主办，被中国计算机学会（CCF）列为A类会议。此次会议总投稿量达7737篇，录用1591篇，录用率约为20.6%。

录用论文列表如下（按照论文首字母排序）：

录用论文简介：

题目：Collaborative Graph Convolutional Networks: Unsupervised learning Meets Semi-Supervised Learning

作者：惠彬原，朱鹏飞，胡清华

简介：图卷积神经网络最近在各种任务中都取得瞩目的进展，尤其在半监督节点分类和无监督图属性聚类的任务中。由于带标注样本数目有限，如何通过大量无标记样本增强模型的性能是机器学习领域的研究热点。本文提出了协同图卷积网络（CGCN），通过无监督学习和半监督学习的协同，可同时提升两种任务的性能。此外，当前属性图聚类模型将特征学习和聚类分别进行，未能利用好深度学习端到端的学习范式的优势，我们将高斯混合模型引入图卷积自编码器中，可以实现端到端的图属性节点聚类。实验结果表明我们提出的方法可大幅提升聚类和节点分类的性能。

题目：Complementary-View Multiple Human Tracking

作者：韩瑞泽，冯伟，赵洁文，牛梓成，张玉君，万亮

简介：基于视频的多目标跟踪（Multiple Object Tracking）是人工智能和计算机视觉领域的重要研究问题之一。多目标跟踪问题的重要意义是提供目标在一定时间域上的空间轨迹和外观细节两项特征，然而当相机距离目标较近时，很难记录目标的空间轨迹，而距离较远时，又很难捕获目标的外观细节。为了解决这个问题，我们首次提出了基于互补视角的多目标跟踪模型，同时利用顶式视角和平视视角相机完成对多目标的实时跟踪。该模型利用目标的空间分布及外观特征信息完成空间域上的跨视角数据关联，利用目标的外观相似度和运动一致性完成时间域上的跨时刻数据关联，通过时空域上数据关联联合优化完成多目标跨视角联合跟踪。我们还收集并公开了互补视角多目标联合跟踪视频数据集，该工作对多相机协同分析及视频监控领域的研究具有一定的原创性价值。

题目：Continuous Multiagent Control using Collective Behavior Entropy for Large-Scale Home Energy Management

作者：孙建文，郑岩，郝建业，孟昭鹏，刘杨

简介：智能电网系统中，为了有效降低群体能源消耗以及电网负载，急需一种有效的需求端能源管理（DSM）算法。而传统的DSM主要针对单智能体问题，无法有效解决多智能体场景下的能源管理问题。多智能体深度强化学习（MA-DRL）的研究，为多家庭协作，共同降低能耗与负载提供了可能。本文提出了一种针对连续动作空间的MA-DRL算法,实现了微电网环境中，大规模智能体的细粒度的控制。此外，为减轻微电网环境的不稳定性难题，提出了市场行为预测模型来衡量集体行为。同时，为解决由集体行为引起的高峰值负荷，本文引入了集体行为熵，对多智能体行为进行修正。经验结果表明，本文提出的方法在鲁棒性，群体电能功耗以及每日峰值负载三个方面明显优于既有的最新方法，一定程度上论证了算法的有效性。

题目：D2D-LSTM: LSTM-based Path Prediction of Content Diffusion Tree in Device-to-Device Social Networks

作者：张恒，王晓飞，陈佳雯，王晨阳，李建新

简介：为了减少网络流量拥塞并设计有效的缓存策略，我们需要探索内容在海量设备-设备(D2D)社交网络中的传播潜力。在本文中，我们提出了基于LSTM的D2D-LSTM，旨在预测海量数据规模下D2D社交网络中完整的内容传播路径。我们提出树状路径处理算法，将树状传输路径转换为链式路径进行分析和预测，预测结果仍能转回树状路径。不仅如此，我们还分析了文件的历史传输用户的时间、地理位置、内容偏好、时间偏好等特征，以此更加精确地对文件的未来传输路径进行预测。我们使用真实的90GB的D2D数据集进行学习和预测，数据集中共有4亿次用户交互，传输了1678万个文件，并对比了其他近期的相关算法。实验结果显示，D2D-LSTM达到一个较高的路径命中率，相较于其他算法来说有39.2%的准确率提升，并且传播终点的预测准确率高达95%。实验结果说明，在大规模线下内容分享网络中，D2D-LSTM不仅可以有效预测文件的未来传播潜在用户，而且可以有效地预测用户的传输路径和拓扑结构。

题目：Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression

作者：郑兆晖，王萍，刘伟，李锦泽，叶荣光，任冬伟

简介：目标检测的边界框回归过程对检测性能至关重要，目前广泛采用Ln范数的损失函数。一方面，Ln范数损失函数不利于优化评价度量IoU；另一方面，IoU损失函数和广义IoU损失函数却面临着收敛缓慢和回归准确性差的问题。为此，本文提出了直接最小化边界框中心点距离的DIoU损失函数，能够极大改善收敛缓慢的问题。进一步，本文总结了边界框匹配的几何因素：面积、中心点距离、长宽比，并基于此提出了CIoU损失函数，拥有更快的收敛性能和更高的回归准确性。结合多个目标检测算法，如YOLO v3、SSD、Faster R-CNN，DIoU和CIoU损失函数在PASCAL VOC和MS COCO等数据集的各项评价指标均得到了明显的性能提升。

题目：From Few to More: Large-scale Dynamic Multiagent Curriculum Learning

作者：王维埙，杨天培，刘勇，郝建业，郝晓田，胡裕靖，陈赢峰，范长杰，高阳

简介：虽然当前很多工作聚焦在如何在multiagent的环境中进行有效学习并实现协作。但是由于环境和agent之间的复杂动态性以及状态作用空间的指数爆炸，使得在大规模multiagent环境中进行学习仍然面临挑战。在本文中，我们设计了一种novel的动态多agent课程学习（DyMA-CL），以从小规模的multiagent场景开始学习并逐步增加agent数量来解决大规模问题。我们提出了跨课程的三种知识机制，以加快学习过程。而且，由于状态维度随课程的不同而变化，同时由于现有的网络由于其网络输入大小是固定的，所以无法应用于这种知识迁移的设定下。所以我们设计了一种novel的网络结构，称为动态agent数量网络（DyAN），以处理不同课程对于输入的动态变化。实验结果表明，与最先进的深度强化学习方法相比，使用DyAN的DyMA-CL大大提高了大规模multiagent学习的性能。我们还通过广泛的模拟（星际争霸二，MAgent）研究跨课程的三种转移机制的影响。

题目：Learning from Positive and Unlabeled Data without Explicit Estimation of Class Prior

作者：张晨光，侯越先，张燕

简介：样本集中仅存在正标记和未标记样本的学习问题（LPU）广泛存在于诸多实际应用中。因为负标记样本的缺失，经典学习方法不适用于此类学习问题。目前,针对该问题有两种主要的策略，包括提取最可能的负类样本和预估计类先验，都需要预处理步骤，而预处理步骤的存在使得学习效果严重依赖于若干超参的估计值。本文在Bhattacharyya系数的基础上提出了一种新的LPU学习策略。该策略将LPU学习问题形式化为统一的优化问题，不需要预处理步骤。具体地，我们首先证明了给定正类分布和正负类混合分布的情况下，可以通过最小化正类和负类之间Bhattacharyya系数来估计得到类先验。然后，我们展示了如何在受限玻尔兹曼机的隐式混合模型中使用这个结果来直接得到正类条件PDF和负类条件PDF，从而略过类先验等预处理步骤。相比已有方法，本文方法具有更高且更稳定的分类效果。真实数据集和合成数据集上的大量实验进一步证明了了该方法的优越性。

题目：Multi-Agent Game Abstraction via Graph Attention Neural Network

作者：刘勇，王维埙，胡裕靖，郝建业，陈兴国，高阳

简介：在大规模的多agent系统中，大量的agent和复杂的博弈关系给策略学习带来很大的困难。因此，简化学习过程是一个重要的研究课题。在许多multiagent系统中，agent之间的交互通常发生在局部，这意味着agent既不需要与所有其他agent协作，也不需要一直与其他agent协调。传统方法尝试使用预定义的规则来捕获agent之间的交互关系。但是，由于难以将agent之间的复杂交互转换成规则，因此这些方法无法直接在大规模环境中使用。在本文中，我们通过一个完整的图对agent之间的关系进行建模，并以一种基于两阶段attention网络（G2ANet）的novel的博弈抽象机制为目标，该机制可以指示两个agent之间是否存在交互以及交互的重要性。我们将这种检测机制集成到基于图神经网络的多agent强化学习中以进行博弈抽象，并提出了两种novel的学习算法GA-Comm和GA-AC。我们在“Traffic Junction”（交通路口）和“Predator-Pre“（捕食者-猎物）中进行实验。结果表明，与最新算法相比，该方法可以简化学习过程，同时具有更好的性能。

题目：Multi-Speaker Video Dialog with Frame-Level Temporal Localization

作者：王嫱，姜品，韩亚洪，Zhou Zhao

简介：现实生活中人类常通过多人对话或讨论的形式理解视频内容，这个过程需要对视频数据和对话文本数据进行跨媒体分析和推理。而且，发言人在短期内总是关注于视频中的一个片段，但准确提取视频相关片段在现实生活中却很困难。因此，本工作提出了一个帧级时序定位的多人视频对话任务（MSVD-TL），在预测对话中下一个应答的同时，定位与当前对话相关的视频片段。针对这一任务，本工作提出了一个新的多任务模型，并研究了多人视频对话过程的特点，利用视频、对话历史和待预测应答之间的相互关系来增强它们的表示，而且分别通过应答预测模块和帧级时序定位模块得到下一个应答以及帧级时序定位结果。我们也在相应的数据集上进行了实验分析，实验结果表明，MSVD-TL任务可以实现更好地模仿人类实现视频语义理解和推理，而且我们提出的方法也取得了很好的性能。

题目：Multi-Type Self-Attention Guided Degraded Saliency Detection

作者：周子淇，王征，卢湖川，孙美君

简介：显著性检测是计算机视觉领域内一项关键的预处理步骤，有利于提高计算机的数据处理效率。现有的显著性检测技术，大多对图像质量敏感，在失真图像上性能较差。本文系统地分析了基于多种失真场景的显著性检测研究现状，并提出了一种新颖的多类型self-attention网络MSANet，用于失真场景下的显著性检测。论文的主要贡献包括：1）基于注意力迁移学习理论构建“老师-学生”网络系统，老师网络指导学生网络的特征注意力分布，促进其感知隐藏在退化图像上的语义细节和内部特征； 2）提出多类型self-attention机制，以循环优化的方式计算全局和局部注意力得分。我们从不同角度求解当前位置在全局的比重，加权运算有效地抑制了噪声和冗余信息的干扰，并有利于更完整的边界提取。本文提议的MSANet直接以端到端的方式将低质量的输入转换为高质量的显著性二值图。在七个广泛使用的领域基准数据集展开的定性和定量实验证明，我们的方法能够同时在清晰和失真的图像上表现良好，即模型的稳定性更强，适用范围更加广泛。同时也为包含运动模糊的视频显著性检测提供了可行的研究方向。

题目：Neighborhood Cognition Consistent Multi-Agent Reinforcement Learning

作者：毛航宇, 刘武龙, 郝建业, 李栋, 张正超, 汪军, 罗军, 肖臻

简介：社会心理学和现实经验表明，“认知一致性 (Cognitive Consistency)”对于维持人类社会秩序起着重要作用：如果人们对环境的认知更加一致，他们就更有可能实现更好的合作。同时，只有邻居之间的认知一致性才重要，因为人类只与邻居直接交互。受这些观察的启发，我们第一次将邻域认知一致性 (Neighborhood Cognitive Consistency, NCC) 引入多智能体强化学习 (Multi-Agent Reinforcement Learning, MARL)。我们的NCC设计是相当通用的，它可以很容易地与现有的MARL方法结合：我们提出了邻域认知一致性深度Q-learning（NCC-Q）和邻域认知一致性深度Actor-Critic（NCC-AC）来促进大规模的多智能体合作。我们在一些具有挑战性的任务（例如，数据包路由、WiFi功率配置和Google football控制）上测试了提出的方法，大量实验证明了我们的方法比很多最新的MARL方法的性能更好。

题目：New Efficient Multi-Spike Learning for Fast Processing and Robust Learning

作者：李盛兰，于强

简介：脉冲神经网络被认为比传统的人工神经网络更具有生物合理性和低能耗性。脉冲神经网络使用离散的脉冲作为输入和输出，但是如何高效准确得处理这些离散的脉冲仍是一个具有挑战性的问题。此外，大多数现有的学习算法效率相对较低，这是因为其中包含了复杂的神经元动力学和学习过程。在本文中，我们首先提出一种简化而有效的脉冲神经元模型，同时采用基于事件驱动的计算方法来提高脉冲处理速度。基于此，我们提出了两种新的多脉冲学习算法。实验结果表明，我们的学习算法可以训练单个神经元成功执行多类别分类和特征提取等具有挑战性的认知任务。此外，我们也展示了提出的算法对各种强噪声的鲁棒性。同时，在一些分类任务上的实验结果也展示了我们的算法效率更高，突出了基于脉冲的信息处理方式的优势和潜力，并可进一步推动神经形态计算相关方向的发展及应用。

题目：On the Expressivity of ASK Queries in SPARQL

作者：张小旺, Jan Van den Bussche,章衡, 杨炫兴, 冯志勇

简介：SPARQL是知识图谱W3C标准查询语言，提供了四类查询：SELECT、CONSTRUCT、ASK和DESCRIBE。与一般SELECT查询返回解不同，ASK查询返回布尔值（真或假）。近年来，以SELECT为代表的SPARQL基础理论取得较大进展。然而，归咎于ASK基础理论刻画SPARQL的复杂问题，目前鲜有ASK基础理论研究工作。在这项工作中，我们开始尝试研究ASK查询的表达能力（即，布尔表达性），并完整地刻画了SPARQL1.0标准的核心语言（由AND、OPT、UNION、FILTER构子）以及这些子语言与SPARQL1.1标准中三类否定构子（Negation）：DIFF_F、DIFF和MINUS结合的子语言（共64个子语言）构成的哈斯图。相比我们之前研究的SELECT查询表达性和SPARQL可满足性，这项工作中，我们需要考虑子语言之间更细微的表达差异性（如DIFF和MINUS差异极其细微）。这项工作研究结果将有助于为SELECT查询提供优化理论基础，进一步完善SPARQL理论体系（注：牛津大学团队近年来在CONSTRUCT查询基础理论取得进展）。

题目：Reasoning with Heterogeneous Graph Alignment for Video Question Answering

作者：姜品，韩亚洪

简介：视频问答（VideoQA）任务的目标是理解视频内容并回答自然语言问题，自动问答过程需要模型基于学习到的“视频-文本”隐含关联进行跨媒体推理。现有的大多数模型往往使用独立的视频编码和文本问题编码模块分别建模视觉内容和文本内容，然后通过滞后的融合模块汇总多模态的信息，然而缺乏能够同步处理模态间（Inter-modality）和模态内（Intra-modality）信息关联的统一框架。本文将视频问答建模为异构图推理任务，将视频的子片段和问题的单词统一地表示为异构图中的节点，并提出了一种深度异构图对齐网络进行多模态节点之间的交互和推理。此外，本文从表示、融合、对齐和推理四个部分探索了模型结构，提出了不同的多模态协同注意力机制和基于模态特征的图对齐策略。最后，本文在三个公开数据集上对模型进行了验证，结果表明我们的模型显著提升了视频问答的性能。

题目：Topic Enhanced Sentiment Spreading Model in Social Networks Considering User Interest

作者：王晓宝，金弟，Katarzyna Musial

简介：情绪是一种复杂的感情状态，它会影响我们生理和心理从而导致行为变化。在基于文本的社交网络中，情绪的传播过程被称为情感传播。本文研究了一个在社交网络中情感传播的有趣问题。特别是，以基于文本的社交网络（Twitter）为研究基础，我们试图探究用户情感状态与嵌入在Twitter中的话题分布之间的相关性，继而自动学习链接用户之间的影响力。此外，我们引入用户兴趣来强化影响强度。我们提出了一个概率框架，将问题形式化为一个主题增强的情绪传播模型。该模型能够根据用户的历史情感状态、历史推文中的话题分布和社交结构预测用户的未来情绪状态。在Twitter数据集上的实验表明，该模型在预测用户情感状态方面明显优于其他几种方法。我们还发现了一个有趣的现象，即相比于正面情感，负面情感与用户兴趣更相关，而中性情感几乎与用户兴趣无关。本研究为理解在线社交网络中情感传播的潜在机制提供了一个新的方向。

题目：Towards Universal Languages for Tractable Ontology Mediated Query Answering

作者：章衡，Yan Zhang，Jia-Huai You，冯志勇，姜桂飞

简介：基于本体的查询应答（Ontology Mediated Query Answering，简称OMQA）是在大数据环境中进行知识推理的一种重要技术，是目前知识表示与推理及数据库领域的主流研究方向。在该方向的已有研究工作中，曾有大量本体描述语言先后被提出。这些语言通常有其各自适用的应用领域，但为每种语言实现相应的查询应答系统并不现实。因此，该方向的一个重要公开问题为：是否存在关于易处理（Tractable）OMQA的通用本体描述语言。在本工作中，我们严格证明了这样的通用语言不存在。作为挽救措施，我们也提出了一个有趣的模型论性质，并证明对于满足该性质的OMQA，通用语言总是存在的。这些结论对进一步寻找合适的OMQA本体描述语言具有重要的指导意义。

题目：Working Memory-Driven Neural Networks with a Novel Knowledge Enhancement Paradigm for Implicit Discourse Relation Recognition

作者：郭凤羽，贺瑞芳，王建

简介：隐式篇章关系识别（Implicit Discourse Relation Recognition）任务旨在推断同一篇章内相邻的文本片段之间的语义连接关系，如时序、因果、比较关系等。现有的大多数研究主要聚焦于篇章内部文本特征挖掘，忽略了篇章之外的关联信息。此外，受到认知心理学和语言学理论的启发：在言语习得或阅读理解过程中，大脑会启动瞬时记忆保存所关注的文本核心信息，同时唤醒长期记忆中相关的各种信息，两者协作以更好理解文本的语义。为此，我们提出了一种知识增强的注意力神经网络模型（KANN）。该模型模拟了篇章理解过程中大脑的工作记忆策略：1) 利用注意力机制建模篇章论元的重要信息及其相关的关联特征，作为瞬时记忆；2) 从外部资源中检索相关知识，作为长期记忆。同时，设计了一个新颖的知识增强范式，并具体采用隐式和显式两种形式引入外部知识以增强篇章论元的语义理解，从而促进隐式篇章关系的识别。实验结果表明了我们模型的有效性。

据悉，AAAI-20将于2020年2月7日至12日在美国纽约举行。

学部简介

现任领导

机构设置

校园地图

杰出人才

师资名单

科研团队

科研基地

科研成果

本科生教育

研究生教育

继续教育

高端培训

党建工作

学生工作

合作项目

留学生工作

校友风采

校友动态

学部17项研究成果被人工智能领域顶级学术会议AAAI-20录用

联系我们

友情链接