讲座主题:
Towards Verifying Neural Networks Against Backdoor Attacks
主讲人姓名及介绍:
孙军是新加坡管理大学的副教授。于2002年和2006年获得新加坡国立大学计算机科学学士学位和博士学位。于2007年,获得了享有盛名的LEE KUAN YEW博士后奖学金。研究方向包括软件工程,形式方法,程序分析和网络安全。
报告摘要:
最近,神经网络在解决许多问题方面取得了最先进的性能,包括许多与安全关键系统相关的问题,例如自动驾驶汽车和人脸识别系统。研究人员还发现了与神经网络相关的多个安全问题。其中之一是后门攻击,即神经网络可能嵌入后门,以便几乎总是在存在触发器的情况下生成目标输出。现有的防御方法主要侧重于基于启发式(例如,基于激活模式)检测神经网络是否被“后门”。据我们所知,唯一证明没有后门的工作是基于随机平滑的统计方法。在这项工作中,我们提出了一种方法来验证给定网络在一组选定的输入和目标标签方面没有后门。我们的方法建立在抽象的解释之上。我们进一步展示了如何验证不存在与一定成功率相关的实际后门攻击。我们进行了多次实验来评估我们的方法。实验结果表明,我们的方法可以有效地验证后门不存在,并且能够生成后门触发器(有时甚至对于未被攻击的神经网络)。