面向对抗样本的深度神经网络可解释性分析

引用本文
董胤蓬, 苏航, 朱军. 面向对抗样本的深度神经网络可解释性分析.
自动化学报, 2022,
Dong Yin-Peng, Su Hang, Zhu Jun.
Interpretability analysis of deep neural networks with adversarial
examples. Acta Automatica Sinica, 2022,
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200317?viewType=HTML
文章简介
关键词
深度神经网络, 可解释性, 对抗样本, 视觉特征表示
摘
虽然深度神经网络 (Deep neural networks, DNNs) 在许多任务上取得了显著的效果, 但是由于其可解释性 (Interpretability) 较差, 通常被当做“黑盒”模型. 本文针对图像分类任务, 利用对抗样本 (Adversarial examples) 从模型失败的角度检验深度神经网络内部的特征表示. 通过分析, 发现深度神经网络学习到的特征表示与人类所理解的语义概念之间存在着不一致性. 这使得理解和解释深度神经网络内部的特征变得十分困难. 为了实现可解释的深度神经网络, 使其中的神经元具有更加明确的语义内涵, 本文提出了加入特征表示一致性损失的对抗训练方式. 实验结果表明该训练方式可以使深度神经网络内部的特征表示与人类所理解的语义概念更加一致.
引
深度神经网络(Deep neural networks, DNNs)由于在语音识别、图像分类、自然语言处理等诸多领域取得了很好的效果, 近年来获得了人们的广泛关注. 但是由于缺乏对其内部工作机理的理解与分析, 深度神经网络通常被看作“黑盒”模型, 导致用户只能观察模型的预测结果, 而不能了解模型产生决策的原因. 深度神经网络的不可解释性也会极大地限制其发展与应用. 例如, 在诸如医疗、自动驾驶等许多实际的应用场景中, 仅仅向用户提供最终的预测结果而不解释其原因并不能够满足用户的需求. 用户需要获取模型产生决策的原因来理解、认可、信任一个模型, 并在模型出错时修复模型的问题. 因此, 研究提升模型可解释性的学习算法、使用户可以理解信任模型、并与模型进行交互变得至关重要.
近些年来, 有很多的方法尝试去解决深度神经网络的可解释性问题. 例如, 一个模型对于图像的分类结果可以归因于图像的关键性区域或者其他类似图像. 同时, 一系列的工作研究如何可视化深度神经网络内部神经元学习到的特征. 但是这些方法存在以下几个问题: 1)它们通常是在模型训练结束后进行解释, 并不能在训练的过程中约束其学习到一个可解释的模型; 2)它们仅仅关注模型对于正常样本的预测进行解释与分析, 而忽视了模型在现实场景中可能遇到的对抗样本(Adversarial examples); 3)它们并没有解释模型发生错误的原因, 也不能让用户针对性地修复模型的问题.
本文针对图像分类任务, 利用对抗样本检验深度神经网络的内部特征表示. 对抗样本是指攻击者通过向真实样本(Real examples)中添加微小的、人眼不可察觉的扰动, 导致模型发生预测错误的样本. 真实样本和对抗样本可以从正反两方面研究深度神经网络的行为, 既可以通过真实样本分析模型产生正确预测的原因, 同时也可以通过对抗样本分析模型发生错误的原因, 以深入探究深度神经网络的运行机制. 虽然利用模型预测错误的真实样本分析其产生错误的原因也是一种可行的方法, 但是真实样本中发生的错误往往是比较小的错误, 相比于对抗样本的预测错误可以忽略不计. 例如, 模型可能会将一个真实的公交车图片错分为客车, 这种错误可以被接受; 然而如果模型将一个对抗的公交车图片错分为飞机, 则不能够被我们所接受. 通过将对抗样本与真实样本输入到深度神经网络中并检验其特征表示, 我们发现深度神经网络内部学习到的特征表示与人类所理解的语义概念之间存在着极大的不一致性. 如图1所示, 神经元学习到的特征通常用对其产生强响应的样本所表示. 当只使用真实样本时, 神经元会检测某种语义概念. 但是会存在其他的样本 (例如蓝色圆圈标记的对抗样本) 也对神经元产生很强的响应, 尽管这些样本的语义概念十分不一致. 这使得神经元学习得到的特征难以解释.

图
基于以上的分析, 本文进一步提出了加入特征表示一致性损失的对抗训练方式(Adversarial training with a consistent loss), 其目标是在模型的训练过程中学习到人类可解释的特征表示. 通过加入对抗样本与真实样本特征表示的距离作为一致性损失函数训练深度神经网络, 可以使网络在特征层面上消除掉对抗噪声的干扰, 使其对于对抗样本的特征表示与真实样本的特征表示尽量接近. 如图1所示, 对于深度神经网络内部的某个神经元, 如果该神经元检测到的特征与人类所理解的语义概念不一致时, 意味着会存在蓝色圆圈标记的对抗样本对其产生很强的响应. 然而这些对抗样本所对应的真实样本并不会对其产生很强的响应, 这就导致了一致性损失很大. 通过加入特征表示一致性的损失函数, 可以使得该神经元学习到的特征与人类所理解的某个语义概念相关联(如虚线所示). 这个过程最终会使得深度神经网络内部的神经元学习到可以抵抗对抗噪声干扰的特征, 从而在某个语义概念出现时产生响应、不出现时不产生响应. 因此该方法可以提升深度神经网络的可解释性. 实验结果表明在一些可解释性度量标准下, 该训练方式可以使深度神经网络内部的特征表示与人类所理解的语义概念更加一致, 得到可解释性更好的深度神经网络.
本文的主要贡献有: 1)提出利用对抗样本分析深度神经网络的可解释性, 并发现神经元学习到的特征表示与人类所理解的语义概念之间存在不一致性; 2)提出了加入特征表示一致性损失的对抗训练方式, 可以极大地促进深度神经网络的可解释性.

图

图
作者简介
董胤蓬
清华大学计算机科学与技术系博士研究生. 主要研究方向为机器学习, 深度学习的可解释性与鲁棒性.
E-mail: dyp17@mails.tsinghua.edu.cn
苏
清华大学计算机系副研究员. 主要研究方向为鲁棒、可解释人工智能基础理论及其视觉应用.
E-mail: suhangss@mail.tsinghua.edu.cn
朱
清华大学计算机系教授. 主要研究方向为机器学习. 本文通信作者.
E-mail: cszj@mail.tsinghua.edu.cn
相关文章
[1]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170535?viewType=HTML
[2]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180789?viewType=HTML
[3]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180564?viewType=HTML
[4]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190433?viewType=HTML
[5]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200551?viewType=HTML
[6]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200286?viewType=HTML
[7]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c201077?viewType=HTML
[8]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200554?viewType=HTML
[9]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200402?viewType=HTML
[10]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210089?viewType=HTML
[11]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200100?viewType=HTML
[12]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180554?viewType=HTML
[13]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170001?viewType=HTML
[14]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c160629?viewType=HTML
[15]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c150719?viewType=HTML
[16]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150726?viewType=HTML
[17]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2011.00737?viewType=HTML
[18]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2010.00931?viewType=HTML
[19]
http://www.aas.net.cn/cn/article/doi/10.1360/aas-007-1247?viewType=HTML
[20]
http://www.aas.net.cn/cn/article/id/15937?viewType=HTML
[21]
http://www.aas.net.cn/cn/article/id/16462?viewType=HTML
[22]
http://www.aas.net.cn/cn/article/id/16620?viewType=HTML
[23]
http://www.aas.net.cn/cn/article/id/14101?viewType=HTML