深度学习网络(DNN)是一个大型网络,由一系列神经元组成,每一层神经元都是一个独立的计算单元。(Zhangetal.2020)神经元通过不同的权重和偏差进行连接,然后通过激活函数传递给下一层神经元。这样,DNN学习了新知识,学会了处理大量的图片和文本,并能完成图片的识别和分类,阅读和理解文本,等等。
然而,随着模型性能的不断优化,许多研究人员发现DNN模型在原始任务发生微小变化后会出现误判。最后,对抗的概念在2014年首次提出。在研究中,Szegedy等人(Szegedyetal.2014)发现,即使是当时用于图像分类的最先进的神经网络模型,在产生轻微扰动后,分类器也无法对输入图像样本进行正确分类,但扰动后的图像看起来与之前肉眼看到的图像没有什么不同。在论文中,Szegedy等人将受扰像素称为对策样本。贾和梁(2017)率先在文本处理任务中对抗攻击,他们的工作很快引起了自然语言处理研究者的注意。但是由于图像和文本数据的固有差异,对抗图像样本的方法不能直接用于文本数据,但从那以后,它们也在文本对抗领域提供了更多的角度和各种攻击方法和防御方法。
本文引用的论文都是研究英语句子和单词的。因此,本文中对抗的主要样例是基于英语句子的,不涉及汉语单词和句子的样例对抗。本文将从三个角度介绍不同类型的样本对策。
本文中,提出模型可以通过插入分散模型注意力的句子来回答错误答案,而人类可以正确回答这个问题。作者简单举了一个如图1所示的例子,因为作者加了一句话,就是蓝色的笔做了标记,导致原来健壮的系统答错了答案。作者主要是利用模型中能引起错误的句子与原段落之间的直接联系,使得模型误判。这里的蓝字是作者后面加的句子,让模型回答错了答案。作者使用的数据集是基于《小队》的,它是通过维基百科手工创建的问答数据集。班长作为质检系统的标杆,以问题和语境作为输入,预测正确答案。采用两个评价指标:完全匹配(EM)和F1。