多层次数据增强的半监督中文情感分析方法.docx
- 文档编号:23039742
- 上传时间:2023-04-30
- 格式:DOCX
- 页数:19
- 大小:117.46KB
多层次数据增强的半监督中文情感分析方法.docx
《多层次数据增强的半监督中文情感分析方法.docx》由会员分享,可在线阅读,更多相关《多层次数据增强的半监督中文情感分析方法.docx(19页珍藏版)》请在冰豆网上搜索。
多层次数据增强的半监督中文情感分析方法
多层次数据增强的半监督中文情感分析方法*
刘彤1,刘琛1,倪维健1
1(山东科技大学计算机科学与工程学院山东266590)
摘要:
[目的]针对在自然语言处理领域中高质量的标签数据较难获取的问题,本文设计了基于多层次数据增强的半监督中文情感分析方法。
[方法]采用简单数据增强和反向翻译的文本增强技术获取大量无标签数据,通过对无标签数据计算一致性正则来提取无标签数据的数据信号;对弱增强数据计算其预判标签,将强增强数据与预判标签一起构建监督训练信号,通过置信度阈值过滤使模型得出置信度高的预测结果。
[结果]在三个公开情感分析数据集上进行实验,在waimai和weibo数据集上仅使用1000条有标签文档就可以分别获得超过BERT2.3%和6.1%的性能提升。
[局限]实验均在公开通用语料上进行实验,未尝试在垂直领域数据集上的效果。
[结论]本文所提方法充分挖掘了无标签数据的信息,可以缓解标签数据不易获取的问题,同时具有较强的预测稳定性。
关键词:
情感分析;半监督学习;一致性正则;数据增强分类号:
TP393,G250
DOI:
10.11925/infotech.2096-3467.2020.1170.
Asemi-supervisedChinesesentimentanalysismethodbasedonmulti-leveldataaugmentation*
LiuTong1,LiuChen1,NiWeijian1
1(DepartmentofComputerScienceandEngineering,ShandongUniversityofScienceandTechnology,Shandong266590,China)
Abstract:
[Objective]Inviewofthedifficultyinobtaininghigh-qualitylabeleddatainthefieldofnaturallanguageprocessing,thispaperdesignesasemi-supervisedChinesesentimentanalysismethodbasedonmulti-leveldataaugumentation.[Methods]Alargenumberofunlabeledsampleswereobtainedbysimpledataenhancementandreversetranslationtextenhancementtechniques,andthedatasignalsofunlabeledsamplesareextractedbycalculatingtheconsistencynormforunlabeledsamples;Thepseudo-labeloftheweaklyenhancedsamplewascalculated,thesupervisedtrainingsignalisconstructedfromthestronglyenhancedsampletogetherwiththepseudo-label,andthemodelisfilteredbyconfidencethresholdtomakethemodleproducepredictionresultswithhighconfiendce.[Results]Experimentsareconductedonthreepubliclyavailbalesentimentanalysisdatasets,andresultsshowthatusingonly1000labeleddocumentsonthewaimaiandweibodatasetscanachieveaperformanceimprovementoverBERT2.3%and6.1%respectively.[Limitation]Theexperimentswereallcarriedoutonthepublicgeneralcorpus,andtheeffectwasonverticaldomaindatasetswasnotattempted.[Conclusion]Theproposedmethodinthispaperfullyexploitstheinformationofunlabeledsamples,whichcanalleviatetheproblemthatlabeleddataisnoteasilyaccessible,andhasstrongpredictivestability.
Keywords:
SentimentAnalysis;Semi-supervisedLearning;ConsistencyRegularity;DataAugmentation
引言
通信作者:
倪维健,ORCID:
0000-0002-7924-7350,niweijian@
*本文系国家自然科学基金资助项目(项目编号:
71704096,61602278);青岛社科规划项目(项
目编号:
QDSKL2001117)研究成果之一。
随着深度学习技术的飞速发展,机器翻译[1]、文本分类[2]、情感分析[3]、命名实体识别[4]等大多数NLP(NaturalLanguageProcessing,NLP)任务在监督学习框架下取得了良好效果。
然而,监督学习依赖大规模高质量的人工标签,获取大量高质量的标签数据往往成本高昂,尤其在NLP领域,文本标注需要耗费大量成本,并严重依赖领域专家的专业知识。
对标签数据的强烈依赖很大程度上阻碍了深度学习模型的应用,是监督学习的一大瓶颈。
相比之下,获取无标签的数据在许多任务中是容易且廉价的。
多数先进的半监督学习研究主要着眼于图像领域,在NLP领域的研究不足。
近两年,Xie[5]和Jiaao[6]等人提出比较先进的研究方法将半监督学习应用于文本分类任务,但是它们都针对英文语料,半监督学习方式在中文语料的情感分析任务上仍然是缺乏的。
针对这一问题,本文从引入正则项方面入手,提出了一种应用于中文的多层次数据增强的半监督情感分析方法(Asemi-supervisedChinesesentimentanalysismethodbasedonmulti-leveldataaugmentation,SA-MLA)。
SA-MLA方法分别在无标签数据上使用(EasyDataAugmentation,EDA[7])增强技术获得弱增强文档,使用反向翻译[8]技术得到强增强文档;强增强文档与原始文档构建一致性正则;对弱增强文档进行预判标签预测并通过置信度过滤的方法达到低熵预测,将预判标签作为强增强文档的标签构建监督学习目标;对于有标签文档,我们使用交叉熵损失函数构建有监督学习目标,SA-MLA框架同时学习上述三个学习目标,与现有的效果较好的有监督方法和半监督方法相比,本文所提方法在三个公开的中文情感分析任务上均达到目前的最好效果,并且在Waimai和Weibo数据集上使用1000条有标签文档就超过了完全有监督的方法。
1相关工作
1.1半监督学习
半监督学习[9]是一种利用少量标签数据训练机器学习模型的有效方法,能够在很大程度上缓解需要大规模标签数据的问题。
它的核心目标是,希望通过领域专家的少量标签数据,结合大量无标签数据,训练一个具有很强鲁棒性的模型。
在许多最近的半监督学习方法中,都通过引入一个损失函数正则项来利用并约束无标签数据,这使得模型可以更好的适应大规模的无标签数据。
常用的正则项有两种:
1)一致性正则[10]。
一致性正则是最近大多数先进的半监督学习算法很重要的组成部分,它鼓励模型在输入一些干扰或噪音时,模型仍然可以产生相同的输出分布。
2)熵最小化[11]。
它鼓励模型在无标签数据上输出置信度高的预测,一个常见的假设是,分类器的决策边界不应该通过边缘数据分布的高密度区域。
Lee等[12]设计了一个简单有效的方法,运用训练的模型对无标签数据进行预判标签预测,将无标签数据及其预判标签作为有标签数据继续训练模型,使用交叉熵损失函数来评估误差的大小,其引入一个退火因子,避免模型陷入局部最小值,平衡有标签数据和无标签数据,使预判标签更加接近真实标签。
但是其并没有对无标签数据的预测做任何限制,导致模型对于类别相似的数据无法得出准确的预测。
本文在预判标签预测过程中,对置信度设置阈值过滤掉置信度低的数据,解决了上述问题。
Samuli等[13]提出的πModel和TemporalEnsemblingModel利用一致性正则从无标签数据中提取训练信号,其认为即使输入数据发生轻微变化,模型仍可以保持相同的输出。
该方法在训练阶段进行两次前向运算,包含一次随机增强的变化以及模型一次正常的前向传播。
该模型证明,一致性正则可以带来
直观的效果提升,并提升模型的鲁棒性,基于此,SA-MLA不仅对原始数据与增强数据构建一致性正则,还在两种增强数据之间构建一致性正则,增加了模型的抗干扰能力。
Miyato[14]采用对抗学习的方式生成噪声,通过使用噪声数据的分布去拟合原始的数据分布,让模型拥有较强的抗干扰能力。
但是模型对于相似数据的判断能力不够强。
基于此SA-MLA引入熵最小化思想,拉大不同数据间的概率分布,证明了引入一致性正则和熵最小化思想可以从无标签数据中提取丰富的信息以提升模型的泛化能力。
David等[15]提出的MixMatch融合了多种半监督学习技术,包括一致性正则、预判标签、熵最小思想等,将经过K种数据增强的无标签数据进行预测取平均结果,最后对K次平均结果进行锐化操作,达到熵最小的目的。
SA-MLA通过反向翻译和EDA两种增强技术,提升数据丰富性的同时保证了文本语义信息的完整性。
通过对上述工作梳理,我们可以看到在图像领域,一致性正则,预判标签,熵最小三种思想常常被用于解决半监督问题,并且取得良好的效果,证明了这三种思想在解决半监督问题上的有效性。
受启发于图像领域的研究,我们希望可以将这三种思想应用于NLP领域,解决NLP问题中标签数据稀缺的问题。
1.2文本半监督学习
由于在NLP领域高质量有标签文档极难获取,尤其在垂直领域中,标注文档的难度大幅提升,往往需要依靠行业专家的专业知识来确保人工标签的准确,所以研究者们开始研究将半监督学习技术应用于NLP领域。
在图像领域中,大多数效果良好的研究方法都依靠于数据增强技术,在NLP领域中,文本增强方法通常针对有标签文档,在少数据的场景下有标签文档增强技术通常会取得稳定提升,但对于无监督或半监督方式却提升有限,为了克服这个限制,Xie[5]提出了一种效果良好、框架简单的半监督学习框架(UnsupervisedDataAugmentation,UDA),该框架在NLP方面综合使用了回译和(TermFrequency-InverseDocumentFrequency,TFIDF)替换作为数据增强方式,将有监督的数据增强方式扩展到大量无标签文档上,通过构建一致性正则,只使用20篇有标签文档,就超过了完全有监督学习的效果。
但由于其将两种数据增强技术同时应用于一篇文档,使得句子语义信息大大地被破坏。
同时,半监督学习方法中有标签文档量往往远小于无标签文档量,这时会出现有标签文档过拟合而无标签文档欠拟合的问题,为了克服这个问题MixText[6]设计了可以应用于文本领域的“TMix”数据增强方法,其受启发于图像领域的“MixUP”方法,在隐空间中对不同的训练数据做线性插值,成功的将“MixUp”应用于离散的文本信号中,同时将反向翻译技术在无标签文档上使用多次,获得多种增强版本。
将“TMix”技术用于有标签文档,无标签文档和反向翻译文档,生成全新的增强文档来解决了过拟合的问题,并在四个文本分类数据集上达到最先进的效果。
但是反向翻译技术通常依赖于训练好的翻译模型或各大翻译平台提供的翻译接口,存在速度慢或不稳定的问题,在增强过程中需要花费较长时间。
我们综合思考了UDA和MixText两种目前效果比较好的文本半监督技术,针对其中存在的问题设计了SA-MLA方法,分别使用了弱增强技术和强增强技术,而非混合使用,在保证语义信息的条件下增加了数据的多样性,从而可以减少反向翻译方法的时间耗费。
2情感分类模型搭建
l1n
图1是本文提出的SA-MLA模型的框架图。
给定有标签文档集X={xl,...,xl},
对应的情感标签集合Y={yl,...,yl},以及大规模的无标签文档集X={xu,...,xu},
l1nu1m
其中n和m分别是有标签文档集和无标签文档集中的文档数量,目标是构建情感分类器,对未知文档的情感标签进行预测。
为了能够有效利用有标签文档和无标签文档,SA-MLA模型在训练阶段为无标签文档生成预判标签,将无标签文档与预判标签作为有标签文档进行训练。
之后,对无标签文档进行两次数据增强,得到更大规模的增强数据,这是SA-MLA模型在有限有标签文档的情况下,表现良好的关键所在。
最后,为了提升预测的稳定性,引入锐化操作以及置信度过滤方法实现熵最小化损失,使得模型在无标签文档上可以做出高置信度的预测。
本节后续将分别详细介绍所提出的数据增强方法、标签预判方法、一致性正则和损失函数,并给出具体的算法流程。
...
无标签数据
EDA
BERT
2.1数据增强
图1SA-MLA模型结构图
Fig.1ThestructureofSA-MLA
ii
反向翻译是NLP领域中一种通用数据增强技术,该方法可以在保留原句语义的同时,生成多种不同形式的文本。
通常做法是将句子x从语言A翻译为语言B,然后再翻译为语言A,得到增强文本。
本文将无标签文档集先翻译为英语,再翻译为汉语。
对于无标签文档集中的每一篇文档,都生成一条对应的增强文本xa=A(xu),其中A(⋅)表示反向翻译操作,称为“回译”。
ii
随机词替换的数据增强方法类似于图像增强技术中的随机裁剪、移动等操作,基本思想是随机选取文本中一定比例的词,分别对这些词做同义词替换、随机插入删除等操作。
随机词替换方法的好处在于操作简单,不像反向翻译需要能力强大的模型辅助完成。
Wei等在2019年提出EDA[7]方法将这一系列方法集成在一起,主要包含四种增强变换:
同义词替换、随机插入、随机交换和随机删除。
本文对于无标签文档集中的每一篇文档,都生成一条对应的增强文档xw=W(xu),
其中W(⋅)表示EDA操作。
对于无标签文档我们使用回译增强和EDA增强实现数据的预处理。
实验中调用谷歌翻译公开接口实现回译功能,我们展示Dmsc数据集中的一个例子:
原始语料为“鉴于一定要把电影看过了才有资格评价”,经过回译增强后的语料为“鉴于您必须先看过电影才有资格获得评估”,经过EDA增强的语料为“鉴于要
把电影看过了才有资格评价”。
2.2标签预判
对于不同的数据增强结果,模型应尽可能预测一致的标签。
为实现这一效果,本文对无标签数据Xu中每一条文本的标签进行预判,将预判标签用于标准的交叉熵损失函数。
为了获取预判标签,首先计算给定的文本数据的EDA增强版本,并使用模型预测其类别分布:
qw=P(y|xw)
(1)
imodeli
其中,qw表示情感模型对EDA增强文档的概率分布预测,xw为经过EDA操作
ii
后的增强文档。
之后,按如下方式进行标签预判:
ii
qˆw=argmax(qw)
(2)
i
其中,qˆw为情感模型对EDA增强数据的情感预判标签。
最后,使用预判标签以及给定文档的回译版本计算交叉熵损失函数:
=uB∑
1uB
Lw
b=1
I(max(qw
)≥τ)H(qˆw,p(y|A(xu)))
i
imodeli
n
(3)
其中B表示一个批次的文档数量,H(p,q)=-∑p(xi)log(q(xi))表示交叉熵损失函数,
i=1
τ是阈值超参数。
如果模型对某文档的EDA增强版本预测的分布最大值在该阈值之上时,该预测值将被作为预判标签。
一般而言,在模型训练的初期,模型预测效果不佳,交叉熵损失的部分误差较大,此时高于阈值的文档量少,之后随着模型预测准确性的提升,预测分布高于阈值的文档增多,无标签文档的信号逐渐被释放,从而可以得到到预测置信度更高的文档。
2.3一致性正则
一致性正则利用无标签数据增强模型的平滑程度,期望模型在输入数据的噪声版本上也可以得到与原始数据相似的预测分布,是当前半监督学习方法的重要构件。
一致性正则的基本思想是对于模型的一个预测数据,根据其、输出分布添加噪声,之后对噪声数据进行预测,得到其输出分布,这两种输出分布之间的差异作为模型训练的正则项。
目前大多数添加噪声的方式是使用EDA、TFIDF非核心词替换等弱增强方式,然而,用更强的“强增强”方式可以带来数据空间的丰富性从而提升模型的鲁棒性以及抗干扰能力[5],所以本文选择回译的方式为无标签文档施加噪声,在带来丰富的语义多样性的同时还可以保留句子的原始语义,之后使用原始的无标签文档及其回译版本计算无标签损失,具体计算方式如下:
L=EE
[KL(p(y|x)Pp(yPxa))]
(4)
sx∈Xu
xa∈A(xu)
θθˆi
ii
i
其中xa为无标签文档经过回译的版本,θ和θˆ为模型的参数,我们使用KL散度量化两种预测版本概率分布的差异。
2.4损失函数
SA-MLA模型的损失函数由三部分组成,包括在有标签文档上的分类交叉熵损失函数Ll,在无标签文档上的标签预判损失函数Lw和一致性正则损失函数Ls。
L=E
[-logp(y'Pxl)]
(5)
lx,y∈Xl,Ylθi
J=Ll+λ1Lw+λ2Ls
(6)
其中Ll为标准的交叉熵损失函数,x和y分别为有标签文档及其对应的真实标签。
J为模型整体的损失函数。
λ1和λ2分别是控制Lw和Ls重要性的超参数。
2.5算法流程
综合以上方法,SA-MLA模型的算法流程图如算法1所示。
算法1SA-MLA情感分析模型算法流程
输入:
标签文档集X={(xl,yl):
i∈(1,...,B)},无标签文档集X={xu:
b∈(1,...uB)},u无标
liiub
签数据率,置信度阈值τ,损失项的控制参数λ1,λ2,B为一个批次的文档数量输出:
情感分类模型。
开始
1.
2.
对无标签文档进行EDA数据增强:
xw=W(xu)
ii
3.
对无标签文档进行回译数据增强:
xa=A(xu)
ii
4.
对经过EDA数据增强的文档构造猜测标签:
qˆw=argmax(qw)
ii
5.
对经过回译数据增强的文档进行模型预测:
qa=p(yPA(xu))
imodeli
6.
对有标签文档进行模型预测:
ql=p(y'Pxl)
imodeli
7.
输出预测情感标签:
predicttest=argmax(pmodel(xtest))
8.
9.
计算有标签文档的损失:
Ll=Ex,y∈X,Y[-log(y'Px)]
ll
10.
uB
计算无标签文档的预判标签损失:
L=1∑I(max(qw)≥τ)H(qˆw,p(y|A(xu)))
wuBiimodeli
b=1
11.
计算无标签文档一致性正则损失:
L=EE[KL(p(y|x)Pp(yPxa))]
sx∈Xuxa∈A(xu)θθˆi
ii
12.
计算总体损失:
J=Ll+λ1Lw+λ2Ls
结束
3实验设计与结果分析
3.1数据集及数据预处理
本文使用三个公开的中文情感分析数据集来验证SA-MLA的有效性,分别是Waimai1,Dmsc2和Weibo3。
其中,Waimai为外卖平台的用户评论数据集,包含正向评论与负向评论两种类别;Dmsc为70万用户对于豆瓣平台28部电影的评论信息,数据类别对应一星至五星评论;Weibo为新浪微博用户的评论数据集,类别包括喜悦、愤怒、厌恶和低落共四种类别。
数据集的详细信息见表1。
表1三种数据集数据信息统计
Table1TheStatisticsofThreeDataset
数据集
文档数量
情感类别数量
Waimai
11988
2
Dmsc
27389
5
8000
4
1
2
3
3.2对比方法
BERT[16]是目前效果比较好的预训练语言模型,其在多个NLP任务上都达到了不错的效果。
TEXTCNN[17]是经典的情感分析模型,其体积小,速度快同时还有不错的效果。
为了验证SA-MLA模型的有效性,本文将之与两个监督学习方法(BERT、TEXTCNN)和一个半监督学习方法(UDA)进行对比。
1)BERT:
使用谷歌开源的中文BERT预训练模并使用其对下游的情感分类任务进行微调。
采用平均池化对BERT编码器的输出进行处理,使用两层感知机分类器来预测标签。
2)TEXTCNN:
基于卷积神经网络的文本情感分类模型,利用多个不同尺寸的卷积核提取句子中的关键信息。
本实验中使用大小分别为2,3,5,7,9和11共6种卷积核。
3)UDA:
基于回译和TFIDF替换的数据增强方法,本实验中预训练语言模型为BERT,分类器为单层MLP,使用原始数据与回译增强数据进行一致性正则约束。
3.3参数设置
在预训练方面,使用中文BERT作为预训练语言模型,对BERT编码器的输出施加平均池化操作,使用Tanh函数作为激活函
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多层次 数据 增强 监督 中文 情感 分析 方法