点击数: 更新日期: 2024-07-18
中文题目:基于知识图谱-文本的数据增强和虚拟对抗的中文专业领域命名实体识别
论文题目:Data Augmentation with Knowledge Graph-to-Text and Virtual Adversary for Specialized-Domain Chinese NER
录用期刊/会议:International Joint Conference on Neural Networks (CCF C)
作者列表:
1) 胡思颍 中国石油大学(北京)人工智能学院 硕22
2) 王智广 中国石油大学(北京)人工智能学院 计算机科学与技术系 教授
3) 张冰彬 中国石油大学(北京)人工智能学院 硕22
4) 王 天 中国石油大学(北京)人工智能学院 硕21
5) 刘志强 中国石油大学(北京)人工智能学院 硕23
6) 鲁 强 中国石油大学(北京)人工智能学院 智能科学与技术系 副教授
摘要:
中文命名实体识别在通用领域得到了很好的研究,但实际工程应用中更关注专业领域中的中文命名实体识别。然而,由于专业领域下标注数据稀缺,命名实体识别性能仍然欠佳。本文主要针对标注样本稀缺问题进行了两点改进,一方面,我们提出了Knowledge Graph Text Alignment with BART(KGTA-BART)作为全新的数据增强方法。与之前的研究相比,KGTA-BART首次引入从结构化和半结构化数据所提取的知识图谱,将知识图谱的图信息与已标注文本数据的语义信息对齐,之后基于BART模型将知识图谱生成高质量的语义文本,在标注数据稀缺时扩展数据集。另一方面,我们提出了Virtual Adversary with BART(VA-BART)命名实体识别模型。VA-BART模型结合BART作为编码层,并将虚拟对抗应用在中文命名实体识别任务,在标注数据稀缺时更好地捕捉文本中的上下文信息,增强了模型对于未见过的样本的泛化能力。实验结果表明,基于KGTA-BART的VA-BART方法在我们的中文专业领域数据集中对比基线方法有实质性的改进。
背景与动机:
命名实体识别(NER)是一项重要的自然语言处理任务。中文命名实体识别(CNER)作为NER的一个重要子模块,这些年来通过预训练模型,研究者们常常专注于通用领域的CNER,然而在实际工程应用中,专业领域的CNER往往有着更重要的影响。通过专业领域CNER并用于关系抽取、问答系统、机器翻译等任务,可以构建领域智能化系统,提高文本处理和语言理解的效果,帮助人们获取领域知识。例如,石油炼化领域,从领域文档中挖掘出有价值的信息和知识,对加快石油领域数字化转型、智能化发展有着重要意义。但在进行这类专业领域的CNER时,目前主要面临着标注数据稀缺的挑战,导致命名实体识别性能欠佳。
设计与实现:
我们提出了数据增强方法KGTA-BART与中文命名实体识别模型VA-BART进行专业领域CNER任务。CNER任务的流程包括:
Step 1:KGTA-BART网络架构。通过数据增强方法KGTA-BART进行模型训练。
Step 2:数据增强文本生成。使用训练完的模型对知识图谱与文本对齐,并进行文本生成作为命名实体识别的增强文本。
Step 3:VA-BART中文命名实体识别模型。生成文本作为增强文本连同已标注文本作用于命名实体识别模型VA-BART,完成命名实体识别任务。
KGTA-BART网络架构
图1展示了KGTA-BART数据增强方法模型训练的结构。图1的(a)部分展示了向量表示对齐模块。由于已标注文本中不仅包含了语义维度信息,同时可提取出图维度信息。我们提出通过文本编码器和图编码器可以分别获取到文本维度和图维度实体向量。为了弥合文本维度和图维度间的差距,我们通过使用欧几里德距离来模拟向量表示对齐。向量表示对齐能够有效地将已标注文本中的文本信息和图信息对齐。其为后续知识图谱与文本对齐提供有力的帮助。
图1的(b)部分展示了基于句式的掩码补全模块,我们结合BART模型,提出了一种基于掩码句式的模型训练方式,完成Maskfilling训练。主要包括掩码句式构建和句式文本生成训练两个部分。
图1 KGTA-BART 数据增强方法模型训练的概述
数据增强文本生成
在KGTA-BART训练完之后,使用训练完的模型进行文本生成,概述图如图2所示。在文本生成阶段,首先将含图信息的知识图谱与含语义信息的已标注的文本中与知识图谱标签类型相同的文本进行编码并基于相似度计算进行图文对齐匹配相似度最高的文本,之后通过掩码句式构建并基于BART生成句式文本,最后进行实体填充生成增强文本。
图2 KGTA-BART 数据增强方法的文本生成概述
VA-BART中文命名实体识别模型
生成文本作为增强文本连同已标注文本作用于命名实体识别模型VA-BART。模型的主要结构如图3所示,给定一个输入句子,然后输入到预训练的BART模块中。为了进一步增强上下文建模,在BART计算之后,采用双向LSTM生成最终的单词表示。最后使用条件随机场进行token的预测。为了提高模型泛化性,参考虚拟对抗的机制,我们将其运用到了中文命名实体识别任务中。
图3 VA-BART CNER 模型结构
中文专业领域数据集
由于现存的CNER公共数据集中基本都是通用领域的数据集,而一些专业领域的数据集例如中文医学领域数据集中又没有对应的由结构化和半结构化的信息中提取实体关系从而构建的知识图谱。因此,为了落实实际应用以及检验我们方法的有效性,我们提出了石油炼化领域的标注数据集以及该领域从结构化和半结构化的信息中提取实体关系构建出来的知识图谱。同时为了验证模型的泛化性,我们对中文关系抽取数据集DuIE2.0进行筛选,将其中的实体类别进行细粒度划分,最后形成娱乐领域标注数据集,并模拟了娱乐领域只含有图信息的知识图谱。两个数据集的详细信息如表1所示。
表1 数据集详细信息
实验结果及分析:
根据表2的结果,我们提出的基于KGTA-BART的VA-BART方法在石油炼化以及娱乐两个中文专业领域的NER方法和数据增强方法层面上皆表现出卓越的效果。首先,在NER方法层面上,将一些预训练模型作为基线,我们的命名实体识别模型相对于性能最佳的基线模型,在无增强数据条件下都获得了最佳效果。此外,在数据增强的层面上,经过各种数据增强方法扩展的数据集均基于我们的VA-BART上进行命名实体识别,结果显示我们提出的KGTA-BART数据增强方法也都获得了最佳效果。
在对抗训练层面上,我们基于未增强的数据比较各种基线的对抗训练方式如表3,发现虚拟对抗在石油炼化领域和娱乐领域,它的F1值相比于性能最佳的对抗方式有着0.59和0.24的提升,这证明了虚拟对抗的有效性。
表2 实验结果,从NER方法和数据增强方法层面验证我们的方法的有效性
表3 实验结果,从对抗训练层面验证我们的方法的有效性
结论:
我们提出利用从结构化和半结构化信息中提取的实体和关系,使用KGTA-BART数据增强方法创建用于文本生成的知识图谱。此外,我们还开发了中文命名实体识别模型VA-BART,结合BART作为编码层,并将虚拟对抗应用在中文命名实体识别任务,在标注数据稀缺时更好地捕捉文本中的上下文信息,增强了模型对于未见过的样本的泛化能力。我们的大量实验证明,在石油炼化和娱乐领域,中文命名实体识别的性能有了显著提高。同时在未来,我们将在英文专业领域数据集上进行实验,证明我们的方法同样适用于其他语言数据。
作者简介:
王智广,教授,博士生导师,北京市教学名师。中国计算机学会(CCF)高级会员,全国高校实验室工作研究会信息技术专家指导委员会委员,全国高校计算机专业(本科)实验教材与实验室环境开发专家委员会委员,北京市计算机教育研究会常务理事。长期从事分布式并行计算、三维可视化、计算机视觉、知识图谱方面的研究工作,主持或承担国家重大科技专项子任务、国家重点研发计划子课题、国家自然科学基金、北京市教委科研课题、北京市重点实验室课题、地方政府委托课题以及企业委托课题20余项,在国内外重要学术会议和期刊上合作发表学术论文70余篇,培养了100余名硕士博士研究生。