欢迎来到必胜文档网!

基于ALBERT-BiLSTM-CRF,的煤矿事故案例文本命名实体识别方法

文章来源:网友投稿 时间:2023-08-08 19:00:05

王向前,李敏敏,孟祥瑞

(安徽理工大学 计算机科学与工程学院,安徽 淮南 232000)

煤矿事故案例多数是以文本的格式进行存储,主要记录事故发生的基本情况,事故发生的经过以及造成事故的原因等众多信息。当我们想要获取一些信息时,需要从大量冗余的数据中进行查找,耗费大量人力。然而,知识图谱的构建可以解决这一问题,它可以根据用户的需求,对其进行解析,在构建的知识库中寻找最准确的答案返回给用户。目前知识图谱广泛应用于各个领域,王先传[1]等人提出以事件作为节点,事件关系作为边构建面向事件的知识图谱,证明了基于语料库的事件知识图谱构建方法是可行的;
吉娜烨[2]等利用关键事件抽取算法,从文字赛事直播中抽取事件点,然后基于NBA 赛事知识图谱的构建,从中抽取背景信息和描述重点,自动生成新闻初稿,融入知识图谱以后,提高了所生成的质量;
胡炫炫[3]等基于知识图谱对辱虐管理进行研究并给予可视化分析,得出我国辱虐管理研究热点主要集中在工作绩效、离职倾向、情绪耗竭等方面,且目前对辱虐管理的研究多偏重其消极作用;
李亚恒[4]对我国非物质文化遗产旅游研究的知识图谱进行可视化,从基金、发文期刊、研究机构、发文作者、研究热点等方面进行分析,为非物质文化遗产旅游的研究提供了参考。

命名实体识别[5](Named Entity Recognition,NER)是知识图谱构建最基础也是最关键的一步,它的主要工作就是从一个自然文本中识别出我们所指定的一些实体(比如时间、地点、人名、组织机构名等等)。命名实体识别大体上可以划分为三类:①基于规则的命名实体识别,它是最早应用到命名实体识别领域中的方法。Rau[6]最早提出利用人工编写规则思想从文本中对实体进行识别,基于这种思想,皇甫晶等[7]人为了可以自动识别古代汉语文献中的,利用人工编写规则设计了自动识别姓名系统模型,识别结果召回率为75.4%,准确率为91.9%;
闫丹辉等[8]人基于规则的思想,针对越南语命名实体识别一共制定152 条规则,对越南语命名实体进行展开研究,得到了高于90%的准确率;
基于规则的命名实体识别方法虽然可扩展性高并且具有成本低的优点,但是这种优点一般适用于处理较少的数据集,具有局限性。②基于统计模型命名实体识别,主流方法有SVM[9]、HMM[10]、CRF[11]等。基于统计的方法常和基于规则方法结合,能够达到更好的识别效果。焦凯楠[12]在中文领域命名实体识别综述中提到基于统计模型的命名实体识别在旅游业等领域的介绍,张海军[13]梳理了维吾尔语短语自动抽取的相关研究进展,论文中分别针对基于规则、统计和基于规则与统计规则三种模型在维吾尔语短语识别中取得的研究成果进行阐述,得到统计和规则相结合的方法能够得到更好的短语识别结果。基于规则和统计的方法虽然能够得到较高的准确率,但是得到召回率较低,难以手工总结所有的规则。③和前两种方法相比,基于深度学习[14]的命名实体识别具有可扩展性高、成本低以及高召回率的优点,能够较好的完成命名实体识别。

现阶段,基于深度学习的命名实体识别已在各个领域广泛应用张华丽等[15]人对中文电子病历命名实体识别进行展开研究时,利用双向长短时记忆网络(BiLSTM)模型与条件随机场(CRF)模型进行结合消除了传统命名实体识别方法高度依赖人工特征提取的不足,张秋颖等[16]人利用BERT-BiLSTM-CRF 模型对学者主页信息进行挖掘;
买买提阿依甫[17]等提出BiLSTM-CNN-CRF 模型来实现维吾尔文的命名实体识别,实验结果表明此模型能够解决命名实体的自动识别,f1 值达到91.89%;
虽然命名实体识别已经广泛应用于各个领域,然后在煤矿事故案例文本方面实体识别的研究较少。

针对煤矿文本案例中的命名实体识别问题,本文提出ALBERT-BiLSTM-CRF 模型。它解决了传统方法对词典和规则依赖性强的问题,避免了人工特征提取。直接对原始数据进行矢量化可以自动从数据中提取有用的特征。利用ALBERT获取输入文本动态词向量,结合CRF 算法,对BiLSTM 的输出进行约束。

1.1 数据的获取、预处理

中国煤矿安全网是根据按照国家安全生产的政策、法规以及管理规范而建立的,它是一个专业的网络平台,是煤炭行业内的一流专业网站。本次实验数据通过python 爬虫,对中国煤矿安全网事故案例进行爬取,经过筛选,保留239 份煤矿瓦斯类文本数据作为试验数据。

在得到实验数据语料后,首先要对煤矿领域中实体进行分析,按照现实生活中的概念、概念间的关系、概念的属性以及概念的实例抽象出的实体模型进行煤矿领域词典构建,用于分词。使用jieba 对构建的煤矿领域语料库进行分词时,由于煤矿事故案例文本中涉及到较多的人名、地名、矿井名称、煤矿公司、事故类型等等,使得python 中所含的jieba 库不能准确的对文本语料进行分词,本文基于煤矿事故案例文本构建煤矿领域词典,里面共含有246 个词。在jieba 进行分词的同时加载自定义词典,提高分词效果,达到更好的实体识别结果。表1 展示了加载自构建词典前后结巴分词的变化。

表1 结巴加载自构建词典前后分词词性变换

1.2 词性标注

本文采用BMEO[18]词性标注模式进行标注将实验的219 个文本语料以7:2:1 的比例,将其分成三份,分别作为训练集、验证集、测试集,对分词后的词采用BMEO 进行标注。其中B 表示实体的开始,M 表示实体的中间,E 则代表一个实体的结束位置,O 代表非实体。比如B-PER、M-PER 和E-PER 分别代表着人名开头与中间与结束。使用结巴库对语料集进行分词和标注,以瓦斯突出事故为例,确定了抽取7 个实体类别;
(1)瓦斯突出成分(Component):发生煤与瓦斯突出事故时,突出的成分;
(2)突出预兆(Omen):瓦斯突出前所发生的预兆,如顶钻、卡钻等;
(3)突出煤层结构变化(Change):煤与瓦斯突出时煤层本身松软结构有哪些变化;
(4)直接原因(Dreason):造成事故发生的直接原因;
(5)间接原因(Ireason):造成事故发生的间接原因。(6)事故性质(Poperties):事故属于安全生产责任事故还是责任事故;
(7)事故类型(Class):瓦斯爆炸、瓦斯中毒窒息、煤与瓦斯突出;
表2 为部分序列标注样例。

表2 序列标注

在经过数据预处理以后,采用ALBERT-BiLSTM-CRF 模型进行实体标注模块模型训练,ALBERT-BiLSTM-CRF 模型包括三个部分,ALBERT层作为第一层将输入的字符转化为字向量,BiLSTM 层进行特征的提取,CRF 层进行命名实体识别工作。首先将预处理好的词向量嵌入到BiLSTM 层,作为CRF 层的输入,由CRF 层进行预测的BMEO 标注,完成实体识别。对模型再进行重新加载,预测新的文本。

2.1 ALBERT 模型

ALBERT 模型是一种基于Transformer 神经网络的预训练模型,基于神经网络的预训练技术分为两大类:(1)静态词向量:2003 年由Y Bengio等[19]人提出神经语言模型(NNLM),NNLM 由三层简单的神经网络构成,NNLM 虽然解决了语义鸿沟的问题,但是在进行语义预训练时只能利用上下文信息不能解决一词多义的问题;
2013 年Google 公司基于NNLM 模型算法原理,提出Word2Vec[20],Word2Vec 词向量模型能够从大规模语料库中获得高精度的词向量,由于Word2Vec 获取的是静态词向量,依旧不能解决一词多义;
2014年J Pennighton 等[21]提出Glove 模型,Glove 模型是一个全局对数双线性回归模型,结合了Word2Vec 和SVD 的优点,Glove 可以达到更快的训练速度,但是由于Glove 使用的是全局特征,所以耗时长并且仍然无法解决一词多义;
(2)动态词向量:Elmo[22]模型采用的是双层双向的LSTM,在一定程度上能够解决一词多义问题且模型效果良好,但是Elmo 模型采用的双向拼接融合特征比一体化的融合方式要弱;
BERT[23]预训练模型2018年由Devlin J 等人提出,BERT 采用了双向语言模型、MLM 和NSP 三种技术,其模型如图一所示。现阶段BERT 模型虽然应用广泛,但是也存在一定的缺陷,其参数量巨大使得在实际应用中具有困难。ALBERT[24]模型用参数共享与低秩分解技术进行压缩,和BERT 模型拥有相同结构,由BERT 模型改进而来,和BERT 模型相比,ALBERT 模型拥有更少的参数,更优越的模型性能。ALBERT 模型能够获取动态词向量,解决了以往一词多义的问题。

图1 BERT 模型

2.2 BiLSTM 模型

BiLSTM 算法是由Schmiduber 于1997 年提出的,本质上是一种具有特殊结构递归神经网络(RNN)[25]。在传统的RNN 模型中,进行长序列处理时,容易出现梯度消失或者梯度爆炸的情况[26],为解决这一问题,LSTM(Long Short Term Memory Networks)网络被提出,使用LSTM 模型可以更好地捕获长距离依赖关系。通过训练,LSTM 网络模型学习记住什么和忘记什么。RNN和LSTM 共享一个相似的网络主题,它们都是链式的循环神经网络,传统的RNN 网络循环节点只含有一个简单的结构,比如一个tanh 层。而LSTM 与RNN 相比,它的内部就要复杂很多,并且在其循环阶段,它的内部将会拥有更加复杂的结构,这种复杂结构是由四个不同的层来进行信息交互的控制。然而,LSTM 在对句子进行建模的时候,仍然不能从后往前对输入的信息进行解码,这是它到现在也还没解决的一个问题。基于LSTM 的这种缺点,因此提出了BiLSTM,BiLSTM 模型能够较好的对双向的语义依赖进行捕捉,构建BiLSTM 的主要思想就是结合前向LSTM 和后向LSTM。如图2 展示了双向的LSTM 模型。

图2 BiLSTM 模型

其中X 表示输入序列,依次通过前向的LSTM 网络,并且输出隐藏状态,同理,反向的LSTM 网络依次接收反向的输入序列,并且将反向隐藏状态输出,然后将同一输入变量的前向隐藏状态与反向隐藏状态结合,形成最终的输出向量。双向LSTM 为了确保对于训练序列特征提取的全局性以及完整性,所以实行前向和后向两次训练。

2.3 CRF 模型

目前自然语言处理中,最常用的是线性链条条件随机场(Linear Chain Conditional Random Filed)。它用来对序列化数据进行词性的标注和数据的切分,它用来计算给定一个观察序列的标记序列的条件概率分布,线性链CRF 定义如下:假设有两个随机变量序列的线性链x=(x1,x2,…,xn) 和y=(y1,y2,…,yn),若x和y满足马尔可夫性p(yi|x,y1,y2…yn)=p(yi|x,yi-1,yi+1),即:则称p(y|x)为线性链的条件随机场。其中x作为输入的观察序列,y是与之对应的标记序列,条件随机场参数化表示形式如下:

其中tk和sl是特征函数,对应的权值为λk、μl,归因化因子z(x)表达式如下:

其中tk表示的是转移特征,它依赖于当前位置和上一个位置,sl表示状态特征,只依赖于当前位置。

图3 为线性链条条件随机场模型。CRF 模型作为标签解码器,被广泛应用于基于深度学习的命名实体任务中,CRF 能够通过有效进行建模对标签之间的约束关系进行预测,以此提高NER 的准确性。图中权重f1对应每个词的向量特征μ1获得。以下公式用于计算输入句子序列x,输出序列为y 的概率得

图3 线性链条件随机场

其中,i表示的是单词在句子中的位置,yi是当前单词的标签,yi-1是前一个单词的标签,m对应的是特征数,n代表的是输入的句子的长度,然后将得到的分数进行归一化,将结果转化为概率值,将输出结果中概率值最大的作为最终的序列标签。

2.4 ALBERT-BiLSTM-CRF 训练模型

从图4 可以看到,此模型从上往下由字向量层ALBERT、BiLSTM 层和CRF 层组成的。它的输入是序列化文本,如图4 输入层输入文本‘板桥沟煤矿:瓦斯爆炸’,在CRF 层得到输出的相应的注释序列,输出序列采用的BMEO 进行标注。其中B 表示实体的开始,M 表示实体的中间,E 表示实体的结束,O 表示非实体。在模型实现过程中,将输入的每个字符转换成向量形式,作为BiLSTM 的输入提取上下文特征,输出特征向量作为CRF 层的输入,对输入进行归一化,最后输出标注序列。

图4 ALBERT-BiLSTM-CRF 模型

ALBERT 层作为模型第一层,其采用了矩阵分解的方法降低参数量,并引入一个低维向量空间E,其分解公式为:

其中V 代表词汇表向量,H 表示隐含层向量大小。同时,ALBERT 模型提出了使用SOP(Sentence Order Prediction)预训练的方法,SOP 主要关注句间连贯性,从而提升下游多句子编码任务的性能。

图中双向的LSTM 层用来关注文中过去的信息和未来的信息,将输入的序列进行从前往后和从后往前两个方向进行学习训练,例如输入语句序列:“板桥沟煤矿:瓦斯爆炸”,对其进行反向序列学习:“炸爆斯瓦:矿煤沟桥板”,前向和反向的结合解决了以往无法获取反方向序列特征的问题。

最后一层CRF 层通过维特比算法,用来约束词与词之间的顺序,得到最高分序列标注。用来保证实体的开头必须是B 而不是M 或者E,例如模型输出的“瓦斯爆炸”其对应的标注应为“BClass、M-Class、M-Class、E-Class”,如果没有CRF层的约束,输出的对应标注信息可能会出现“MClass、B-Class、M-Class、E-Class”等错误标注。

2.4.1 模型评估标准

在ALBERT-BiLSTM-CRF 模型上进行训练时,该模型采用的标准为精确度(Precision)、召回率(Recall)、f1值(f1-score),具体公式为:

其中TP(true positive)、FP(false positive)、TN(true negative)、FN(false negative),这四个指标构成分类结果混淆矩阵,分别表示将正类预测为正类、将反类预测为正类、将反类预测为反类、将正类预测为反类,如表3 所示。

表3 分类结果混淆矩阵

3.1 模型参数设置

本次实验模型相关参数如下:经过文本语料预处理,句子切分,共获取了13270 条语句,一次训练所抓取的数据样本数量“batch_size=32”,学习率“lr=0.001”,迭代次数“epoches=15”,设置训练提前停止条件为当准确率不再提升时,则停止迭代。图五为四种模型随着迭代次数的增加准确率的变化。

从图五可以看出,当迭代次数进行增加时,准确率也得到了相应的提高,其中BiLSTM-CRF 模型当迭代次数为7 的时候,模型的准确率不再增加,此时准确率为0.986,f1 值为0.8604;
BERTBiLSTM-CRF 模型迭代次数为7 时准确率不再增加,此时准确率为0.987,f1 值为0.8725;
BiLSTM--CNN-CRF 模型在进行9 次迭代以后准确率不再提高,准确率为0.983,f1 为0.8483;
ALBERT-BiLSTM-CRF 模型通过7 次迭代,准确率达到最高为0.998,此时f1 值为0.9102。四个模型中ALBERT-BiLSTM-CRF 模型的f1 值最高,可以看出该模型质量更高。

3.2 结果展示分析

实验采用了预处理的煤矿事故案例文本语料库进行训练,在训练的文本数据集上预定义了7种实体类型,从图五中可知,在进行7 次迭代训练以后ALBERT-BiLSTM-CRF 模型的准确率不再上升,此时各类实体识别实验结果如表4 所示。

表4 本文所提模型的实体识别结果

图5 各模型训练acc 变化图

从表4 中可以看出,对于瓦斯成分、突出预兆、煤层结构变化、事故性质、事故类型这5 种实体识别类型的识别效果较好,主要由于这5 种实体类型中所包含的实体表达形式较为固定,而直接原因和间接原因中所包含的实体语义较长且复杂,导致识别效果较差。

为了验证ALBERT-BiLSTM-CRF 模型的有效性,本文选取两种数据集,利用BiLSTM-CR、BERT-BiLSTM-CRF、BiLSTM-CNN-CRF、ALBERT-BiLSTM-CRF 四种模型分别对其进行训练。首先选择数据集1 为公开数据集MASR 数据集,由于在网上下载的MASR 数据集较大,进行训练时,时间较久,因此选择数据集的一半进行验证。表5 为MASR 数据集的实验结果。

表5 MASR 数据集训练结果

从表5 可以看出不论那个模型,在公开数据集上训练模型效果都比较好,是因为MASR 数据集中只包含了地名、组织、人名三种比较简单的实体类别,四种模型中依旧能看到本文所提ALBERT-BiLSTM-CRF 模型性能最优。

表6 选择的数据集为收集处理过的煤矿文本事故,同样利用表5 中用到的4 种模型进行训练。

表6 煤矿文本事故数据集实验结果

从表6 中实验结果可以看到,ALBERT-BiLSTM-CRF 模型P、R、f1 值均有提升。对比四个实验评价指标,本文提出的ALBERT-BiLSTM-CRF模型,在煤矿领域的命名实体识别具有更好的体现,整体识别性能较高。通过表5、表6 两种实验结果对比可以看出,采用MASR 数据集进行训练时,模型的整体识别效果要高于煤矿文本事故数据集的实验结果,主要原因是MASR 数据集中的实体识别类型较少而且较为简单,采用的煤矿文本数据集里面包含了多种实体类型,并且有些实体语义较长导致整体识别效果较低。

本文提出了一种将深度学习与传统机器学习算法相结合的方法来识别煤矿事故案例文本中的实体,旨在为煤矿领域构建一个质量较高的知识库,利用ALBERT-BiLSTM 模型提取非结构化文本数据的上下文特征,实现文本的序列化和标注,增加了CRF 算法来约束最终结果,提高了模型的精度。实验结果表明,该方法优于以往的命名实体识别方法,对今后煤矿领域的命名实体识别任务具有一定的参考价值。在构造煤矿领域命名实体识别中,由于收集文本事故案例,只包含煤矿中的部分事故类别,使得ALBERT-BiLSTM-CRF 模型在对煤矿文本事故进行实体识别时,具有局限性。

因此后期工作中将扩大煤矿事故案例类型,使得ALBERT-BiLSTM-CRF 模型得到更广泛的普适性,用于后期的煤矿领域中知识图谱的构建。

猜你喜欢命名实体准确率乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析健康之家(2021年19期)2021-05-23不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨医学食疗与健康(2021年27期)2021-05-132015—2017 年宁夏各天气预报参考产品质量检验分析农业科技与信息(2021年2期)2021-03-27命名——助力有机化学的学习中学生数理化(高中版.高考理化)(2021年2期)2021-03-19前海自贸区:金融服务实体中国外汇(2019年18期)2019-11-25高速公路车牌识别标识站准确率验证法中国交通信息化(2018年5期)2018-08-21有一种男人以“暖”命名东方女性(2018年3期)2018-04-16为一条河命名——在白河源散文诗(2017年17期)2018-01-31实体的可感部分与实体——兼论亚里士多德分析实体的两种模式哲学评论(2017年1期)2017-07-31两会进行时:紧扣实体经济“钉钉子”领导决策信息(2017年9期)2017-05-04

推荐访问:实体 命名 识别

本文来源:http://www.triumph-cn.com/fanwendaquan/gongwenfanwen/2023/0808/95604.html

推荐内容