基于规则匹配与深度学习AbTransformer的渔业标准表格信息抽取方法

孙哲涛1,2,于红1,2*,宋奇书1,2,李光宇1,2,邵立铭1,2,杨惠宁1,2,张思佳1,2,孙华1,2

(1.大连海洋大学 信息工程学院,辽宁省海洋信息技术重点实验室,辽宁 大连 116023;2.设施渔业教育部重点实验室(大连海洋大学),辽宁 大连 116023)

摘要:为解决渔业标准文本中表格结构多样、表头位置不固定导致抽取效果不佳的问题,提出一种结合规则匹配(rule-based-matching,RBM)与AbTransformer(Absolute Transformer)深度学习模型的表格信息抽取方法,该方法对规则类表格信息采用规则模板与BERT-BiLSTM-CRF模型进行信息抽取,对非规则类表格信息采用改进的Transformer进行抽取,即在位置编码模块中引入行位置编码,与特征向量拼接以获取表格行列位置。结果表明:本文中提出的AbTransformer模型相较于机器学习MLP模型,AUC值提升了1.46%,相较于TabTransformer模型,AUC值提高了1.18%;本文中提出的RBM-AbTransformer模型与AbTransformer模型相比,准确率、召回率和F1值分别提高了7.78%、4.19%和5.27%。研究表明,结合RBM与 AbTransformer的渔业标准表格信息抽取方法,有效解决了表格结构多样、表头位置不固定的问题,提升了渔业标准表格信息抽取的整体效果。

关键词:渔业标准;实体识别;表格信息抽取;深度学习;Transformer模型

标准化是渔业发展的主要趋势,实现渔业标准化需要渔业标准信息服务系统的支撑[1],完善渔业标准信息服务系统需要从渔业标准文本中抽取其中蕴含的知识[2]。渔业标准通常以文本、表格和图像形式表示,表格作为渔业标准的重要组成部分,其中蕴含着丰富的渔业领域知识,研究如何从表格中抽取其中蕴含的知识对渔业标准服务至关重要。

表格信息抽取包括表格检测[3]、表格结构构建[4]和表格信息抽取[5]。渔业标准表格信息抽取的关键是表格信息抽取,抽取表头与单元格信息[6],主要方法包括基于规则的模板匹配、基于机器学习的表格图与表格树构建及基于深度学习的方法。

基于规则匹配方法是指对表格结构进行整理构建模板库,将表格与模板库进行匹配从而实现表格信息抽取。Shigarov等[7]提出的TableXL模型,利用规则匹配对表格进行定义,整理出表格模板,进而抽取表格内信息。赵洪等[8]在分析政府统计报表语义构成要素基础上,结合信息抽取与集成融合的方法,有效实现了异构型政府统计报表的抽取与集成融合。Azzi等[9]提出了一种统计领域表格的解决方案,并描述了从统计数据表中抽取实体和关系来构建知识图谱的全功能流水线。

然而,一些学科领域表格构成复杂,特定的规则并不能涵盖所有表格信息。为此,研究者采用机器学习方法对表格信息进行抽取。Chen等[10]提出GBDT模型,通过构建梯度决策树对表格信息进行抽取。Li等[11]采用Chen等的GBDT模型对财务表格内容进行抽取。但这些机器学习法依赖于结构,渔业标准表格形成的数据集缺乏表格结构,若重新进行人工标注,所需工作量较大。

随着深度学习的发展,研究者将神经网络应用于表格信息抽取中。递归神经网络(RNN)通过对单词赋予令牌,以位置顺序输入到网络模型中[12],而表格既包含行位置又包含列位置,无法使用单一顺序输入。因此,毛尚伟等[13]采用只关注相对位置的Transformer-CRF模型,处理单元格位置不固定的表格数据。然而Transformer-CRF模型处理单元格行列嵌套的复杂表格时识别率较低。Huang等[14]在Transformer模型基础上提出了TabTransformer模型,改进了Transformer模型内部的相对位置编码,采用行编码将表格的每行数据拼接传入模型之中,并在其后加入多层感知机(MLP)作为解码器,其提出的模型通过列编码添加单元格列位置信息,对嵌套等复杂表格信息抽取效果较好。Huang等[14]采用的数据集是UCI存储库中的Tabular数据集,该数据集内表格以行表头为主体,对列表头抽取效果不理想。

渔业标准表格作为规范性表格,与其他表格相比结构较为统一。其中数值表内单元格均为数值,标题表内表头与标题相同,但渔业标准表格在结构固定之下仍存在部分非结构化表格,这类表格存在行列嵌套、表头位置不固定等问题,难用规则描述,因此,无法仅用规则来抽取渔业标准表格信息。采用深度学习虽然对复杂表格的识别率更高,但对较明显结构的表格仍会造成误识别[15],可采用规则方法对其进行补充,通过设定好的表格结构模板可准确匹配、识别并抽取表格信息。本研究中,针对渔业标准表格结构多样、表头位置不固定的问题,提出规则匹配和深度学习相结合的表格信息抽取方法,对于可解读出规则的结构化表格,通过指定规则模板对其进行抽取;对于行列表头不固定的非结构化表格,通过在深度学习模型AbTransformer位置编码模块中引入行位置编码,与特征向量拼接以获取表格行列位置,实现表头定位并进行抽取,以期提升渔业标准表格信息抽取的整体效果。

1 结合规则匹配与深度学习的表格信息抽取方法

1.1 表格信息抽取模型

为实现渔业精准养殖的目的,渔业服务系统应提供详尽的渔业标准知识库。渔业标准表格是渔业标准知识库的重要组成部分,因此,需要抽取渔业标准表格实体节点填充到知识库中,如“体质量”、“初产年龄”、“4~5龄”等实体(图1)。

图1 渔业标准表格信息抽取效果

Fig.1 Rendering of fishery standard table extraction

这些节点包含了具体的渔业标准指标名称和指标值,可提高知识库的质量,使得渔业标准服务系统能为养殖技术人员提供准确且全面的渔业标准知识。对渔业标准表格数据分析发现,表格分为不同类别,而不同类别的表格需采用不同的处理方式。表头与单元格格式固定的数值表、标题实体与表格内表头实体相同的非数值表可采用规则匹配(RBM)法抽取表格信息,而部分非数值表因表头位置不固定则需采用深度学习法抽取表格信息。因此,本研究中提出RBM-AbTransformer渔业标准表格信息抽取方法,其总体框架如图2所示。

图2 结合规则匹配(RBM)与AbTransformer的表格信息抽取方法流程

Fig.2 A table information extraction method flow combining RBM and AbTransformer

首先采用规则模板对表格内表头与单元格格式固定的表格进行匹配,抽取其中的表格信息。对标题实体与表格内表头实体相同的非数值表,由于命名实体识别(NER)技术在渔业标准识别上已趋于成熟,故采用任媛等[16]的BERT-BiLSTM-CRF模型进行标题实体识别,将识别出的实体作为规则实体与表格内单元格匹配,对表格表头进行定位,进而实现表格信息抽取。非规则表格中不包含表头与单元格为单链结构的数值表或标题实体与表格内表头实体相同的非数值表,无法使用定义好的规则模板进行抽取,采用人工定义规则繁琐耗时,非规则表格存在表头跨行跨列、表头行列不固定等问题。因此,将规则模板无法匹配的表格界定为非规则表格,并采用AbTransformer深度学习模型对行列表头进行定位,进而实现对表格信息抽取。

1.2 基于规则匹配的渔业标准表格信息抽取

1.2.1 表关系及表头定义 对数值表及标题结构化的非数值表采用规则法抽取表格信息。在构建表结构规则模板前,需先对表关系进行定义并设定表头匹配规则,以实现与模板精准匹配。首先使用资源描述框语言(RDF)描述所有相关表。将表格信息用表头三元组<SiRiTi>及单元格三元组<TiRkO(i,k)>描述。其中,SiTi表示主表头及次表头;Ri表示表头间关系(总分关系,并列关系);O(i,k)是一个类型化表格实体,表示第i行和第k列交叉处单元格信息;Rk表示表头与单元格间关系(上下位关系,同位关系)。匹配规则示例如图3所示,数值表存在结构规则“TableHead(str)+n[Cell(int)]”,表格由多个存在并列关系的表头构成,每个表头对应n个数值单元格,可通过设定正则表达式(RE)规则匹配所有数值表,定位数值表表头;部分非数值表标题内存在与表头实体相同的表格种类实体,其结构规则为“TableEntity(str)=CellEntity(str)”,通过标题实体与表格内单元格匹配,定位非数值表表头所属行列。

图3 表格结构匹配规则

Fig.3 Matching rules for table structures

1.2.2 标题表头信息抽取 标题实体可以作为规则模板精准定位表格表头,采用BERT-BiLSTM-CRF模型识别标题实体。其中,BERT[17]层作为标题短语的预训练词嵌入模型输出词向量,以提高词向量泛化能力;BiLSTM层作为模型训练层学习目标实体的特征信息,利用序列向量的上下文信息提高NER的识别效果;CRF层解码BiLSTM的输出矩阵,添加约束,以避免输出不合法的标签序列。BERT-BiLSTM-CRF模型结构如图4所示。

图4 BERT-BiLSTM-CRF模型结构

Fig.4 Structure of BERT-BiLSTM-CRF model

1.2.3 表格信息抽取规则库建立 表格信息由表头与单元格构成,在定位表头后,需设定规则,明确表头及表格标签,再将各标签按关系拼接为表格三元组。因此,对已定位表头的数值表和非数值表,可与模板匹配对表头与表格单元格赋予定位标签,进而抽取表格信息。表格规则模板及抽取出的表格三元组对应表如图5所示,通过规则模板抽取出的表格信息示例如图6所示。

图5 表格信息抽取模板图

Fig.5 Template diagram of table content extraction

图6 表格信息抽取示例

Fig.6 Example diagram of table content extraction

表格模板包含5项规则:

1)预处理。替换空单元格、省略号“…”等无关单元格。

2)与行表头标签关联。通过设定两个规则来关联表头标签,一是在最顶行的非空单元格上生成表头标签;二是从最上面的一行开始自上而下搜索表格行,检查相邻行对,若单元格a11与主表头B处于同行,且与上级单元格A1处于嵌套列中(图5),则设为次表头标签。

3)与列表头标签关联。同样通过设定两个规则来关联表头标签,一是从最左侧列中的非空单元格创建标签;二是同规则2)中第2条。

4)单元格标签设置。对位于表头同行/同列的剩余单元格设置标签。

5)合并关系。将标签归为3种类别,即主表头、实体i=(1,2,…,n)和数值。根据表间关系,将同一行/列的单元格与行/列表头标签相关联。

1.3 基于深度学习AbTransformer的表格信息抽取

为解决表格表头位置不固定的问题,对Transformer模型进行改进,在Transformer位置编码模块添加行绝对位置编码,与相对位置编码拼接后再与输入的词向量连接,使得全局向量获得行列位置特征,将拼接后的向量输入到多层Transformer编码器中获得表格上下文嵌入向量,在Transformer编码器后添加全连接MLP作为解码器,输出表格种类最优结果。AbTransformer模型包括表格位置编码层、N个重复的Transformer层的堆栈和一个MLP层,模型结构如图7所示。

图7 AbTransformer模型结构

Fig.7 Structure of AbTransformer model

1.3.1 Transformer Transformer编码器由一个位置编码层和N个重复的Transformer编码器堆栈构成,每个编码器包括一个多头注意力层和一个前馈神经网络层,每层周围均有求和及行归一化的步骤。Transformer的多头注意力机制和相对位置编码[18],适合处理不注重行单元格位置的表格数据。

自注意力机制通过输入单元格矩阵X、查询矩阵Q、键矩阵K和值矩阵V,计算得到输出矩阵Z,然后计算多头注意力层的输出矩阵Zmul,最后对每行向量进行归一化(LN)处理,并将计算得到的传递出去。计算公式为

(1)

Zmul=Concat(Zi)WO, i∈(0,1,…,H-1),

(2)

(3)

其中:dK为单元格词向量维度;H为多头注意力头数;Zi为第i+1个注意力头,所有注意力头数拼接成Concat函数;WO为权重矩阵。

1.3.2 表格行位置编码 相对位置编码层采用正弦函数与余弦函数交替构造出与输入向量维度相同的矩阵,该矩阵与输入向量相加以获得多头注意力层的输入。Transformer模型采用的注意力编码层无法捕捉输入词的顺序,位置向量可以让模型学习到表格单元格的相对位置。计算公式为

PE(pos,2i)=sin(pos/10 0002i/dmodel),

(4)

PE(pos,2i+1)=cos(pos/10 0002i/dmodel)。

(5)

其中: PE为二维矩阵,大小与输入向量维度相同;pos为词语在句子中的位置;dmodel为词向量的维度;i为词向量的位置。

表格位置编码是通过对每个词向量的位置编码添加绝对位置信息,实现表格整体结构的定位,以解决表格内出现以列为表头导致相对位置编码无法获取跨行位置及识别准确率降低的问题。对于表格每一行,都有一个行的绝对位置,将其与词向量维度相同的正、余弦结构矩阵相乘,获得包含整体位置信息的表格位置编码。计算公式为

(6)

其中:A为单元格向量所在行位置,A=(1,2,…,n),n为表格总行数;di表示位置向量维度中的维数,di =1,2,…,dmodel

2 表格信息抽取试验

2.1 表格数据获取

本研究中表格数据集来自标准免费下载网(http: //www.bzmfxz.com)及渔业标准服务平台。采用Scrapy框架对网站内的标准数据进行爬取。使用表格识别软件Tabula对渔业标准进行表格抽取,共计抽取1 062张表格。对抽取的表格图片采用Camelot软件进行结构文字识别并写入csv文件中,构成渔业标准表格数据集。

2.2 方法

2.2.1 表格数据分类 由于渔业标准表格结构多样,本研究中将其分为基于规则匹配的表格数据和基于非规则的表格数据,并采用上文所提出的模型进行结合处理。渔业标准表格示例如图8所示,其中,结构化表格具有表头与单元格格式固定、标题内实体与表格内表头相同的特点;非结构化表格具有标题与表格无重叠信息、表头不固定在行/列及表格行列存在嵌套单元格等特点。

2.2.2 表格数据标注 部分渔业标准表格标题尾部会标明表格种类,表格种类会作为表格表头出现在表格中,如图8(a)中,表格标题与某单元格均具有‘要求’实体,匹配实体所在行列即可定位表头朝向,因此,需对标题内表格种类实体进行标注。利用切分出的表格标题短语作为样本数据,采用BIO[19]标注法标注训练集,设置表格种类实体标签字典[“O”:0,“B-TAR”:1,“I-TAR”:2],如标题为“表2 各年龄组哲罗鱼体长与体质量实测值”,表头单元格内有‘实测值’实体,标注方法为‘…体O质量O实B-TAR测I-TAR值I-TAR…’。

图8 渔业标准表格类型示例

Fig.8 Examples of types of fishery standard forms

2.2.3 数据集及超参数设置 试验在Windows 10系统中进行,显卡为GeForce RTX 1660Ti。渔业标准表格数据集共1 062张,数据集整体按7∶3比例划分为训练集、测试集,两种数据集中结构化与非结构化表格均分。因数据集整体数量较少,划分验证集会使得训练集规模下降,影响整体效果,故本研究中采用简单交叉验证,将训练集按7∶3划分为训练集和验证集,并用验证集多次试验,选择模型最优超参数。渔业标准表格内分为表头与下属单元格,因预测对象为表头,试验中将表头划分为正样本,下属单元格划分为负样本。BERT-BiLSTM-CRF模型和AbTransformer模型的超参数设置如表1、表2所示。

表1 BERT-BiLSTM-CRF模型超参数设置

Tab.1 Hyperparameter setting of BERT-BiLSTM-CRF model

参数parameter描述description数值valuedw字向量维度 word vector dimension100dp随机失活层 dropout0.5lr学习率 learning rate1×10-3hn隐藏单元数 number of hidden cells128bs批处理数 number of batches16

表2 AbTransformer模型超参数设置

Tab.2 Hyperparameter setting of AbTransformer model

参数parameter描述description数值valuehw隐藏层维度 hide layer dimension768eh编码器层数 number of encoder layers2th多头注意力头数 heads of multi-head attention8dp随机失活层 dropout0.1lr学习率 learning rate5×10-3bs批大小 batch size512

2.2.4 评估指标 采用准确率(precision,P)、召回率(recall,R)和F1值(F1 score)3个指标[20],对消融试验预测结果进行评价。P值优化目标是提高检验呈阳性的样本中实际为真的比例,也就是提高检验的准确率;R值优化目标是将样本中实际为真的样本检测出来;F1值是P值和R值的调和平均,希望训练一个能够较好拟合样本数据同时不放过任何可能性的模型。渔业标准表格中以表头与单元格作为正负样本,样本比例不平衡。因F1值优化目标过于注重准确性,为保证模型不受样本不平衡的影响,提高模型的可靠性,采用ROC(receiver operating characteristic curve)曲线下的面积(AUC)值[21]对不同模型进行评价。计算公式为

AUC=∑I(PM,PN)/(M×N),

(7)

(8)

其中:M为正样本数量;N为负样本数量;P表示预测得分,PM表示预测值为正样本,PN表示预测值为负样本;I(PM,PN)为正负样本组成的样本对。

2.3 结果与分析

试验1:针对渔业标准表格表头位置不固定、表头可能出现在行和列之中的问题,将MLP、Transformer-CRF[13]、TableNet[22]、TabTransformer-MLP[14]模型与本研究中AbTransformer模型进行多次对比试验,选择最平稳模型。其中,MLP是机器学习应用于表格信息抽取的常用模型,Transformer-CRF、TableNet和TabTransformer是最近用于表格信息抽取的深度学习基线模型。为保证试验结果不受渔业标准表格正负样本不平衡的影响,以AUC值作为评价指标。

从图9可见,深度学习主要基线模型TabTransformer和机器学习模型MLP中由ROC曲线围成的面积相差不大,ROC曲线具有不随样本比例而改变的良好性质,因此,能够在样本比例不均衡的情况下较好地反映出分类器的优劣,而本研究中AbTransformer模型的ROC曲线高于以上两个模型,说明本研究中模型在表头位置不固定的渔业标准表格数据集的抽取性能更优。此外,AbTransformer模型中由ROC曲线围成的面积也大于Transformer-CRF和TableNet深度学习基线模型,进一步说明本文中提出的模型在Transformer模型中添加表格行位置编码后,有效提高了表格信息抽取的鲁棒性。

图9 5种模型的AUC值对比图

Fig.9 Comparison chart of AUC values in five models

AbTransformer模型与4个基线模型的AUC值结果如表3所示,本研究中模型AbTransformer相较于深度学习模型TabTransformer AUC值提升了1.18%,相较于机器学习模型MLP AUC值提升了1.46%。

表3 不同模型下表格信息抽取AUC值对比结果

Tab.3 Comparison results of table extraction AUC values in different models

模型modelAUC/%MLP82.01TableNet76.06Transformer-CRF79.92TabTransformer82.29AbTransformer83.47

试验2:为证明本研究中所提出结合规则匹配与深度学习方法的有效性,试验将基于规则匹配RBM模型、AbTransformer模型和RBM-AbTransformer模型对所有渔业标准表格信息进行抽取。本文中以F1值作为评价指标。3个模型的消融试验结果如表4所示,其中,RBM-AbTransformer模型的准确率、召回率和F1值均为最高,分别为96.88%、94.68%和95.77%。两种模型200次迭代训练过程如图10所示,因基于规则匹配方法未参加迭代训练,图中未给出训练曲线。

表4 消融试验结果

Tab.4 Ablation experiment results

模型model准确率/%precision召回率/%recallF1值/%F1 score规则匹配RBM79.2081.5079.63AbTransformer89.1090.4990.50RBM-AbTransformer96.8894.6895.77

图10 两种模型的F1值对比图

Fig.10 Comparison chart of F1 score in two models

从图10可见,训练过程中,RBM-AbTransformer模型的F1值始终高于AbTransformer模型。因渔业标准表格种类多样,仅使用AbTransformer模型进行训练测试,在较易识别的表格中仍会因为深度学习的特性造成误判,导致F1值无法进一步提高,而本文中提出的模型同时使用了RBM对规则化表格进行识别,与AbTransformer模型结合来弥补模型对结构化表格的误识别,有效提高了准确率和召回率。分析原因,基于规则匹配方法RBM仅限于表格结构与表格标题能与规则库匹配,且表格标题识别的实体受准确率的影响,F1值较差。基于AbTransformer模型,虽然添加了行位置编码,可充分识别表格行列表头,但由于数据量较少,故表格信息抽取效果并不理想。结合RBM与AbTransformer模型进行表格信息抽取,可有效利用规则和行位置向量。

3 讨论

3.1 表格信息抽取方法的选择

渔业标准表格信息具有数量大、类型杂、结构多样和难以辨识等明显的特征。 本研究中,针对渔业标准表格结构多样、表头行列嵌套导致位置不固定的问题,提出基于规则匹配和深度学习相结合的表格信息抽取方法,通过对渔业标准表格进行分类,划分为规则表格和非规则表格,其中,规则表格分为数值规则表格与标题规则表格,数值规则表格可直接采用RBM法抽取,标题规则表格需对标题进行命名实体识别后再定义模板抽取。由于NER技术在渔业标准识别上已趋于成熟,故采用BERT-BiLSTM-CRF模型[16]进行标题实体识别。随着深度学习的发展,不依赖输入时序的Transformer结构在表格信息抽取中取得了较好效果并得到广泛应用。由于TabTransformer[14]模型是在Transformer的基础上提出的,对嵌套等复杂表格信息抽取有较好的效果,故本研究中采用Transformer进行非规则表格信息抽取,同时针对渔业标准非规则表格表头位置不固定的问题,在Transformer基础上添加了行位置编码以获取表格行列位置,借鉴TabTransformer的思想,添加了MLP层,提出了AbTransformer模型,以实现表头定位并进行抽取,最后将基于规则匹配与基于深度学习的方法结合,并提出了RBM-AbTransformer渔业标准表格信息抽取方法。

3.2 基于RBM-AbTransformer的表格信息抽取效果

渔业标准表格结构复杂多变,对信息抽取效果造成了一定影响,所以如何准确抽取表格信息是目前需要解决的难题。本研究中提出的AbTransformer模型,相较于TableNet深度学习模型[22],AUC值提升了7.41%,相较于TabTransformer-MLP深度学习模型[14],AUC值提升了1.18%,体现了AbTransformer模型在处理渔业标准表格表头不固定问题上的有效性。与独立的规则匹配RBM模型和AbTransformer深度学习模型相比,本文中提出的将二者相结合的RBM-AbTransformer模型,更注重于渔业标准表格信息抽取整体的准确度,通过规则匹配方法对深度学习造成的误判进行弥补,提高了整体准确率。RBM-AbTransformer模型的准确率、召回率和F1值,较AbTransformer模型分别提高了7.78%、4.19%和5.27%。综上所述,本研究中提出的RBM-AbTransformer渔业标准表格信息抽取方法作为一种新方法,在渔业标准表格信息抽取方面达到较佳抽取效果,同时也为其他领域的表格信息抽取提供了一种新思路。

4 结论

1)本研究中从渔业标准表格结构出发,分析了表格的结构组成,由此设计了结合规则和深度学习的渔业标准表格信息抽取方法,用于解决表格结构多样、表头位置不固定的问题。

2)在Transformer模型基础上,引入行绝对位置编码到位置编码中,解决了Transformer模型对行位置获取效果较差的问题。

3)本研究中提出的RBM-AbTransformer渔业标准表格信息抽取模型的准确率、召回率和F1值分别达到了96.88%、94.68%和95.77%。表明该模型有效提升了表格信息抽取的准确度,提高了处理复杂表格的鲁棒性。

本研究中提出的RBM-AbTransformer渔业标准表格信息抽取方法,通过串联两种方法提高准确率的同时也增加了处理时间,但采集的初始数据集需要人工制定规则并在筛选后输入模型中进行训练,因渔业标准需更新修订,人工填充规则库并不贴近实际,后期研究将减少模型处理时间,并采用半监督的SnowBall方法完善规则库自动扩充,在抽取表格数据的基础上扩展渔业标准知识图谱,充分结合现有知识图谱,进一步增强渔业标准知识在问答系统等领域的应用。

参考文献:

[1] 于红,冯艳红,李晗,等.渔业标准体系化服务与决策系统研究[J].大连海洋大学学报,2019,34(2):260-266.

YU H,FENG Y H,LI H,et al.Establishment of a systematic service and assistant decision-making system for fishery standard[J].Journal of Dalian Ocean University,2019,34(2):260-266.(in Chinese)

[2] 杨鹤,于红,刘巨升,等.基于BERT+BiLSTM+CRF深度学习模型和多元组合数据增广的渔业标准命名实体识别[J].大连海洋大学学报,2021,36(4):661-669.

YANG H,YU H,LIU J S,et al.Fishery standard named entity recognition based on BERT+BiLSTM+CRF deep learning model and multivariate combination data augmentation[J].Journal of Dalian Ocean University,2021,36(4):661-669.(in Chinese)

[3] JIANG J C,SIMSEK M,KANTARCI B,et al.TabCellNet:deep learning-based tabular cell structure detection[J].Neurocomputing,2021,440:12-23.

[4] RASTAN R,PAIK H Y,SHEPHERD J.TEXUS:a task-based approach for table extraction and understanding[C]//Proceedings of the 2015 ACM symposium on document engineering.New York:ACM,2015:25-34.

[5] GOTTSCHALK S,DEMIDOVA E,ALAM M,et al.Tab2KG:semantic table interpretation with lightweight semantic profiles[J].Semantic Web,2022,13(3):571-597.

[6] 唐锐,邓建新,叶志兴,等.PDF文件的表格抽取研究综述[J].计算机应用与软件,2021,38(7):1-7,22.

TANG R,DENG J X,YE Z X,et al.Survey of table extraction in PDF documents[J].Computer Applications and Software,2021,38(7):1-7,22.(in Chinese)

[7] SHIGAROV A,KHRISTYUK V,MIKHAILOV A.TabbyXL:software platform for rule-based spreadsheet data extraction and transformation[J].SoftwareX,2019,10:100270.

[8] 赵洪,王芳.大规模异构的政府统计报表信息抽取与集成融合研究[J].情报学报,2020,39(9):938-948.

ZHAO H,WANG F.Information extraction and integration of large-scale heterogeneous socio-economic statistical statements[J].Journal of the China Society for Scientific and Technical Information,2020,39(9):938-948.(in Chinese)

[9] AZZI R,DESPRES S,DIALLO G.KEFT:knowledge extraction and graph building from statistical data tables[M]//Advances in computational collective intelligence.Cham:Springer International Publishing,2020:701-713.

[10] CHEN T Q,GUESTRIN C.XGBoost:a scalable tree boosting system[C]//Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining.New York:ACM,2016:785-794.

[11] LI Y R,HUANG Z,YAN J C,et al.GFTE:graph-based financial table extraction[C]//International conference on pattern recognition.Cham:Springer,2021:644-658.

[12] 刘巨升,于红,杨惠宁,等.基于多核卷积神经网络(BERT+Multi-CNN+CRF)的水产医学嵌套命名实体识别[J].大连海洋大学学报,2022,37(3):524-530.

LIU J S,YU H,YANG H N,et al.Recognition of nested named entities in aquature medicine based on multi-kernel convolution (BERT+Multi-CNN+CRF)[J].Journal of Dalian Ocean University,2022,37(3):524-530.(in Chinese)

[13] 毛尚伟,张志清,汤槟,等.基于Transfer-CRF神经网络的电子表格智能识别算法[J].重庆理工大学学报(自然科学版),2019,33(10):155-160.

MAO S W,ZHANG Z Q,TANG B,et al.Intelligent recognition algorithm of spreadsheet based on Transfer-CRF neural network[J].Journal of Chongqing University of Technology (Natural Science Edition),2019,33(10):155-160.(in Chinese)

[14] HUANG X,KHETAN A,CVITKOVIC M,et al.TabTransformer:tabular data modeling using contextual embeddings[EB/OL].arXiv:2012.06678.https://arxiv.org/abs/2012.06678.

[15] SHWARTZ-ZIV R,ARMON A.Tabular data:deep learning is not all you need[J].Information Fusion,2022,81:84-90.

[16] 任媛,于红,杨鹤,等.融合注意力机制与BERT+BiLSTM+CRF模型的渔业标准定量指标识别[J].农业工程学报,2021,37(10):135-141.

REN Y,YU H,YANG H,et al.Recognition of quantitative indicator of fishery standard using attention mechanism and the BERT+BiLSTM+CRF model[J].Transactions of the Chinese Society of Agricultural Engineering,2021,37(10):135-141.(in Chinese)

[17] DEVLIN J,CHANG M W,LEE K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[EB/OL].arXiv:1810.04805.https://arxiv.org/abs/1810.04805.

[18] VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all You need[C]//Proceedings of the 31st international conference on neural information processing systems.New York:ACM,2017:6000-6010.

[19] 程名,于红,冯艳红,等.融合注意力机制和BiLSTM+CRF的渔业标准命名实体识别[J].大连海洋大学学报,2020,35(2):296-301.

CHENG M,YU H,FENG Y H,et al.Fishery standard named entity recognition with integrated attention mechanism and BiLSTM+CRF[J].Journal of Dalian Ocean University,2020,35(2):296-301.(in Chinese)

[20] 杨鹤,于红,孙哲涛,等.基于双重注意力机制的渔业标准实体关系抽取[J].农业工程学报,2021,37(14):204-212.

YANG H,YU H,SUN Z T,et al.Fishery standard entity relation extraction using dual attention mechanism[J].Transactions of the Chinese Society of Agricultural Engineering,2021,37(14):204-212.(in Chinese)

[21] FAWCETT T.An introduction to ROC analysis[J].PatternRecognition Letters,2006,27(8):861-874.

[22] ARIK Ö,PFISTER T.TabNet:attentive interpretable tabular learning[J].Proceedings of the AAAI Conference on Artificial Intelligence,2021,35(8):6679-6687.

Fishery standard table information extraction method based on rule matching and deep learning AbTransformer

SUN Zhetao1,2, YU Hong1,2*, SONG Qishu1,2, LI Guangyu1,2, SHAO Liming1,2,YANG Huining1,2, ZHANG Sijia1,2, SUN Hua1,2

(1.Key Laboratory of Marine Information Technology of Liaoning Province, College of Information Engineering, Dalian Ocean University, Dalian 116023, China; 2.Key Laboratory of Environment Controlled Aquaculture (Dalian Ocean University), Ministry of Education, Dalian 116023, China)

Abstract:In order to solve the problem of poor extraction effect caused by the diversity of table structure and unfixed header position in fishery standard text, a table information extraction method combining rule based on matching (RBM) and Absolute Transformer (AbTransformer) is proposed. The rule template and BERT-BiLSTM-CRF model are used to extract information from rule tables. The Transformer is improved by introducing row position coding into the position coding module and splicing it with the feature vector to obtain the line and column positions of the table to extract the irregular table information. The standard table information extraction is completed by combining the two. The results showed that the AbTransformer model proposed in this paper had the AUC value of 1.46% higher than the machine learning MLP model did, and 1.18% higher than the TabTransformer model did. RBM-AbTransformer method had 7.78% higher accuracy, 4.19% higher recall and 5.27% higher F1 score compared with AbTransformer method. The findings indicated that the information extraction method of fishery standard form combining RBM and AbTransformer effectively solved the problems of diversified table structures and unfixed header positions, and that improved the overall effect of information extraction of fishery standard form.

Key words:fishery standard; entity recognition; table extraction; deep learning; Transformer model

中图分类号S 932.2; TP 391

文献标志码:A

DOI10.16535/j.cnki.dlhyxb.2022-305

文章编号:2095-1388(2023)01-0140-09

收稿日期:2022-10-11

基金项目:设施渔业教育部重点实验室(大连海洋大学)开放课题(2021-MOEKLECA-KF-05);国家自然科学基金(61802046)

作者简介:孙哲涛(1998—),男,硕士研究生。E-mail:1638714363@qq.com

通信作者 于红(1968—),女,博士,教授。E-mail:yuhong@dlou.edu.cn