Please wait a minute...

大连海洋大学学报  2023, Vol. 38 Issue (1): 140-148    DOI: 10.16535/j.cnki.dlhyxb.2022-305
  |
基于规则匹配与深度学习AbTransformer的渔业标准表格信息抽取方法
孙哲涛,于红*,宋奇书,李光宇,邵立铭,杨惠宁,张思佳,孙华
1.大连海洋大学 信息工程学院,辽宁省海洋信息技术重点实验室,辽宁 大连 116023;2.设施渔业教育部重点实验室(大连海洋大学),辽宁 大连 116023
Fishery standard table information extraction method based on rule matching and deep learning AbTransformer
SUN Zhetao, YU Hong*, SONG Qishu, LI Guangyu, SHAO Liming,YANG Huining, ZHANG Sijia, SUN Hua
1.Key Laboratory of Marine Information Technology of Liaoning Province, College of Information Engineering, Dalian Ocean University, Dalian 116023, China; 2.Key Laboratory of Environment Controlled Aquaculture (Dalian Ocean University), Ministry of Education, Dalian 116023, China
下载:  HTML  PDF (7368KB) 
输出:  BibTeX | EndNote (RIS)      
摘要 为解决渔业标准文本中表格结构多样、表头位置不固定导致抽取效果不佳的问题,提出一种结合规则匹配(rule-based-matching,RBM)与AbTransformer(Absolute Transformer)深度学习模型的表格信息抽取方法,该方法对规则类表格信息采用规则模板与BERT-BiLSTM-CRF模型进行信息抽取,对非规则类表格信息采用改进的Transformer进行抽取,即在位置编码模块中引入行位置编码,与特征向量拼接以获取表格行列位置。结果表明:本文中提出的AbTransformer模型相较于机器学习MLP模型,AUC值提升了1.46%,相较于TabTransformer模型,AUC值提高了1.18%;本文中提出的RBM-AbTransformer模型与AbTransformer模型相比,准确率、召回率和F1值分别提高了7.78%、4.19%和5.27%。研究表明,结合RBM与 AbTransformer的渔业标准表格信息抽取方法,有效解决了表格结构多样、表头位置不固定的问题,提升了渔业标准表格信息抽取的整体效果。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
孙哲涛
于红
宋奇书
李光宇
邵立铭
杨惠宁
张思佳
孙华
关键词:  渔业标准  实体识别  表格信息抽取  深度学习  Transformer模型    
Abstract: In order to solve the problem of poor extraction effect caused by the diversity of table structure and unfixed header position in fishery standard text, a table information extraction method combining rule based on matching (RBM) and Absolute Transformer (AbTransformer) is proposed. The rule template and BERT-BiLSTM-CRF model are used to extract information from rule tables. The Transformer is improved by introducing row position coding into the position coding module and splicing it with the feature vector to obtain the line and column positions of the table to extract the irregular table information. The standard table information extraction is completed by combining the two. The results showed that the AbTransformer model proposed in this paper had the AUC value of 1.46% higher than the machine learning MLP model did, and 1.18% higher than the TabTransformer model did. RBM-AbTransformer method had 7.78% higher accuracy, 4.19% higher recall and 5.27% higher F1 score compared with AbTransformer method. The findings indicated that the information extraction method of fishery standard form combining RBM and AbTransformer effectively solved the problems of diversified table structures and unfixed header positions, and that improved the overall effect of information extraction of fishery standard form.
Key words:  fishery standard    entity recognition    table extraction    deep learning    Transformer model
               出版日期:  2023-03-02      发布日期:  2023-03-02      期的出版日期:  2023-03-02
中图分类号:  S 932.2  
  TP 391  
基金资助: 设施渔业教育部重点实验室(大连海洋大学)开放课题(2021-MOEKLECA-KF-05);国家自然科学基金(61802046)
引用本文:    
孙哲涛, 于红, 宋奇书, 李光宇, 邵立铭, 杨惠宁, 张思佳, 孙华. 基于规则匹配与深度学习AbTransformer的渔业标准表格信息抽取方法[J]. 大连海洋大学学报, 2023, 38(1): 140-148.
SUN Zhetao, YU Hong, SONG Qishu, LI Guangyu, SHAO Liming, YANG Huining, ZHANG Sijia, SUN Hua. Fishery standard table information extraction method based on rule matching and deep learning AbTransformer. Journal of Dalian Ocean University, 2023, 38(1): 140-148.
链接本文:  
https://xuebao.dlou.edu.cn/CN/10.16535/j.cnki.dlhyxb.2022-305  或          https://xuebao.dlou.edu.cn/CN/Y2023/V38/I1/140
[1] 张晓鹏, 许志远, 曲胜, 邱文轩, 翟泽宇. 基于改进YOLOv5深度学习的海上船舶识别算法[J]. 大连海洋大学学报, 2022, 37(5): 866-872.
[2] 张胜茂, 孙永文, 樊伟, 唐峰华, 崔雪森, 伍玉梅. 面向海洋渔业捕捞生产的深度学习方法应用研究进展[J]. 大连海洋大学学报, 2022, 37(4): 683-337.
[3] 刘巨升, 于红, 杨惠宁, 邵立铭, 宋奇书, 李光宇, 张思佳, 孙华. 基于多核卷积神经网络(BERT+Multi-CNN+CRF)的水产医学嵌套命名实体识别[J]. 大连海洋大学学报, 2022, 37(3): 524-530.
[4] 何津民, 张丽珍. 基于自注意力机制和CNN-LSTM深度学习的对虾投饵量预测模型[J]. 大连海洋大学学报, 2022, 37(2): 304-311.
[5] 赵梦, 于红, 李海清, 胥婧雯, 程思奇, 谷立帅, 张鹏, 韦思学, 郑国伟. 融合SKNet与YOLOv5深度学习的养殖鱼群检测[J]. 大连海洋大学学报, 2022, 37(2): 312-319.
[6] 文莉莉, 孙苗, 邬满. 基于注意力机制和Faster R-CNN深度学习的海洋目标识别模型[J]. 大连海洋大学学报, 2021, 36(5): 859-865.
[7] 杨鹤, 于红, 刘巨升, 杨惠宁, 孙哲涛, 程名, 任媛, 张思佳. 基于BERT+BiLSTM+CRF深度学习模型和多元组合数据增广的渔业标准命名实体识别[J]. 大连海洋大学学报, 2021, 36(4): 661-669.
[8] 袁红春, 刘慧, 张硕, 陈冠奇. 基于深度学习和典型相关分析的渔情预测方法[J]. 大连海洋大学学报, 2021, 36(4): 670-678.
[9] 贺琳, 张雨, 巴韩飞. 基于注意力机制和深度学习模型的外来海洋生物命名实体识别[J]. 大连海洋大学学报, 2021, 36(3): 503-509.
[10] 王羽徵, 程远, 毕海, 于秋玉, 刘丹. 基于深度学习VGG网络模型的海洋单细胞藻类识别算法[J]. 大连海洋大学学报, 2021, 36(2): 334-339.
[11] 俞伟聪, 郭显久, 刘钰发, 刘婷, 李雅薇. 基于轻量化深度学习Mobilenet-SSD网络模型的海珍品检测方法[J]. 大连海洋大学学报, 2021, 36(2): 340-346.
[12] 于红. 水产动物目标探测与追踪技术及应用研究进展[J]. 大连海洋大学学报, 2020, 35(6): 793-804.
[13] 袁红春, 张硕. 基于Faster R-CNN和图像增强的水下鱼类目标检测方法[J]. 大连海洋大学学报, 2020, 35(4): 612-619.
[14] 程名, 于红, 冯艳红, 任媛, 付博, 刘巨升, 杨鹤. 融合注意力机制和BiLSTM+CRF的渔业标准命名实体识别[J]. 大连海洋大学学报, 2020, 35(2): 296-301.
[15] 于红, 冯艳红, 李晗, 戚浩然, 刘海映, 苏延明, 庞建宝. 渔业标准体系化服务与决策系统研究[J]. 大连海洋大学学报, 2019, 34(2): 260-266.
No Suggested Reading articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed