Please wait a minute...

大连海洋大学学报  2021, Vol. 36 Issue (4): 661-669    DOI: 10.16535/j.cnki.dlhyxb.2021-035
  |
基于BERT+BiLSTM+CRF深度学习模型和多元组合数据增广的渔业标准命名实体识别
杨鹤,于红,刘巨升,杨惠宁,孙哲涛,程名,任媛,张思佳
1.大连海洋大学 信息工程学院,辽宁省海洋信息技术重点试验室,辽宁 大连 116023;2.设施渔业教育部重点试验室,辽宁 大连 116023
Fishery standard named entity recognition based on BERT+BiLSTM+CRF deep learning model and multivariate combination data augmentation
YANG He, YU Hong, LIU Jusheng, YANG Huining,SUN Zhetao,CHENG Ming, REN Yuan,ZHANG Sijia
1.College of Information Engineering, Key Laboratory of Marine Information Technology of Liaoning Province, Dalian Ocean University, Dalian 116023, China; 2.Key Laboratory of Environment Controlled Aquaculture, Ministry of Education, Dalian 116023, China
下载:  HTML  PDF (765KB) 
输出:  BibTeX | EndNote (RIS)      
摘要 为解决渔业标准命名实体识别任务中部分实体语料分布稀疏导致的效果不佳问题,提出了基于多元组合数据增广(data augmentation method based on multiple combination,MCA)的渔业标准命名实体识别方法,该方法融合了基于领域词典的联合替换算法(joint replacement algorithm based on domain dictionary,DDR)、基于槽点保护的随机删除算法(random deletion algorithm based on slot protection,SPD)和基于槽点保护的随机插入算法(random insertion algorithm based on slot protection,SPI)进行语料库的数据增广,首先构建“水产品名称”同类词词典和领域同义词词典,通过两个词典分别对“水产品名称”类实体和随机词进行同类词替换和同义词替换,生成新的句子,以增加目标实体数量和句子的多样性,然后在基于槽点保护的情况下对原句子分别进行随机删除和随机插入操作,在保留实体及上下文特征的情况下进一步丰富语料的多样性,提高模型的泛化能力。结果表明,采用基于融合注意力机制的BERT+BiLSTM+CRF网络模型和多元组合数据增广方法进行渔业标准命名实体识别,准确率、召回率、F1值分别达到了91.73%、88.64%、90.16%,具有较好的效果。研究表明,基于多元组合数据增广的渔业标准命名实体识别方法有效解决了部分实体样本稀疏问题,提升了渔业标准命名实体识别的整体效果。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
杨鹤,于红,刘巨升,杨惠宁,孙哲涛,程名,任媛,张思佳
关键词:  深度学习  实体识别  数据增广  BERT  双向长短时记忆网络  渔业标准    
Abstract: In order to solve the problem of poor effect caused by sparse corpus distribution of some entities in fishery standard named entity recognition task, a method of fishery standard named entity recognition is proposed based on multiple combination data enlargement, which combines the joint replacement algorithm based on domain dictionary(DDR), random deletion algorithm based on slot protection(SPD)and random insertion algorithm based on slot protection(SPI)to augment the data of corpus.First the“name”of fishery products similar synonyms dictionary word dictionary and domain is established through two dictionaries in fishery product name entity and random words similar to replace and synonyms replacement, new sentences are generated to increase the number of target entities and the diversity of the sentence, and then in the case of trough point based protection of the original sentence for random delete and random insertion operation respectively, while keeping the entity and its context feature rich the diversity of the corpora, under the condition of improving the generalization ability of the model.In order to verify the effectiveness of the proposed method, several groups of comparative experiments were designed.The results showed that there was 91.73% of identification accuracy, 88.64% of recall rate and 90.16% of F1 value of fishery standard named entity based on the method of multiple combination data amplification, with a good effect.The findings indicate that the fishery standard named entity recognition method based on multivariate combination data augmentation proposed here effectively solves the problem of sparse part of the entity samples and improves the overall effect of fishery standard named entity recognition.
Key words:  deep learning    entity recognition    data augmentation    BERT    BiLSTM    fishery standard
               出版日期:  2021-09-07      发布日期:  2021-09-07      期的出版日期:  2021-09-07
中图分类号:  S 932.2  
  TP 391  
基金资助: 设施渔业教育部重点实验室开放课题(2021MOEKLECA-KF-05);辽宁省重点研发计划项目(2020JH2/10100043);国家自然科学基金(31972846)
引用本文:    
杨鹤, 于红, 刘巨升, 杨惠宁, 孙哲涛, 程名, 任媛, 张思佳. 基于BERT+BiLSTM+CRF深度学习模型和多元组合数据增广的渔业标准命名实体识别[J]. 大连海洋大学学报, 2021, 36(4): 661-669.
YANG He, YU Hong, LIU Jusheng, YANG Huining, SUN Zhetao, CHENG Ming, REN Yuan, ZHANG Sijia. Fishery standard named entity recognition based on BERT+BiLSTM+CRF deep learning model and multivariate combination data augmentation. Journal of Dalian Ocean University, 2021, 36(4): 661-669.
链接本文:  
https://xuebao.dlou.edu.cn/CN/10.16535/j.cnki.dlhyxb.2021-035  或          https://xuebao.dlou.edu.cn/CN/Y2021/V36/I4/661
[1] 张晓鹏, 许志远, 曲胜, 邱文轩, 翟泽宇. 基于改进YOLOv5深度学习的海上船舶识别算法[J]. 大连海洋大学学报, 2022, 37(5): 866-872.
[2] 张胜茂, 孙永文, 樊伟, 唐峰华, 崔雪森, 伍玉梅. 面向海洋渔业捕捞生产的深度学习方法应用研究进展[J]. 大连海洋大学学报, 2022, 37(4): 683-337.
[3] 刘巨升, 于红, 杨惠宁, 邵立铭, 宋奇书, 李光宇, 张思佳, 孙华. 基于多核卷积神经网络(BERT+Multi-CNN+CRF)的水产医学嵌套命名实体识别[J]. 大连海洋大学学报, 2022, 37(3): 524-530.
[4] 何津民, 张丽珍. 基于自注意力机制和CNN-LSTM深度学习的对虾投饵量预测模型[J]. 大连海洋大学学报, 2022, 37(2): 304-311.
[5] 赵梦, 于红, 李海清, 胥婧雯, 程思奇, 谷立帅, 张鹏, 韦思学, 郑国伟. 融合SKNet与YOLOv5深度学习的养殖鱼群检测[J]. 大连海洋大学学报, 2022, 37(2): 312-319.
[6] 文莉莉, 孙苗, 邬满. 基于注意力机制和Faster R-CNN深度学习的海洋目标识别模型[J]. 大连海洋大学学报, 2021, 36(5): 859-865.
[7] 袁红春, 刘慧, 张硕, 陈冠奇. 基于深度学习和典型相关分析的渔情预测方法[J]. 大连海洋大学学报, 2021, 36(4): 670-678.
[8] 贺琳, 张雨, 巴韩飞. 基于注意力机制和深度学习模型的外来海洋生物命名实体识别[J]. 大连海洋大学学报, 2021, 36(3): 503-509.
[9] 王羽徵, 程远, 毕海, 于秋玉, 刘丹. 基于深度学习VGG网络模型的海洋单细胞藻类识别算法[J]. 大连海洋大学学报, 2021, 36(2): 334-339.
[10] 俞伟聪, 郭显久, 刘钰发, 刘婷, 李雅薇. 基于轻量化深度学习Mobilenet-SSD网络模型的海珍品检测方法[J]. 大连海洋大学学报, 2021, 36(2): 340-346.
[11] 于红. 水产动物目标探测与追踪技术及应用研究进展[J]. 大连海洋大学学报, 2020, 35(6): 793-804.
[12] 袁红春, 张硕. 基于Faster R-CNN和图像增强的水下鱼类目标检测方法[J]. 大连海洋大学学报, 2020, 35(4): 612-619.
[13] 程名, 于红, 冯艳红, 任媛, 付博, 刘巨升, 杨鹤. 融合注意力机制和BiLSTM+CRF的渔业标准命名实体识别[J]. 大连海洋大学学报, 2020, 35(2): 296-301.
[14] 于红, 冯艳红, 李晗, 戚浩然, 刘海映, 苏延明, 庞建宝. 渔业标准体系化服务与决策系统研究[J]. 大连海洋大学学报, 2019, 34(2): 260-266.
[15] 孙娟娟, 于红, 冯艳红, 彭松, 程名, 卢晓黎, 董婉婷, 崔榛. 基于深度学习的渔业领域命名实体识别[J]. 大连海洋大学学报, 2018, 33(2): 265-269.
No Suggested Reading articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed