近年来,人工智能在农业和渔业领域的应用不断拓展[1-2],已成为推动水产养殖智能化发展的关键因素。病害是影响水产养殖业的重要因素,而病害诊断是提升养殖质量的关键环节[3]。AI技术可辅助实现高效、精准的病害诊断与防控,提升整体效益。水产动物疾病症状复杂容易引发其他疾病,有效诊断依赖专业知识的理解和运用。在智能诊断领域,知识图谱通过整合领域知识已实现初步应用[4],但水产养殖领域多聚焦于单模态文本信息,忽略了不同模态间存在的潜在关联,难以充分挖掘图像与文本间的语义互补关系,而关系抽取是知识图谱构建的主要任务之一[5]。因此,当前亟需一种适用于水产动物疾病诊断的跨模态关系抽取方法。
在构建水产领域的知识图谱过程中,相关的信息抽取与命名实体识别等方法不断涌现。杨鹤等[6]提出了基于双重注意力机制的实体关系抽取方法,有效解决了渔业标准关系抽取任务中存在的重叠关系问题。刘巨升等[7]提出一种基于多核卷积的命名实体识别模型,有效提高了水产医学命名实体识别中存在的嵌套实体识别准确率。孙哲涛等[8]针对表格结构多样、表头位置不固定问题,提出一种结合规则匹配与深度学习的渔业标准表格信息抽取方法。沙明洋等[9]将动态权重机制引入多模型集成的事件抽取方法中,有效解决了水产动物疾病防治事件抽取过程中专有名词模糊、实体长度过长等问题。宋奇书等[10]针对水产领域特定性强且语义复杂的问题,提出了基于改进BiRTE框架,采用RoBERTa全词掩码与动态掩码及自注意力机制的复杂关系抽取方法,提升了实体关系抽取的准确率。
为了突破单模态关系抽取的瓶颈,研究者开始探索多模态知识图谱的构建与应用。Wang等[11]构建了Richpedia,结合文本与视觉信息,提出了一个多模态知识图谱,为知识表示学习和计算机视觉任务提供了新的方向。随着多模态知识图谱[12]逐渐成为前沿研究热点,视觉-语言预训练(VLP)模型在该领域展现出巨大潜力[13]。对比语言-图像预处理(CLIP)[14],通过对比学习将文本与图像嵌入到同一语义空间,为跨模态检索奠定了基础[14]。视觉和语言转换模型(ViLT)[15]摒弃了传统的卷积网络(CNN),采用纯Transformer结构实现端到端多模态融合,极大地提升了计算效率[15]。Flamingo通过门控交叉注意力机制优化图文交互,在开放域问答任务中表现优异[16]。在此基础上,Li等[17提出了BLIP-2,一种模块化的预训练策略,通过冻结图像编码器并引入轻量级 Q-former 模块,结合大型语言模型,实现了低资源环境下的零样本图文理解与生成。然而,这些通用模型高度依赖大规模通用数据进行训练,在垂直领域应用时往往面临专业语义鸿沟,难以精准理解专业术语和特定领域概念。
在农业病害诊断领域,多模态技术已开始发展。Chen等[18]构建的AgriKG结合文本与视觉数据,拓展了农业知识图谱的应用。Zhou等[19]在作物病害少样本分类中取得了良好图文融合效果。然而,水产养殖领域仍缺乏对图像与文本深度融合的研究。
此外,现有模型ViLBERT在视觉-语言交互方面取得了一定进展,但在跨模态细粒度关系建模方面仍有明显不足[20]。Zheng等[21]设计了MNRE数据集及相应模型框架,尝试利用视觉证据增强关系抽取的准确性;然而,该方法在视觉-文本信息对齐方面仍然存在挑战,导致信息融合效果受限;随后,Zheng等[22]提出了基于视觉线索的多模态关系提取方法,通过图对齐技术有效结合文本与图像,提高了关系抽取的精度。Chen等[23]提出了混合Transformer实现多模态融合,但其仍侧重于多模态辅助补充单模态的实体关系识别,未能充分挖掘跨模态实体之间的语义互补性。He等[24]提出的MOREformer模型在该方向有所突破,但由于其数据集主要构建自新闻标题与图像,在处理长文本场景及水产病害领域时存在显著局限。在现有的多模态融合方法中,ViLBERT和 MOREformer均采用同一层次性特征交叉策略,然而,在水产养殖诊断领域,诊断报告和文献中大量专业术语及冗长句式描述,超出了通用模型的语义理解能力。同时,鱼病视觉症状往往非常相似且边界模糊,当多种病症并存时,单层次的视觉特征常难以实现精确分割,在跨模态关系抽取过程中导致实体重叠与匹配错误。故一次性同层融合无法有效保留并强化上述高难度语义信息,在长文本上下文建模和细粒度特征对齐方面表现受限。
针对上述问题,本文提出CRCformer模型,创新性地引入跨层残差融合与跨模态注意力机制,专注于水产病害诊断任务中的跨模态关系抽取。本研究基于MOREformer结构,分别采用ALBERT编码器与CLIP编码器提取文本与视觉特征,并通过跨层融合机制、多头注意力及双向注意力机制实现跨模态信息的高效交互。相比现有方法,CRCformer模型在复杂症状场景下的关系抽取任务中展现出更强的鲁棒性,并有效缓解了实体边界模糊问题,为水产病害多模态知识图谱构建提供了一种全新的优化策略。
为进行水产领域的跨模态关系抽取,本研究构建了一个专门针对水产动物疾病诊断的语料库(DLOU-CMRE)。水产动物疾病诊断的数据来源于专业书籍、学术文献与临床病历记录[25],并通过网络爬虫与系统化筛选相结合的方式收集。为了确保DLOU-CMRE数据集的质量和实用性,从水产病害的相关文献、诊断报告、渔业研究论文及专家诊断记录中精心挑选并收集了描述鱼类病害的图片和文本信息。文本信息详尽覆盖了病害描述、症状表现和病因分析等方面,而图片信息则专注于病变部位和病症特征,如病鱼的外部溃疡、鳍腐和鳞片异常等关键视觉特征。该工作不仅限于数据的收集,还包括对数据的细致标注。研究中专注于50种常见的鱼病,并针对每种疾病的图片和文本相关诊断内容进行了标注。此外,本研究提取了极具代表性的5种关系(表1),最终构建了一个包含7 018条标注数据的语料库,进一步丰富了语料库的深度和广度。对数据集的处理主要为以下三个阶段。
表1 跨模态实体关系
Tab.1 Cross-modal entity relationships
关系 relationship数量 quantity患病 has_disease966症状 has_symptom1 032患病部位 has_diseased_parts1 268病原体 has_pathogen1 620易感染 susceptible_to2 132
第一阶段包括文本实体标注和图片实体标注。利用doccano文本标注工具对文本数据进行命名实体识别(NER)的标注,提取关键实体,如病害名称、症状等;同时,使用labelImg图片标注工具对病害图像进行实体对象标注,标注图像中的病变区域、病症特征等关键部位,以实现跨模态数据中实体和对象的精准标注。
第二阶段为关系确定和数据集格式化。利用Python脚本对标注好的文本和图像数据进行处理,定义实体间的关系。Python脚本会将标注的数据转换为标准的关系抽取数据集格式,由头实体(图片中的病症)和尾实体(文本描述的病名或病状)构成实体对,定义实体对之间的语义关系,确定关系标签如“has_disease”、“has_symptom”等,将每一条图文数据封装为一条样本,最终数据集会以结构化的形式存储,便于后续模型训练和评估。
第三阶段为对重叠数据进行过滤。为了精确跨模态关系提取任务的范围,专注于利用跨模态信息中的图像数据对文本数据进行补充,本研究仅对那些图像中的实体与文本中的实体未形成共现关系的跨模态对进行关系抽取,从而确保提取任务的高效性和准确性。
构建完成的数据集按照6∶2∶2 的比例划分为训练集、测试集和验证集。
针对水产养殖病害诊断的跨模态关系抽取任务中存在的实体边界重叠模糊问题,本研究中提出了CRCformer模型(图1),采用双流编码结构,分别引入轻量级语言模型ALBERT作为文本编码器和CLIP模型作为视觉编码器,分别提取病害诊断文本中的深层语义特征与图像中的关键视觉信息。构建跨模态融合模块,引入跨层残差连接机制与跨模态注意力机制,实现在不同模态、不同层次间的信息高效交互与深度融合。该策略能够有效增强模型对模态间语义关联的捕捉能力,从而显著提升对重叠实体的识别精度与关系抽取的准确性。
图1 CRCformer网络结构
Fig.1 CRCformer network structure
1.2.1 文本编码器 在水产养殖病害诊断任务中,文本编码器将鱼类疾病名称、症状描述和易感鱼种等关键信息映射到语义向量空间,从而为图像特征的细粒度分析提供语义指导。本研究中引入基于ALBERT的文本编码器,其参数共享机制既大幅减少了模型参数量、加快了训练速度,又保留了对长文本深层语义的强表征能力。
首先,将词嵌入、位置嵌入与类型嵌入相加,以构建输入表示如公式(1)
E=Ew+Ep+Et。
(1)
式中:E为嵌入层的输出矩阵;Ew为词嵌入;Ep为位置嵌入;Et为类型嵌入。随后,通过线性投影将其映射到模型隐藏维度如公式(2)
Hemb=E×Wproj+bproj。
(2)
式中:Hemb为映射后的隐藏表示;Wproj为线性投影权重矩阵;bproj为对应的偏置项。
借助ALBERT的层间参数共享,所有编码层复用同一组自注意力与前馈网络参数,既保证了对复杂语义的深入捕捉,又有效控制了计算开销。
在跨模态融合阶段,文本隐藏状态与视觉隐藏状态按比例融合如公式(3)
H=Att(Q,K,V)+α×Hvisual。
(3)
式中:Q,K,V分别为由文本特征生成的查询向量(query)、键向量(key)和值向量(value),α为融合权重,Hvisual为视觉隐藏状态。该设计使模型在不同任务场景下,能够灵活调整文本与视觉信息的互补贡献,从而显著提升症状相似情况下的实体边界区分能力。
1.2.2 视觉输入编码器 视觉编码器主要通过自注意力机制和多层CNN提取和编码图像的特征信息,从而为跨模态关系抽取任务提供准确的视觉表示。
在图像与文本的特征嵌入阶段,分别采用视觉编码器与文本编码器对输入模态进行变换。图像嵌入的计算如公式(4)
Ev=CNN(I)+Pv。
(4)
式中:CNN(I)为通过CNN提取的图像特征;Pv为图像位置信息编码;Ev为二者相加构成最终的图像嵌入表示。对应文本嵌入的计算如公式(5)
Et=Emb(ω)+Pt。
(5)
式中:Emb(ω)为将文本序列ω映射为词向量的嵌入层输出;Pt为文本位置信息编码。
接下来,在视觉编码器中使用了和文本编码器一样的多头注意力机制,对输入特征进行提取。在注意力层后,模型通过多层感知机(MLP)进行特征转换,如公式(6)
MLP(X)=GELU(XW1+b1)W2+b2。
(6)
式中:W1、W2为权重矩阵;b1、b2为偏置。为提升训练稳定性并缓解梯度消失问题,模型将自注意力模块与MLP模块通过残差连接与层归一化方式集成,如公式(7)
Output=LN(MLP(LN(X+Att(X)))+X)。
(7)
式中:Att(X)为多头自注意力输出;LN为层归一化操作。Output为编码器层输出。
再通过联合对比损失优化图像和文本的关系,如公式(8)
(8)
式中:τ为温度参数,用于缩放对比损失。
1.2.3 跨模态跨层融合模块 本研究提出了一种基于跨层融合策略(图2)的跨模态关系抽取模型(CRCformer),其核心在于将文本与视觉特征的交互从一次性融合转变为逐层迭代式处理。在每一层网络中,CRCformer 分别从文本编码器与视觉编码器获取当前层的特征表示T(l)和V(l),随后借助多头注意力机制,将文本特征作为查询、视觉特征作为键值对,完成交互映射如公式(9)
(9)
图2 跨层融合策略
Fig.2 Cross-layer fusion strategy
式中:
为第l层文本到视觉的注意力输出;MultiHead(·)表示多头注意力计算函数。通过并行注意力头对不同子空间中的跨模态相关性进行建模。
该交互表示经前馈网络变换后,与原始文本特征残差相加,并通过层归一化处理,生成融合输出如公式(10)
(10)
式中:
表示第l层文本分支经过跨模态融合后的输出特征;FNN(·)为前馈神经网络;LayerNorm(·)表示层归一化操作。随后将
作为下一层文本输入T(l+1),视觉分支都采用对称流程。
模型引入了双向注意力机制以增强跨层和跨模态的特征交互。具体而言,每隔两层即嵌入一次跨模态注意力,使文本与视觉模态在多个层面实现双向信息流动。在一次计算中,文本特征作为查询(query)对视觉特征(key-value)施加注意力,在下一次计算中,视觉特征又反向作为查询,对文本特征建立反馈权重。该机制不仅能将图像中的关键视觉信息精准补充至文本描述,消除模态对齐偏差,还能借助文本语义对视觉特征提取进行约束,从而提升跨模态信息融合的整体效果。
为进一步提升跨模态特征的捕获能力,模型在双向注意力的基础上引入了多头注意力机制(图3)。核心是将输入特征按头划分为多个子空间,使模型能够在不同注意力头中并行挖掘细粒度的模态交互关系,其计算过程如公式(11)、(12)
MultiH(Q,K,V)=Con(head1,…,headh),
(11)
(12)
图3 跨模态注意力机制结构
Fig.3 Cross-modal attention mechanism structure
式中:
和
为用于映射的权重矩阵;而WO为最后的线性映射权重。
在跨模态注意力计算中,设视觉编码器第l层的隐藏表示如公式(13)
(13)
首先,分别通过键投影矩阵
及值投影矩
对其进行线性变换,得到视觉键与视觉值,如公式(14)、(15)
(14)
(15)
式中:Kvision用于对视觉特征进行索引,以便后续与文本查询匹配,Vvision用于完整的视觉信息。
通过这种划分,每个注意力头可聚焦不同维度的跨模态关联,从而有效缓解因视觉症状相似导致的特征混淆。
在计算出各注意力头的权重后,模型分别将文本注意力权重与视觉特征值向量、视觉注意力权重与文本特征值向量相乘,并在头维度上求和,得到融合后的跨模态信息,如公式(16)
(16)
最终,融合后的跨模态信息通过线性层投影,并采用残差连接与层归一化进行输出处理,如公式(17)
(17)
通过这种设计,残差连接不仅保留了文本特征的原始信息,还为梯度流动提供了捷径,而层归一化则有助于在训练过程中平衡各层梯度,有效防止梯度消失。
综上,结合多头与双向注意力,模型既能从多维度细粒度地挖掘跨模态互补信息,又能在不同模态间来回传递上下文,以实现高效且稳定的特征融合,显著提升了模型的鲁棒性和收敛速度。
试验环境见表2,采用训练轮次epoch为50,学习率learning_rate为2×10-5,batch size设置为128。本文通过控制变量法找到最适参数。
表2 环境配置
Tab.2 Environment configuration
试验环境 experimental environment配置 configuration操作系统 operating systemUbuntu 18.04.6 LTSCPU13th Gen Intel(R) Core(TM) i9-13900K运行内存 random access memory32 GB编程语言 programming languagePython 3.8开发环境 development environmentPyCharm 2023.1图形处理器GPUNVIDIA GeForce RTX4090计算统一设备体系结构CUDA12.1
在跨模态关系抽取中,通常使用4个度量来评估准确率(Acc),精确率(P),召回率(R)和F1得分。具体的评价指标计算如公式(18)~(21)所示
(18)
(19)
(20)
(21)
在本研究中,为了验证模型中每个模块和设计选择的有效性,进行了消融试验。本研究提出使用ALBERT模型和CLIP模型分别对文本和图像进行特征提取,并设计了一种新的跨模态融合策略。其中,主要分为两个模块。跨模态注意力模块(cross-modal attention,CMA),用于在视觉与文本特征之间建立互补性。跨层残差融合策略模块(cross-layer residual fusion,CRF),通过逐层更新并残差连接的方式,有效增强不同层级特征的深度交互。消融试验结果见表3。完整的CRCformer模型表现最佳,这表明跨层融合、跨模态注意力机制和残差连接的设计能够有效解决因实体边界不清晰而导致的实体重叠问题,并提高模型在提取水生疾病关系任务中的性能。
表3 消融试验
Tab.3 Ablation study %
跨模态注意力-CMA跨层残差融合-CRF准确率accuracyF1值F1-Score××83.6572.93√×84.3773.34×√87.6375.71√√88.3477.61
注:√表示包含该模块,×表示排除该模块。
Note:√means inclusion of the module,× means exclusion of the module.
1)移除全部模块后,准确率下降至83.65%,F1降至72.93%。
2)移除CRF后,准确率下降至84.37%,F1降至73.34%。
3)移除CMA后,准确率下降至87.63%,F1降至75.71%。
4)仅当所有模块均存在时,才能达到最佳效果准确率为88.34%,F1为77.61%。
消融试验结果表明,跨层融合策略模块、跨模态注意力机制以及残差连接是增强跨模态关系提取能力的关键模块。跨层残差融合模块(CRF)整合了不同层的特征信息,这不仅加深了文本与图像之间的交互深度,还扩大了信息覆盖范围,使模型能够更全面地捕捉两者之间的潜在关联。残差连接确保了跨模态融合过程中信息的高效传递,防止关键特征在多次变换过程中被削弱或丢失。跨模态注意力机制(CMA)建立了模态之间的双向信息流。在处理长文本或复杂的视觉细节时,它能够更精确地识别实体关系,并有效缓解因模糊或重叠的实体边界而导致的提取问题。所有模块的相互协作使得该模型在处理复杂症状场景中的关系提取任务时更加准确和可靠。试验结果证实了这种设计在水产养殖疾病诊断领域的有效性,为构建高效且准确的多模态知识图谱提供了有力支持。
为了证明CRCformer模型的有效性,针对水产领域数据的跨模态关系抽取中效果更好,选择了BERT+SG+Att、MEGA[22]、MKGformer[23]、ViLBERT[20]和MOREformer[24]等模型作为对比基准,可以对比新提出模型在跨模态关系抽取任务中的改进效果。通过与这些模型比较,可以全面分析新模型在准确率、精确率、召回率、F1分数等指标上的优势或劣势(表4)。
表4 模型对比试验
Tab.4 Comparative model experiment %
数据集 data set模型 model准确率 accuracy精确率 precision召回率 recallF1值 F1-Scorebert+SG+Att54.8940.2342.6741.41MEGA65.7551.1453.8652.46DLOU-CMREMKGformer76.8362.1059.2160.62ViLBERT77.6665.5364.5265.02MOREformer81.2472.7168.4470.51Ourmodel(CRCformer)88.3479.8275.5177.61MOREMOREformer83.5062.1863.3462.75Ourmodel(CRCformer)85.8362.7363.8063.26
1)BERT+SG+Att和MEGA试图基于视觉场景图将视觉内容映射到文本内容。bert+SG+Att的性能比较差,该模型在捕捉复杂跨模态关系时存在不足,难以充分理解图像和文本之间的细粒度关系。MEGA引入了视觉场景图,表现上有所提高但还未达到更好效果。
2)MKGformer是目前MRE模型中性能较好的模型之一,但其更倾向于通过多级融合来构建多模态知识图谱,在处理水产领域信息时效果仍需提高。
3)ViLBERT是目前VLP模型中表现较好的模型,在跨模态对齐方面表现出色,特别是在更复杂的文本和图像融合任务中具有优势。
4)MOREformer模型作为较新提出的跨模态模型,在各项指标上均有较优表现,尤其在F1得分和召回率上显著高于前述模型,证明了其在跨模态关系提取任务中的有效性。
5)本研究提出的CRCformer模型在所有评估指标上均表现出最优效果。与BERT+SG+Att、MEGA、MKGformer、ViLBERT、MOREformer等现有模型进行对比,试验结果表明,CRCformer在各项指标上均具有显著优势,在F1值上相较于MKGformer提高了16.99%,相较于ViLBERT和MOREformer分别提升了12.59%和7.10%。这些结果充分验证了跨层融合策略与跨模态注意力机制在缓解实体边界模糊问题中的有效性。进一步对比分析表明,CRCformer模型在水产领域的特定任务中表现出更强的适应性和专业性,相较于ViLBERT、MOREformer等通用模型,该模型在处理水产领域实体识别和关系抽取时能够更准确地捕捉领域特有的语义特征,展现出明显的优势。
6)为了进一步检验模型的通用性与泛化性,在公开的MORE数据集上开展了对比试验。结果显示,CRCformer模型在两个数据集上的准确率和召回率均超过了对比模型,充分证明了该模型具有出色的鲁棒性和良好的泛化能力。
为验证跨层融合策略在CRCformer模型中对水产养殖病害关系抽取任务的实际效果,本研究在DLOU-CMRE数据集上,比较了是否引入该策略下5类关系类型的性能表现。试验结果见表5,从表5可见,跨层融合策略在所有关系类型上均带来了明显的性能提升,表明该策略能够有效增强模型对水产病害领域跨模态语义特征的建模能力。
表5 跨层融合策略对关系抽取效果试验
Tab.5 Experiment on the effect of Cross-layer Fusion strategy on relation extraction %
关系类型relation跨层融合策略(是/否)cross-layer fusion strategies(Y/N)准确率accuracyF1值F1-score患病has_disease否83.2972.38是89.7578.91症状has_symptom否83.8672.62是90.6179.83患病部位has_diseased_parts否89.0878.15是91.6082.03病原体has_pathogen否83.4271.28是87.3174.25易感染susceptible_to否80.6570.22是85.4573.03
在患病(has_disease)和症状(has_symptom)两类实体边界模糊的关系上,跨层融合策略的改进最为显著。患病关系的准确率提升了6.46%,F1值提升了6.53%;症状关系的准确率提升了6.75%,F1值提升了7.21%。为直观展现该策略对模型聚焦能力的增强,本研究中选取了一例因症状局部相似而导致基础模型误判的典型样本,分别生成了优化前后模型的实体边界识别热力图(图4)。优化后热力图中,关注区域更为集中、响应更为明显,充分表明跨层融合在浅层视觉细节与深层文本语义之间实现了多层残差交互,从而显著提高了模型对高难度、易混淆关系的判别精度。在视觉模态中,相似症状往往呈现相近的局部特征,在文本模态中,又易受背景叙述和术语重复的干扰。跨层融合策略通过跨深度层的残差信息交换,既保留了精细的视觉信号,又强化了深层语义表达,实现了多层次对齐,从而有效改善了患病名称和症状关系的抽取效果。
图4 跨层融合前后实体边界区域识别热力图对比
Fig.4 Comparison of heat maps for entity boundary area recognition before and after cross-layer fusion
本研究中,以ALBERT作为文本编码器、CLIP作为视觉编码器,在此基础上构建了CRCformer模型。跨模态模型的选取不仅在于不同模态的各自表征,更在于在跨模态交互过程中所表现出的协同增益。选用ALBERT通过层间参数共享显著降低了模型规模,同时保持了对长文本深层语义的卓越表征能力,能够精细捕获水产病害诊断报告中大量专业术语及症状描述。选用CLIP通过大规模图文对比学习,将视觉与语言特征映射至统一语义空间,提供了可靠的跨模态对齐基础。通过提出的跨层融合策略,通过逐层处理方式,允许每一层单独处理文本和视觉模态,生成逐层更新的特征表示,有效提升了CRCformer模型在症状边界模糊条件下对实体的区分能力与关系抽取精度。
为验证所提出方法在缓解实体边界模糊、提升关系识别准确性方面的有效性,选取了部分样例的测试结果(表6)。表6主要对比了是否使用优化策略的模型效果,样例(a)中,基础模型关系分类正确,但参与关系的实体匹配出现错误,原因在于水产养殖病害诊断中症状相似的不同疾病,模型无法准确划分实体边界,从而产生了错误的关系抽取;样例(b)中,基础模型识别错误图像实体与文本实体之间的关系,这主要是因为水产领域疾病诊断中,疾病症状描述与疾病名称之间存在相似,容易混淆,使得模型在关系抽取时出现错误。通过这两个样例的分析,可以看出,原基础模型在处理症状相似的不同疾病或实体时,容易受到相似性干扰,导致关系抽取错误。而经过优化后,模型能够正确抽取图像实体与文本实体之间的关系,这进一步证明了本文提出的优化策略的有效性。
表6 样例分析
Tab.6 Sample analysis
图像 image文本 text基础模型 base model优化模型 optimization(a)Fish has been diagnosed with saprolegniasis,a disease char-acterized by the formation of a grayish-white,cottony-like covering on the infected are as…<,has_disease,epidermal hyperplasi><,has_disease,saprolegniasis>(b)Fish was diagnosed with red skin disease,which is charac-terized by red skin on the body surface …<,has_symptom,red skin disease><,has_symptom,Red Skin>
1)本研究提出的CRCformer模型针对水产养殖病害诊断中的实体边界模糊问题,采用了ALBERT编码器与CLIP编码器双流架构,基于跨层融合策略并结合多头注意力和双向注意力机制,使模型能够更好地强化深层语义,避免了相似症状及文本混淆的问题,显著提高了跨模态关系抽取的准确性。
2)试验结果表明,所提出的跨层融合策略在提升水产养殖病害诊断模型性能方面具有显著优势,准确率、精确率、召回率和F1值分别达到88.34%、79.82%、75.51%、77.61%,与已有模型相比,该方法在跨模态特征融合与关系抽取任务中表现出卓越性能。
本研究中提出了水产养殖病害领域跨模态关系抽取方法,通过跨层融合策略,有效提高了跨模态关系抽取的准确性。未来的研究工作将重点优化模型结构,提升其对多重关系与相似症状场景的区分能力,并扩展更多鱼病类别,丰富数据来源,以进一步增强泛化性。未来可将CRCformer模型应用于多模态知识图谱的构建,搭建水产养殖病害诊断智能体,以“智慧海洋”为愿景,构建一体化、多模态的智能诊断生态体系。
[1] 麻志宏,刘鹰.DeepSeek与渔业智能体在现代渔业中的应用与发展前景[J].大连海洋大学学报,2025,40(2):185-194. MA Z H,LIU Y.Applications and future prospects of DeepSeek and fishery intelligent agent in modern fisheries:a review[J].Journal of Dalian Ocean University,2025,40(2):185-194.(in Chinese)
[2] LI Z L,ZHANG S J,AN Z S.Base on ChatGLM extraction of medication events in aquaculture with few samples[J].Aquaculture International,2025,33(2):89.
[3] LI D L,LI X,WANG Q,et al.Advanced techniques for the intelligent diagnosis of fish diseases:a review[J].Animals,2022,12(21):2938.
[4] 张思佳,于红.大模型在水产养殖病害防治中的创新应用与展望[J].大连海洋大学学报,2024,39(3):369-382. ZHANG S J,YU H.Innovative applications and prospects of large models in disease prevention and control for aquaculture:a review[J].Journal of Dalian Ocean University,2024,39(3):369-382.(in Chinese)
[5] ZHAO X Y,DENG Y,YANG M,et al.A comprehensive survey on relation extraction:recent advances and new frontiers[J].ACM Computing Surveys,2024,56(11):1-39.
[6] 杨鹤,于红,孙哲涛,等.基于双重注意力机制的渔业标准实体关系抽取[J].农业工程学报,2021,37(14):204-212. YANG H,YU H,SUN Z T,et al.Fishery standard entity relation extraction using dual attention mechanism[J].Transactions of the Chinese Society of Agricultural Engineering,2021,37(14):204-212.(in Chinese)
[7] 刘巨升,于红,杨惠宁,等.基于多核卷积神经网络(BERT+Multi-CNN+CRF)的水产医学嵌套命名实体识别[J].大连海洋大学学报,2022,37(3):524-530. LIU J S,YU H,YANG H N,et al.Recognition of nested named entities in aquature medicine based on multi-kernel convolution (BERT+Multi-CNN+CRF)[J].Journal of Dalian Ocean University,2022,37(3):524-530.(in Chinese)
[8] 孙哲涛,于红,宋奇书,等.基于规则匹配与深度学习AbTransformer的渔业标准表格信息抽取方法[J].大连海洋大学学报,2023,38(1):140-148. SUN Z T,YU H,SONG Q S,et al.Fishery standard table information extraction method based on rule matching and deep learning AbTransformer[J].Journal of Dalian Ocean University,2023,38(1):140-148.(in Chinese)
[9] 沙明洋,张思佳,傅庆财,等.基于动态权重的多模型集成水产动物疾病防治事件抽取方法[J].华中农业大学学报,2023,42(3):80-87. SHA M Y,ZHANG S J,FU Q C,et al.Multi-model integrated event extraction for aquatic animal disease prevention and control based on dynamic weight[J].Journal of Huazhong Agricultural University,2023,42(3):80-87.(in Chinese)
[10] 宋奇书,于红,乔诗晗,等.基于改进BiRTE的渔业健康养殖标准复杂关系抽取[J].大连海洋大学学报,2024,39(1):153-161. SONG Q S,YU H,QIAO S H,et al.Complex relation extraction from health aquaculture standards based on an improved BiRTE model[J].Journal of Dalian Ocean University,2024,39(1):153-161.(in Chinese)
[11] WANG M,WANG H F,QI G L,et al.Richpedia:a large-scale,comprehensive multi-modal knowledge graph[J].Big Data Research,2020,22:100159.
[12] ZHU X R,LI Z X,WANG X D,et al.Multi-modal knowledge graph construction and application:a survey[J].IEEE Transactions on Knowledge and Data Engineering,2022,36(2):715-735.
[13] DU Y,LIU Z,LI J,et al.A survey of vision-language pre-trained models[J].arXiv preprint arXiv:2202.10936,2022.
[14] RADFORD A,KIM J W,HALLACY C,et al.Learning transferable visual models from natural language supervision[C]//International conference on machine learning.PMLR,2021:8748-8763.
[15] KIM W,SON B,KIM I.ViLT:Vision-and-language transformer without convolution or region supervision[C]//International conference on machine learning.PMLR,2021:5583-5594.
[16] ALAYRAC J B,DONAHUE J,LUC P,et al.Flamingo:a visual language model for few-shot learning[J].Advances in neural information processing systems,2022,35:23716-23736.
[17] LI J,LI D,SAVARESE S,et al.Blip-2:Bootstrapping language-image pre-training with frozen image encoders and large language models[C]//International conference on machine learning.PMLR,2023:19730-19742.
[18] CHEN Y Z,KUANG J,CHENG D W,et al.AgriKG:an agricultural knowledge graph and its applications[M]//Database Systems for Advanced Applications.Cham:Springer International Publishing,2019:533-537.
[19] ZHOU Y Y,YAN H P,DING K,et al.Few-shot image classification of crop diseases based on vision-language models[J].Sensors,2024,24(18):6109.
[20] LU J S,BATRA D,PARIKH D,et al.ViLBERT:pretraining task-agnostic visiolinguistic representations for vision-and-language tasks[C]/Advances in Neural Information Processing Systems 32 (NeurIPS 2019), Vancouver, Canada, 2019: 13-23.
[21] ZHENG C M,WU Z W,FENG J H,et al.MNRE:a challenge multimodal dataset for neural relation extraction with visual evidence in social media posts[C]//2021 IEEE International Conference on Multimedia and Expo (ICME). Shenzhen: IEEE, 2021: 1-6.
[22] ZHENG C M,FENG J H,FU Z,et al.Multimodal relation extraction with efficient graph alignment[C]//Proceedings of the 29th ACM International Conference on Multimedia.Virtual Event China.ACM,2021:5298-5306.
[23] CHEN X,ZHANG N Y,LI L,et al.Hybrid transformer with multi-level fusion for multimodal knowledge graph completion[C]//Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval.Madrid Spain.ACM,2022:904-915.
[24] HE L,WANG H K,CAO Y C,et al.MORE:a multimodal object-entity relation extraction dataset with a benchmark evaluation[C]//Proceedings of the 31st ACM International Conference on Multimedia.Ottawa ON Canada.ACM,2023:4564-4573.
[25] 毕甜甜,张思佳,孙旭菲,等.融合N-Gram的水产养殖长文本实体关系联合抽取[J].哈尔滨理工大学学报,2025,30(2):91-103. BI T T,ZHANG S J,SUN X F,et al.A joint extraction method of entity relations in aquaculture long text using N-gram fusion[J].Journal of Harbin University of Science and Technology,2025,30(2):91-103.(in Chinese)