基于深度学习和典型相关分析的渔情预测方法

袁红春1,2,刘慧1,张硕1,陈冠奇1

(1.上海海洋大学 信息学院,上海 201306; 2.农业农村部渔业信息重点实验室,上海 201306)

摘要:为解决用传统方法进行渔场预测时存在的性能欠佳、特征转换困难、拟合程度不足等问题,提出了一种基于深度学习和典型相关分析的新型渔情预测方法——CNN-DNN-CCA(连接融合)-RBF模型,该方法首先在5°×5°渔业作业区域内将不同海洋环境因子按相对空间位置映射为三维矩阵,然后分别采用卷积神经网络(CNN)和深度神经网络(DNN)对海表温度(SST)、叶绿素a(Chl-a)浓度、海面高度(SSH)3种环境因子和渔场时空因子两种多源异构数据进行模态特征提取,得到两种不同模态的特征向量,并将两种特征向量通过典型相关分析(CCA)进行特征级融合,最后将融合后的特征输入到径向基函数网络(RBF)中进行分类。结果表明,通过试验验证,基于深度学习和典型相关分析的渔场预报模型CNN-DNN-CCA(连接融合)-RBF对南太平洋长鳍金枪鱼Thunnus alalonga中心渔场的召回率达到了90.3%,相较于随机森林(RF)、CNN和DNN模型提高了6.8%~21.8%。研究表明,CNN-DNN-CCA(连接融合)-RBF新型渔情预测模型通过深度学习和典型相关分析方法分别进行特征自动提取和特征融合,消除了冗余信息,简化了特征转换,提高了运算速度和预测精度。

关键词: 长鳍金枪鱼;深度学习;卷积神经网络;深度神经网络;典型相关分析;径向基函数网络;渔场预报

长鳍金枪鱼Thunnus alalonga作为南太平洋延绳钓的主要鱼种,在远洋渔业中具有较大开发潜力。近20年来,在南太平洋海域长鳍金枪鱼的渔获量和捕捞努力量呈逐年增长之势,目前,长鳍金枪鱼已成为南太平洋金枪鱼延绳钓渔业的主要捕捞对象之一[1],精准预报南太平洋长鳍金枪鱼中心渔场能够合理分配有限的捕捞努力量,降低渔场探查时间和捕捞作业成本,促进中国远洋渔业作业的科学化和智能化。

在传统的渔场预报模型中,国内外学者通常采用统计学方法和GIS技术对渔场渔情进行分析和预估。近年来,一些学者构建了多种系统性预测模型进行渔场预报,如Raman等[2]采用ARIMA(auto regressive integrated moving average)模型,结合3个外部理化因子构建了SARIMAX预测模型。高峰[3]以东、黄海鲐鱼Scomber japonicus为例,提出了基于提升回归树的渔场预报模型。崔雪森等[4]通过朴素贝叶斯方法对西北太平洋柔鱼Ommastrephes bartramii渔场进行回归预测。宋利明等[5]利用库克群岛海域不同水层环境中影响因子的差异性,通过支持向量机分析测算了长鳍金枪鱼栖息地环境综合指数。然而,由于高维海洋大数据具有海量性、多样性和快速流转性,以上方法在对其数据预处理和样本组织时往往流程较为复杂繁琐,不易操作,人为因素对结果影响较大。如当训练样本量大时,支持向量机算法效率低下甚至难以实施,提升回归树算法容易出现过拟合问题,而朴素贝叶斯方法需要特征条件独立,在使用该方法前要进行独立成分分析,过程繁琐。

随着海洋科技的飞速发展,渔业数据规模和种类也不断扩大,传统的渔场预报模型在海量大数据的分析和预测上往往表现不佳[6],而深度学习方法在海量高维数据分析预测上有较好的拟合效果[7-10],且深度学习不需要手动特征工程,配备的自动特征工程,不仅减少了特征工程中的繁琐步骤,而且减少了人为因素对结果的影响,因此,可以很好地解决上述传统渔场预报模型中存在的问题。为此,本文中拟构建一种新型的预测模型,在数据模型上,由于单类海洋环境因子按空间分布可构建二维矩阵,故可再叠加另外两类不同的环境因子合成三维矩阵,并采用卷积神经网络(CNN)提取图像特征信息的方式提取特征,同时针对时空因子异构数据均匀分布的离散特性,通过深度神经网络(DNN)进行时空因子特征提取,从而得到两种不同的模态向量,然后将两个模型提取的最高隐藏层特征使用典型相关分析方法(CCA)进行特征融合,最后将融合后的特征输入径向基函数网络(RBF)中进行分类。本研究中提出了一种基于深度学习和典型相关分析的南太平洋长鳍金枪鱼渔场预报模型——CNN-DNN-CCA(连接融合)-RBF模型,并进行了对比试验分析,旨在为渔场的精确预报提供科学指导。

1 模型构建

1.1 CNN-DNN-CCA-RBF模型整体结构

由于海洋环境因子数据和时空因子数据是不同结构的数据类型,所以分别选择合适的神经网络方法进行特征提取,以达到更好的特征提取效果。海洋环境数据映射为三维矩阵后,同一维度内的海洋环境因子相似,但也有类似于纹理的差异性。不同维度的环境因子数据差异较大,可以将经过数据预处理后的海洋环境因子数据看作RGB三通道图像格式,因此,海洋环境因子适用于用CNN进行特征提取,这种特征提取方法不仅融合了3种海洋环境因子,而且减少了参数量。由于DNN可以对时空因子数据进行高阶特征交互,具有较强的表达能力和泛化能力,所以使用DNN对时空因子进行特征提取。

本研究中设计的模型中,设计了两个分支结构分别对海洋环境因子数据和时空因子进行特征提取。模型的整体结构如图1所示,首先,将海洋环境因子和时空因子进行归一化处理,并把海洋环境因子转换为三维矩阵,然后,将经过预处理后得到的海洋环境因子和时空因子分别输入到CNN和DNN模型中进行特征提取,最后将提取的两个模型的最高隐藏层特征利用CCA进行融合,并将融合后的特征输入到RBF分类器中进行分类。

图1 模型整体结构

Fig.1 Overall structure of the model

1.2 CNN及其结构设计

CNN通过卷积层的卷积操作提取输入的不同特征,再通过池化层的池化操作减少神经元数量,降低CNN模型的计算量,最后通过全连接层整合卷积层和池化层中具有类别区分性的局部信息,并传递给输出层进行分类[11]

在对海洋环境因子进行特征提取时,输入矩阵的尺度为5×5×3,矩阵高度较小,故在卷积过程中不需进行池化操作,为增大感受野,全局采用3×3大小的卷积核进行操作,然后通过全局平均池化的方式将三维特征值矩阵转换为二维特征向量,最后映射到全连接层进行整合,并通过全连接层进行分类。本研究中,把海洋环境因子三维矩阵输入到该CNN模型中进行训练,并提取到32维的全连接层特征,具体的CNN分支结构如图2所示。

图2 CNN分支结构

Fig.2 Branch structure of the CNN

1.3 DNN及其结构设计

DNN是具有多个隐藏层的神经网络,即多层感知机,DNN可以分为输入层、隐藏层和输出层。本研究中,将月份、经度、纬度3个时空因子构成的特征向量输入到DNN模型中进行训练,并提取时空因子的最高隐藏层特征。为了使提取后特征向量的维数与CNN提取海洋环境因子特征向量的维数相同,该分支结构采用3-32-32-32-1的网络结构,其具体结构如图3所示。

图3 DNN分支结构

Fig.3 Branch structure of the DNN

1.4 典型相关分析

典型相关分析作为一种特征融合关键技术已经在多模态生物特征识别领域和图像识别领域得到广泛研究和关注[12-14]。传统的串行融合和并行融合方法仅仅是将两组特征向量通过简单拼接或复合方式直接组合在一起,未对两个不同特征空间的特征集建立任何联系,再加之上述CNN和DNN两种深度学习方法提取到的特征向量维度较大,这使得融合后的特征向量易产生维度灾难等问题[15]。CCA可以从总体上把握两组指标间的相关关系,不仅起到合理简化变量的作用,而且可以使最终得到的变量更具有判别力,从而达到更好的分类效果,为此本研究中使用CCA进行特征融合。

CCA作为研究两组变量相关关系的一种多元统计方法,其基本思想是把两组随机变量间的相关性研究转化为少数几对变量间的相关性研究,且这少数几对变量间是不相关的[16],具体而言就是寻找两组投影方向,使投影后的相关性达到最大。总体方法是,给出两个随机向量XY,首先找到一对投影方向u1v1,使得XY在该方向上的投影具有最大的相关性,并称为第一对典型变量。其中,投影方向u1v1可以通过最大化uv的相关系数来获得,计算公式为

(1)

其中:SXXX的协方差矩阵;SYYY的协方差矩阵;SXYXY的互协方差矩阵。因此,CCA就可以表示为如下式所示的优化问题的解,即

(u,v)=arg(u,v)max(uTSXYv),

s.t.uTSXXu=vTSYYv=1。

(2)

使用拉格朗日乘子法求解该问题,令

L(u,v)=uTSXYv-(λ1/2)(uTSXXu-1)-

(λ2/2)(vTSYYv-1)。

(3)

将式(3)分别对uv求导并令结果等于0,得到:

SXYv-λ1SXXu=0,

(4)

SYXu-λ2SYYv=0。

(5)

将式(4)和式(5)分别左乘uTvT,并利用uTSXXu=vTSYYv=1得到:

λ1=λ2=uTSXYv

(6)

将公式(6)继续整理得到:

(7)

(8)

于是,求(u,v)就转化为求上式特征值的问题。

同理,寻找第二对投影方向u2v2,得到第二对典型相关变量并使其与不相关。以此类推,直到XY的典型变量提取完毕为止。最后通过给定的特征融合策略提取典型相关特征并输入到分类器中进行分类。使用CCA进行特征融合的基本框架如图4所示。

图4 CCA基本框架

Fig.4 Basic framework of CCA

1.5 RBF神经网络

RBF神经网络是一种具有单个隐藏层的3层前向网络,由输入层、具有径向基函数神经元的隐藏层和输出层构成,其基本结构如图5所示。

图5 RBF基本结构

Fig.5 Basic structure of RBF

RBF神经网络的基本思想是通过隐藏层将低维向量映射到高维度隐藏层空间,不需要权连接,隐藏层神经元的核函数通常采用高斯函数:

(9)

其中:x为输入向量;Gi(x)为隐藏层第i个神经元的输出;σi为第i个基函数的方差;ci为第i个基函数的中心;h为隐藏层神经元的个数。确定RBF中心点之后,对应的映射关系即确定。从隐藏层空间到输出空间的映射是线性的,即输出层是隐藏层单元输出的线性加权和。基于以上思想,大大加快了学习速度且避免了局部极小的问题。由于最终要对渔场进行二分类,因此,在RBF神经网络的输出层选用了Sigmoid函数,在试验中将中心渔场标签设为1,非中心渔场标签设为0,当正负样本分布均匀时,输出值y应满足

y/(1-y)>1,

(10)

即输出y>0.5时,将该作业区域视为中心渔场。

由于渔场等级划分时中心渔场与非中心渔场所占比重差异较大,因此,将分类阈值重新调整为

y/(1-y)>T/F

(11)

其中:T=2 669为训练集中心渔场的数目;F=5 182为训练集非中心渔场的数目。最终得到分类阈值为0.34。

2 南太平洋长鳍金枪鱼渔场的预测

2.1 数据来源

根据南太平洋长鳍金枪鱼的渔业作业范围,选取范围为115°E~135°W、10°S~35°S的海域空间为研究对象,数据样本时间范围为2000—2015年。

渔业作业数据取自中西太平洋渔业委员会(Western and central pacific fisheries commission,WCPFC)的南太平洋长鳍金枪鱼延绳钓数据。该渔业数据包含作业时间、作业空间经纬坐标、钓钩数、渔获量,空间分辨率为5°×5°。

长鳍金枪鱼的中心渔场分布受海表温度、叶绿素a浓度、海水溶解氧浓度、盐度、海面风速和海水流速等多种环境因子影响[17],调研对比后,本研究中选取即时性较强、影响权重占比较大的环境遥感数据作为主要影响因子,集成后的环境数据包括海表温度(SST)、叶绿素a浓度(Chl-a)、海面高度(SSH)。其中,海表温度、叶绿素a浓度数据来源于美国国家海洋和大气管理局(Nation oceanic and atmospheric administration, NOAA)环境数据库,海面高度数据来源于哥白尼海洋环境监测服务中心(Copernicus marine environment monitoring service,CMEMS),时间单位为月,空间分辨率为1°×1°。

2.2 数据预处理与评估方法

2.2.1 单位捕捞努力量渔获量(CPUE)的计算

单位捕捞努力量渔获量(catch per unit of effort,CPUE常被作为渔业资源丰度的相对指数,反映渔业资源丰度的变化[18],其定义为

CPUE(i,j)=(F(i,j)×1 000)/H(i,j)

(12)

其中:CPUE(i,j)为整经纬度(ij)范围内的CPUE;F(i,j)为渔获尾数;H(i,j)为钓钩数。

2.2.2 渔业作业数据处理 在远洋渔业作业中,为了节省成本和提高作业效率,渔船常常围绕中心渔场进行作业,因此,提高中心渔场预报精度对远洋渔业具有重要的指导意义。为使CPUE适用于分类模型,需将CPUE值有效离散化[19-20],本研究中使用三分位数将渔区按照CPUE的大小划分为若干等级。按式(12)计算出CPUE值后,以每月CPUE值三分位点的最高位为分界点重新将每月的CPUE划分为中心渔场和非中心渔场两类,并以1、0分别初始化中心渔场和非中心渔场,最终得到中心渔场2 875个,非中心渔场5 579个。

2.2.3 环境数据处理 当海洋环境因子与渔业数据空间分辨率不匹配时,会导致海洋环境因子和时空因子在输入层分布不均匀,从而影响预测精度。故在传统渔场预报方法中,通常采用取平均值、中心值等方法统一两者分辨率[21]。而本研究中分别采用CNN和DNN提取两种异构数据,由于CNN特有的卷积和池化操作,能够在运算时将海洋环境因子数据的空间分辨率下降到与时空因子相同大小,自动统一分辨率,故本试验中直接使用1°×1°空间分辨率的海洋环境因子数据,无须手动匹配。

海洋环境因子的预处理共分两步:

Step 1:环境因子归一化

由于不同环境因子的量值单位和变化范围差别较大,为消除量纲和加速优化过程,对海表温度、叶绿素a浓度、海面高度、月份、经度、纬度进行归一化处理。计算公式为

(13)

其中:Xi为某环境因子初始值;Xmax为此环境因子在全部研究区域中的最大值;Xmin为此环境因子在全部研究区域中的最小值;为数据归一化后得到的值。

Step 2:将海洋环境因子映射为三维矩阵

先将整个研究区域按照1°×1°划分为网格区域,然后再将整个海域中归一化后的海洋环境因子数据以5°×5°网格范围重新组织,从而构成5×5大小的海洋环境因子矩阵,最后叠加海表温度、海面高度、叶绿素a 浓度3种海洋环境因子矩阵,生成5×5×3大小的三维矩阵。例如,对于处于纬度为i、经度为j的作业点,设其海面高度为Hij,海表温度为Tij,叶绿素a浓度为Aij。将此作业点5°×5°范围内的环境因子转换为如图6所示的三维矩阵。

图6 三维矩阵

Fig.6 Three-dimensional matrix

2.2.4 预报精度评估方法 验证渔场预报模型预测结果的指标是渔场预报精度。但由于渔业作业会受到相关法律法规、天气等不可抗力因素的影响,导致部分渔场并无渔船进行作业,因此,CPUE值在一些情况下并不能完全代表该海域的渔场等级,故本研究中采用总召回率(recall)作为渔场预测模型的评估标准[22],定义如下:

(14)

(15)

其中:Pii类渔场的预报准确率;Cii类渔场的渔区集合;为预测出的i类渔场的渔区集合;P为总体预报准确率;N为渔场的总类别数。

2.3 试验设计

本试验中使用的计算机配置:显卡型号为AMD Radeon R5 320,CPU型号为Intel(R)Core(TM)i7-6700 CPU @3.40 GHz,RAM为16 GB,操作系统为Windows10,并搭建了基于Python3.7的TensorFlow 2.1.0框架。

根据以上构建的长鳍金枪鱼预报模型,将处理成三维矩阵的海洋环境因子数据输入到CNN模型中进行特征提取,将经过预处理的时空因子输入到DNN模型中进行特征提取,各得到一组32维的特征向量,然后将提取到的两组特征向量进行典型相关分析,得到21对典型相关变量,并分别使用相加融合和连接融合两种融合策略进行特征融合。其中,使用连接融合得到一组42维的特征向量,使用相加融合得到一组21维的特征向量。最后输入到RBF神经网络中进行分类。选用2000—2014年的7 851条数据作为训练集,另外选择2015年的数据作为测试集。使用CNN和DNN进行训练并提取特征时,学习率均设置为0.000 1,采用Adam优化器进行训练,最大迭代次数设置为50次,RBF分类器的学习率设置为0.08,采用Adam优化器进行训练,最大迭代次数设置为10 000次,隐藏层单元数设置为80。

为验证模型的准确率,设置了5组对比试验。从表1可见,试验1和试验2为本研究中所采用的模型,试验3、试验4和试验5是模型自身构建过程中的对比试验,用来验证通过CCA特征融合的模型是否有效提高了模型的准确度。从表2可见,为了验证本研究中的模型对南太平洋长鳍金枪鱼渔场的预测效果,试验6和试验7选用目前在长鳍金枪鱼预测中应用效果较好的模型[7,20]进行对比。

表1 模型构建过程中的对比试验

Tab.1 Contrast experiments during model establishment

试验序号experimentNo.模型model数据data融合方式fusionmethod分类器classifier1CNN-DNN-CCA(连接融合)-RBF海洋环境因子+时空因子CCA(连接融合)RBF2CNN-DNN-CCA(相加融合)-RBF海洋环境因子+时空因子CCA(相加融合)RBF3CNN海洋环境因子——4DNN时空因子——5CNN+DNN+RBF分类器海洋环境因子+时空因子简单拼接RBF

表2 现有模型

Tab.2 Existing models

试验序号experimentNo.模型model数据data6F-ACN海洋环境因子+时空因子7RF海洋环境因子+时空因子

3 结果与分析

3.1 模型自身构建过程中的结果对比分析

从表3可知,采用CNN-DNN-CCA-RBF模型进行预测时的中心渔场召回率最高,其中,采用CCA连接融合时中心渔场召回率达到了90.3%,总召回率达到了82.1%,采用CCA相加融合时中心渔场召回率达到87.4%,总召回率达到了80.3%,相较于将提取到的特征进行简单的拼接融合再进行预测,精度均有不同程度的提高,且远高于使用单一模型进行预测的精度,该对比试验验证了CCA在特征融合方面的有效性。其中,采用CCA连接融合效果最为明显,可以准确反映南太平洋长鳍金枪鱼的渔场资源水平,由于模型的总精准率达到了83.6%,说明此模型的误报率较低,可以减少实际作业中因为误报所带来的损失。

表3 模型构建过程中的预测结果

Tab.3 Predicting result during model establishment %

模型model中心渔场召回率centralfisheryrecallrate非中心渔场召回率non-centralfisheryrecallrate总召回率totalrecall总精准率totalprecision总F1分数totalF1scoreCNN+DNN+CCA(连接融合)+RBF分类器90.373.882.183.680.0CNN+DNN+CCA(相加融合)+RBF分类器87.473.180.381.978.5CNN78.664.371.574.470.0DNN83.572.277.979.776.8CNN+DNN+RBF分类器86.466.076.280.873.6

3.2 与其他渔场预测结果对比分析

为了验证本文的模型对南太平洋长鳍金枪鱼渔场预测的效果,选取了目前在该领域中预测效果较好的两种模型来进行对比,其中,试验6的F-ACN模型是笔者先前提出的一种模型,试验7为基于随机森林(RF)的长鳍金枪鱼渔场预报模型,RF模型具有泛化能力强、训练速度快等优点,在其他海域的长鳍金枪鱼渔场预报中已经取得了较好的应用效果,但是易出现过拟合的问题。表4展示了以上两种模型的预测结果,其中,F-ACN模型的中心渔场召回率为84.0%,随机森林模型的中心渔场召回率为68.5%,虽然F-ACN较RF模型的预测效果有较大程度上的提高,但仍低于本研究中所提出的基于深度学习和典型相关分析的渔场预测方法。

表4 不同模型的预测结果

Tab.4 Predicting results of different models %

模型model中心渔场召回率centralfisheryrecallrate非中心渔场召回率non-centralfisheryrecallrate总召回率totalrecal总精准率totalprecision总F1分数totalF1scoreCNN+DNN+CCA(连接融合)+RBF分类器90.373.882.183.680.0F-ACN84.075.379.781.178.8随机森林(RF)68.574.571.573.972.9

试验结果表明,本研究中构建的模型对于中心渔场的预报准确率可达90.3%,基本可以满足现有渔业作业的需求。

4 讨论

鱼类活动与海洋环境密切相关,南太平洋长鳍金枪鱼作为一种高度洄游鱼类,受海洋环境的影响较为明显,故本研究中在渔场预报过程中采用多分支结构,将时空因子中提取到的特征与海表面温度、海表面高度和叶绿素浓度等海洋环境因子中提取到的特征融合后再进行预测。本研究表明,将两种海洋环境因子与时空因子结合进行预测时的中心渔场召回率高于单独使用海洋环境因子或时空因子时的中心渔场召回率(表1)。因此,为减少单独使用某种因子特征提取时对预测结果产生的影响,CNN-DNN-CCA-RBF模型分别针对海洋环境因子和时空因子的数据特点,使用两种不同的特征提取方式对二者进行特征提取,CNN分支与DNN分支在模型结构上虽然不同,但在特征提取过程中互不影响,且各分支结构的输出向量维度一致,故提取的特征向量能够较好地进行融合,并不会由于参数量的差异导致某种环境因子所占比重较小或被忽略。同时,使用CNN对海洋环境因子进行特征提取能够减少数据预处理过程中造成的信息损失,该方法能够将任意空间分辨率的海洋环境因子与时空因子相结合,对复杂的海洋大数据有较好的适用性和可扩展性。长鳍金枪鱼的中心渔场分布除了受上述因素影响外,还可能受到海水流速、海面风场、海水盐度、海水溶解氧浓度等因素影响,因此,下一步的延伸研究工作是收集和分析更多的海洋环境参数数据,并将其加入模型中,进行更多影响因子的综合处理与分析,以期更加准确地为海洋渔业提供技术支撑。

5 结论

针对传统渔情预报方法在处理高维复杂多源异构海洋数据时,存在性能欠佳、特征转换困难、拟合程度不足的问题,本研究中提出了一种基于深度学习和典型相关分析的南太平洋长鳍金枪鱼渔场预报模型——CNN-DNN-CCA(连接融合)-RBF模型,并进行了对比试验分析,得出了以下结论:

1)该方法能够对大规模任意空间分辨率的海洋环境因子进行自动特征提取和特征融合,无须人工匹配不同空间分辨率,简化了特征转换,提高了预测精度,为渔场预报提供了一种全新思路。

2)本研究中将典型相关分析思想引入到特征融合中,得到海洋环境因子和时空因子的关联特征,不仅达到了信息融合的目的,而且消除了冗杂信息,降低了维数,从而增强了模型的性能和预测效果。

3)本研究中对各个分支结构的层数、节点数和不同尺度的卷积核进行了试验,增强了CNN-DNN-CCA(连接融合)-RBF模型的预测效果,预报精度达到了90.3%,相较于传统的机器学方法和先前的深度学习方法均有较大程度的提高,证明了基于深度学习和典型相关分析的方法在渔情预测领域的可行性、科学性和先进性,对南太平洋长鳍金枪鱼渔业作业的开展有一定的指导作用。

参考文献:

[1] NIKOLIC N,MORANDEAU G,HOARAU L,et al.Review of albacore tuna,Thunnus alalunga,biology,fisheries and management[J].Reviews in Fish Biology and Fisheries,2017,27(4):775-810.

[2] RAMAN R K,MOHANTY S K,BHATTA K S,et al.Time series forecasting model for fisheries in Chilika lagoon(a Ramsar site,1981),Odisha,India:a case study[J].Wetlands Ecology and Management,2018,26(4):677-687.

[3] 高峰.基于提升回归树的东、黄海鲐鱼渔场预报模型研究[D].上海:上海海洋大学,2016.

GAO F.Research on the forecast model of mackerel fishing grounds in the East and Yellow Seas based on the improved regression tree[D].Shanghai:Shanghai Ocean University,2016.(in Chinese)

[4] 崔雪森,唐峰华,张衡,等.基于朴素贝叶斯的西北太平洋柔鱼渔场预报模型的建立[J].中国海洋大学学报(自然科学版),2015,45(2):37-43.

CUI X S,TANG F H,ZHANG H,et al.The establishment of Northwest Pacific Ommastrephes bartramii fishing ground forecasting model based on naive bayes method[J].Periodical of Ocean University of China(Natural Science Edition),2015,45(2):37-43.(in Chinese)

[5] 宋利明,周建坤,沈智宾,等.基于支持向量机的库克群岛海域长鳍金枪鱼栖息环境综合指数[J].海洋通报,2017,36(2):195-208.

SONG L M,ZHOU J K,SHEN Z B,et al.An integrated habitat index for albacore tuna in waters near Cook islands based on the support vector machine method[J].Marine Bulletin,2017,36(2):195-208.(in Chinese)

[6] HARRELL F E,LEE K L,MARK D B.Tutorial in biostatistics multivariable prognostic models:issues in developing models,evaluating assumptions and adequacy,and measuring and reducing errors[J].Statistics in Medicine,1996,15(1):361-387.

[7] 袁红春,陈冠奇,张天蛟,等.基于全卷积网络的南太平洋长鳍金枪鱼渔场预报模型[J].江苏农业学报,2020,36(2):423-429.

YUAN H C,CHEN G Q,ZHANG T J,et al.A forecast model of albacore tuna fishing grounds in the South Pacific based on a fully convolutional network[J].Jiangsu Journal of Agriculture Sciences,2020,36(2):423-429.(in Chinese)

[8] LIU Q,YU F,WU S,et al.A convolutional click prediction model[C]//Proceedings of the 24th ACM international on conference on information and knowledge management.New York,USA:ACM,2015:1743-1746.

[9] WANG P,XU B,XU J M,et al.Semantic expansion using word embedding clustering and convolutional neural network for improving short text classification[J].Neurocomputing,2016,174:806-814.

[10] NEZ R A C,DE LA PEA M O R,IRIGOLLEN A F,et al.Deep learning models for the prediction of small-scale fisheries catches:finfish fishery in the region of“Bahía Magadalena-Almejas”[J].ICES Journal of Marine Science,2018,75(6):2088-2096.

[11] 周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251.

ZHOU F Y,JIN L P,DONG J.Review of convolutional neural network research[J].Chinese Journal of Computers,2017,40(6):1229-1251.(in Chinese)

[12] 张志坚,赵松,张培仁.增强典型相关分析及其在多模态生物特征识别特征层融合中的应用[J].中国科学技术大学学报,2010,40(8):790-795.

ZHANG Z J,ZHAO S,ZHANG P R.Enhanced canonical correlation analysis and its application in multi-modal biometric recognition feature layer fusion[J].Journal of University of Science and Technology of China,2010,40(8):790-795.(in Chinese)

[13] 李春茂,张凯兵,刘薇,等.基于典型相关分析特征融合的行人再识别方法[J].光电子·激光,2020,31(5):500-508.

LI C M,ZHANG K B,LIU W,et al.A person re-identification method based on feature fusion of canonical correlation analysis[J].Journal of Optoelectronics·Laser,2020,31(5):500-508.(in Chinese)

[14] 徐晓娜,穆志纯.基于CCA的人耳和侧面人脸特征融合的身份识别[J].计算机应用研究,2007,24(11):312-314.

XU X N,MU Z C.Identity multimodal recognition using ear and face profile based on CCA[J].Application Research of Computers,2007,24(11):312-314.(in Chinese)

[15] 余程年.基于典型相关分析的多模态特征层融合识别[D].合肥:安徽大学,2020.

YU C N.Multimodal feature layer fusion recognition based on canonical correlation analysis[D].Hefei:Anhui University,2020.(in Chinese)

[16] 孙权森,曾生根,王平安,等.典型相关分析的理论及其在特征融合中的应用[J].计算机学报,2005,28(9):1524-1533.

SUN Q S,ZENG S G,WANG P A,et al.The theory of canonical correlation analysis and its application in feature fusion[J].Chinese Journal of Computers,2005,28(9):1524-1533.(in Chinese)

[17] 毛江美,陈新军,余景.基于神经网络的南太平洋长鳍金枪鱼渔场预报[J].海洋学报,2016,38(10):34-43.

MAO J M,CHEN X J,YU J.Forecasting fishing ground of Thunnus alalunga based on BP neural network in the South Pacific Ocean[J].Acta Oceanologica Sinica,2016,38(10):34-43.(in Chinese)

[18] ZAINUDDIN M,SAITOH S,SAIROH K.Detection of potential fishing ground for albacore tuna using synoptic measurements of ocean color and thermal remote sensing in the northwestern North Pacific[J].Geophysical Research Letters,2004,31(20):L20311.

[19] ISMAIL A I,MORRISON E C,BURT B A,et al.Natural history of periodontal disease in adults:findings from the tecumseh periodontal disease study,1959-87[J].Journal of Dental Research,1990,69(2):430-435.

[20] 陈雪忠,樊伟,崔雪森,等.基于随机森林的印度洋长鳍金枪鱼渔场预报[J].海洋学报,2013,35(1):158-164.

CHEN X Z,FAN W,CUI X S,et al.Indian Ocean albacore fishery forecast based on random forest[J].Acta Oceanologica Sinica,2013,35(1):158-164.(in Chinese)

[21] 高峰,陈新军,官文江,等.基于提升回归树的东、黄海鲐鱼渔场预报[J].海洋学报,2015,37(10):39-48.

GAO F,CHEN X J,GUAN W J,et al.Fishing ground forecasting of chub mackerel in the Yellow Sea and East China Sea using boosted regression trees[J].Acta Oceanologica Sinica,2015,37(10):39-48.(in Chinese)

[22] 张衡,崔雪森,樊伟.基于遥感数据的智利竹筴鱼渔场预报系统[J].农业工程学报,2012,28(15):140-144.

ZHANG H,CUI X S,FAN W.Predicting system of Chilean jack mackerel fishing grounds based on remote sensing data[J].Transactions of the Chinese Society of Agricultural Engineering,2012,28(15):140-144.(in Chinese)

Fisheries forecasting method based on deep learning and canonical correlation analysis

YUAN Hongchun1,2, LIU Hui1, ZHANG Shuo1, CHEN Guanqi1

(1.College of Information Technology, Shanghai Ocean University, Shanghai 201306, China; 2.Key Laboratory of Fisheries Information,Ministry of Agriculture and Rural Affairs, Shanghai 201306, China)

AbstractIn order to solve the problems of poor performance, difficulty in feature conversion, and insufficient fitting degree in traditional methods of fishing ground prediction, a new fishing situation prediction method—CNN-DNN-CCA(fusion with connection)-RBF model is established based on deep learning and canonical correlation analysis.First, in this method different marine environmental factors were maped into a three-dimensional matrix according to their relative spatial positions within a 5°×5° fishery operation area.Then, the convolutional neural network(CNN)and the deep neural networks(DNN)are used to extract the modal features of the three environmental factors including sea surface temperature, concentration of chlorophyll a, and the sea surface height, and the spatiotemporal factor of fishing grounds.The two feature vectors are fused at the feature level through the canonical correlation analysis(CCA)method.Finally, the fused features were inputted into the radial basis function network(RBF)for classification.The experimental results showed that the fishing ground prediction model based on deep learning and canonical correlation analysis had a recall rate of 90.3% for the South Pacific albacore fishing center, increased by 6.8%-21.8% compared with the random forest(RF), CNN model and DNN model.The new fishing situation prediction model proposed in this study is shown to extract and fuse features automatically through deep learning method and canonical correlation analysis method, and is featured by to elimination of redundant information, simplified feature transformation, and improvement of the operation speed and prediction accuracy.The findings provide a new idea for the fishing ground prediction of albacore tuna.

Key wordsThunnus alalonga; deep learning; CNN; DNN; canonical correlation analysis(CCA); radial basis function network(RBF); fishing ground forecasting

中图分类号S 931.41;TP 391

文献标志码:A

DOI:10.16535/j.cnki.dlhyxb.2020-326

文章编号:2095-1388(2021)04-0670-09

收稿日期2020-12-15

基金项目国家自然科学基金(41776142);国家重点研究发展计划“蓝色粮仓科技创新”项目(2018YFD0701003)

作者简介袁红春(1971—),男,博士,教授。E-mail:hcyuan@shou.edu.cn