基于提升回归树的西白令海狭鳕资源分布环境影响因子分析

赵宇哲1,邹晓荣1,2*,何勇1

(1.上海海洋大学 海洋科学与生态环境学院,上海 201306;2.国家远洋渔业工程技术研究中心,大洋渔业资源可持续开发省部共建教育部重点实验室,农业农村部大洋渔业资源环境科学观测实验站,上海 201306)

摘要:为提高西白令海狭鳕(Gadus chalcogrammus)渔场预报准确率和渔业生产效益,以2013—2019年中国西白令海狭鳕渔业生产数据为基础,采用提升回归树模型,以Chl-a浓度和海水pH值等环境因子为解释变量,从实际渔场数据和背景渔区中选择假定非渔场数据为响应变量,构建西白令海狭鳕渔场预报模型,并利用2020年实际作业数据对预报模型验证。结果表明,预报模型的AUC值为0.96,kappa系数为0.79,准确率为89%;Chl-a浓度、pH和海表温度三者相对重要性之和超过75%;在Chl-a浓度为0.2~0.4 mg/m3、pH为7.96~8.02、SST为6 ℃~12 ℃的海域,狭鳕渔场形成的概率较高;其中,模型预测概率大于0.6的海域包含了2020年实际作业数据中85.8%的作业网次和87.8%的CPUE。研究表明,模型预报与实际作业的渔场位置及CPUE分布高度吻合,基于提升回归树的模型适用于西白令海狭鳕渔场研究。

关键词:狭鳕;渔场预报;提升回归树;西白令海

西白令海俄罗斯专属经济区狭鳕(Gadus chalcogrammus)为重要的海洋经济鱼类,生长速度快、繁殖力较强,在其生存区域的生态系统和渔业经济中占据重要地位。近年来,中国大型拖网渔船长期在该海域作业,该渔场已成为中国渔业生产的依靠之一[1]。狭鳕的分布和资源密度受诸多环境因子影响,表现出时空变化特征,这都加大了渔业捕捞难度,不利于资源可持续利用。在渔业资源与环境关系的研究中,诸多学者对狭鳕进行了研究,其中徐香香等[2]和黄健[3]指出,海表温度(sea surface temperature,SST)为影响西白令海狭鳕单位捕捞努力量渔获量(catch per unit effort,CPUE)的环境主要因子;陈聚法等[4]认为,温度和盐度为主要影响狭鳕分布的因素;陈芃等[5]提出,东白令海狭鳕资源量会受海水pH值影响。周文英等[6]认为,随着信息技术的进一步发展,机器学习技术在渔业领域崭露头角。机器学习模型因其强大的大数据处理能力及对复杂关系的挖掘能力等,解决了传统方法难以解决的问题。Froeschke等[7]广义相加模型(generalized additive model,GAM)作为一种半参数回归模型,能够应用于环境变量与渔业资源关系分析。它可以自由地发现变量间的非线性关系,并通过拟合数据发现变量间的内在关系。Hastie等[8]研究的提升回归树(boosted regression,BRT)也是一种机器学习的渔场预报方法,它是由决策树和boosting算法结合而成,具有较多的优点。BRT模型可以较好地表达非线性关系且准确率高,具有较好的解释性,能够较清晰地解释各个环境因子对预测结果的相对重要性。Elith等[9]采用BRT模型分别预测短鳍鳗(Anguilla australis)生存分布及其影响因素;高峰等[10]采用BRT模型较为准确地预测了东、黄海鲐渔场;吴建辉等[11]比较了GAM模型和BRT模型在预测长江口鱼类群落多样性中的应用,结果显示,BRT模型在拟合精度和预测能力上更优越,能更精准地揭示环境变量和渔业分布的复杂关系。为了定量分析狭鳕资源分布与环境因子的关系,本研究拟采用BRT模型构建西白令海狭鳕渔场预报模型。为此,本研究基于对近7年(2013—2019年)中国西白令海狭鳕渔业生产调查数据及相应水体环境数据的收集展开研究工作。把实际渔场数据(含假定非渔场数据)作为响应变量,用Chl-a浓度、海水pH值为代表的环境因子作为解释变量建立BRT模型与数据验证优化,并最后分析模型的预测结果,以期为中国狭鳕渔业生产提供科学参考。

1 材料与方法

1.1 数据来源

渔业生产数据来自中国大型拖网渔船2013—2019年在俄罗斯专属经济区内的生产数据,数据包括起放网时间、作业位置、渔获量和网次等,数据的时间分辨率调整为月,空间分辨率设置为0.25°×0.25°。按照以下公式计算CPUE[12]

(1)

式中:CPUEi为第i网次CPUE(d/h),Catchi为第i网次产量(d),Efforti为第i网次拖网时长(h)。

在综合考虑多篇文献的结论后,本文选用海表温度(SST)、海表Chl-a浓度、海表pH值、海表盐度(SSS)和海平面高度(SSH)作为解释变量,以期构建一个多因子的综合预报模型。环境数据为哥白尼海洋环境监测中心的数值模型再分析数据,其中,Chl-a、pH来自Mercator-Ocean的全球生物地球化学模型(https://data.marine.copernicus.eu/product/GLOBAL_ANALYSISFORECAST_BGC_001_028/description),更新频率为每周,空间分辨率为0.25°×0.25°,时间分辨率为月;SST、SSS和SSH来自CMEMS系统(https://data.marine.copernicus.eu/product/GLOBAL_MULTIYEAR_PHY_001_030/description),更新频率为每年,空间分辨率为0.083°×0.083°,时间分辨率为月。使用ArcMap 10.5中的重采样工具将环境数据空间分辨率统一设定为0.25°×0.25°。

1.2 研究方法

1.2.1 预报模型 提升回归树模型将提升(boosting)和回归树(regression tree)两种方法结合起来,通过结合多个简单回归树模型,逐步提升模型性能。BRT模型能够较好的拟合复杂非线性关系,同时可以弥补单个回归树模型预测能力差的缺点。该模型的表达式可写为M棵树相结合的形式。

(2)

式中:y为渔场预测概率;x为输入的环境变量;M为树的数量;βj为第j棵树的权重;hj(x)为第j棵树的预测值。

本文使用R软件(4.0.4版本)中的“gbm”包和“dismo”包进行模型构建及计算。

1.2.2 假定非渔场数据 在本研究中,所采用的渔业数据源自渔捞日志,该日志仅包含实际作业渔场的相关信息,而缺乏非作业渔场的数据记录,即缺失关于物种不存在的位置信息。为解决这一数据局限性,本研究中采用了Pearce等[13]提出的针对生物分布预测中处理“仅存在(presence-only)”数据的处理方法。将研究区域(175°~180° W,60°~65° N)作为背景渔区,将2013—2019年渔捞日志中记录的CPUE>0的作业渔场数据点从背景渔区中剔除。随后,通过随机抽样的方式,在剩余的背景渔区内选择一组数据点,作为模型训练中的“伪缺席”(pseudo-absences)样本,即它们被假定为非渔场区域。根据Barbet-Massin等[14]的研究结论,应保证假定非渔场的样本量与渔捞日志中记录的CPUE>0的实际作业渔场的样本量相同。在数据处理过程中,将渔捞日志中的实际作业渔场数据标注为“1”,假定非作业渔场标注为“0”,调整数据集的时间分辨率为月,空间分辨率为0.25°×0.25°。以实际渔场(1)和假定非渔场(0)作为响应变量,环境因子作为解释变量,构建BRT模型。

1.2.3 模型参数 借助R软件(4.0.4版本)中的“gbm”包和“dismo”包,以海表温度、海表Chl-a浓度、海表pH值、海表盐度(SSS)和海平面高度(SSH)作为解释变量,实际渔场(标注为“1”)和假定非渔场(标注为“0”)作为响应变量,构建提升回归树(BRT)模型。在构建过程中,对模型的关键参数“树的复杂度(tc)”、“学习率(lr)”和“袋装分数(bf)”进行细致调试。参考高峰等[10]研究,通过4种不同的复杂度参数(tc=1,2,4,8)和5种不同的学习率参数(lr=0.001,0.005,0.01,0.05,0.1)交叉组合,构建20个BRT模型,同时将袋装分数固定设置为0.75,以降低模型变异性。从建模数据集中随机抽取80%作为训练集用于模型构建,剩余20%作为测试集用于检验模型精度。

1.2.4 模型评价及环境因子重要性 本文采用以下条件筛选最佳预报模型:1)AUC>0.9,这反映了模型具有精准预测目标变量的能力[15];2)交叉验证相关系数(CVC)>0.8,这意味着模型具有稳定性和较强的泛化能力,能够对新数据进行较好的预测;3)平均残差偏差(MRD)<0.3,即选择预测误差较小的模型;4)训练数据相关系数(TDC)>0.9,即能够较好地拟合训练数据的模型[16]

在狭鳕渔场预测中,召回率体现了模型对实际存在狭鳕渔场的捕捉能力。若召回率高,意味着模型能够发现大部分真正的狭鳕渔场,不会遗漏过多潜在的可作业区域。F1值能够更全面地评价模型的性能,避免单独依赖准确率或召回率带来的片面性。一个高F1值的模型,既具有较高的准确率,又能保证较好的召回率,在预测狭鳕渔场时,既能准确识别渔场位置,又能尽可能多地覆盖实际渔场区域。AUC值(area under the curve)即曲线下面积,用于评估模型区分正样本和负样本的能力。AUC值的取值范围为0~1,AUC值越大,说明模型的预测能力越强。当AUC=0.5时,模型的预测效果等同于随机猜测;当AUC>0.5时,模型具有一定的预测价值;当AUC接近1时,模型的预测能力非常强。在本研究中,AUC值为0.96,表明模型在区分狭鳕渔场存在和不存在的区域方面表现良好。kappa系数用于衡量模型预测结果与实际情况的一致性程度。kappa系数越接近1,表明模型的预测结果与实际情况越吻合,模型分类精度越高。一般认为,kappa>0.75时,模型分类精度较高[17]。本研究中模型的kappa系数为0.79,则划分为低等级,这类模型可能需要重新调整参数或改进方法。

计算公式分别如下

kappa=(po-pe)/(1-pe)。

(3)

式中:po为观测分类准确率;pe为期望分类准确率。

(4)

式中:Accuracy为准确率;TPTN为正确分类项;FPFN为错误分类项。

(5)

式中:Precision为精确率,F1值能够更全面地评价模型的性能,避免单独依赖准确率或召回率带来的片面性。一个高F1值的模型,既具有较高的准确率,又能保证较好的召回率,在预测狭鳕渔场时,既能准确识别渔场位置,又能尽可能多地覆盖实际渔场区域。

BRT模型中环境因子的重要性通过归一化(normalization)处理来表达[18]。归一化处理后,所有环境因子以相对重要性来表达影响程度,总和为100%。本文认为,相对重要性大于15%的环境因子为显著影响因子,为方便比较假定非渔场和实际作业渔场环境因子的分布特征及其对渔场的影响,将建模数据集(2013—2019年)的环境因子进行归一化处理,并绘制频率分布图。

1.2.5 预报模型验证 本文采用的非渔场数据为随机选取的背景渔区数据,而非真实的不存在数据。此种方法是否适用存在一定的理论争议[19]。因此,为了验证模型的可靠性和合理性,本文将BRT模型输出的渔场概率进行分级处理,每0.2分为1个等级,共5个等级(0~0.2,0.2~0.4,0.4~0.6,0.6~0.8,0.8~1)。然后基于2013—2019年实际作业网次和CPUE数据在概率区间上的分布,选择一个合适的概率阈值,将概率大于此阈值的区域认定为西白令海狭鳕潜在渔场。使用2020年的数据进行验证,将2020年作业区域的环境数据带入模型,计算研究区域内的渔场概率,并绘制为渔场概率分布热力图,与当年实际作业数据进行比较,计算每个概率区间内包含的CPUE和作业网次所占的比例,以观察预测渔场与实际作业渔场的吻合程度及合理性[20]

2 结果与分析

2.1 预报模型拟合结果

通过交叉验证,对20个BRT模型进行全面评估。模型评估指标包括AUC值、交叉验证相关系数(CVC)、平均残差偏差(MRD)和训练数据相关系数(TDC)。在本次研究中,模型8、11、12、15满足初步筛选条件(AUC>0.9,CVC>0.8,MRD<0.3,TDC>0.9)。然而,模型8、11、15的AUC值均大于0.99,考虑到可能存在过拟合风险,最终选定模型12(tc=8,lr=0.01,bf=0.75)作为预报模型。在图1中应补充绘制AUC值的对比图表。以不同模型为横轴,AUC值为纵轴,清晰呈现模型12的AUC值为0.96,而模型8、11、15的AUC值超过0.99,可清晰呈现各模型区分样本能力差异。测试集结果显示,模型kappa系数为0.79,准确率为0.89,与渔场实际分布基本相符。通过混淆矩阵计算召回率和F1值,召回率反映模型捕捉实际正样本能力,F1值综合准确率和召回率,全面评价模型性能。

图1 BRT模型相关指标

Fig.1 BRT model related parameters

2.2 模型指标

从图1可见,预测模型的AUC值为0.96,说明BRT模型预测精度较高。使用测试集对预报模型测试,kappa系数为0.79,准确率为0.89,说明模型对渔场分类的结果与实际分布情况基本一致。从表1可见,在预测渔场概率小于0.6的海域,作业网次比例和CPUE比例分别为8.5%和7.0%,且CPUE比例低于作业网次比例,表明该区域捕捞效率较低;而在预测概率大于0.6的海域,作业网次比例和CPUE比例分别为91.5%和93.0%,且CPUE比例高于作业网次比例,表明该区域捕捞效率较高,因此可将概率为0.6作为西白令海狭鳕潜在渔场的阈值。CPUE是评价渔业资源分布的重要指标,在本文中,以CPUE分布作为建模数据集中狭鳕的实际渔场分布,结果表明,BRT模型在预测狭鳕渔场分布上表现良好,对实际渔场分布的预测与模型预测的渔场分布具有较高的一致性。

表1 2013—2019年作业网次和CPUE在模型预测渔场概率区间上的占比分布

Tab.1 Proportion of trawling and CPUE from 2013 to 2019 grounds in the probability of fishing ground predicted by BRT

渔场存在概率等级fishing ground presence probability grade作业网次numbe of trawling作业网次比例/%trawling ratioCPUE比例/%CPUE ratio0.0~0.280.80.60.2~0.4161.61.00.4~0.6636.15.40.6~0.824023.324.00.8~1.070368.269.0

从表1可见,2013—2019年作业网次和CPUE在模型预测渔场概率区间上的占比分布数据,能够更直观地了解模型预测结果与实际渔业生产的关联。在预测渔场概率小于0.6的海域,作业网次比例仅为8.5%(8+16+63/总作业网次),CPUE比例为7.0%(0.6+1.0+5.4/总CPUE),且CPUE比例低于作业网次比例。这表明在该区域内,渔船实际作业的捕捞效率较低,即单位捕捞努力量所获得的渔获量较少,说明该区域可能并非狭鳕的主要分布区域,与模型预测的低概率相契合。而在预测概率大于0.6的海域,作业网次比例高达91.5%(240+703/总作业网次),CPUE比例为93.0%(24.0+69.0/总CPUE),且CPUE比例高于作业网次比例。这充分表明该区域捕捞效率较高,是狭鳕的主要分布区域,模型预测的高概率与实际渔业生产中的高产区域相匹配。基于以上数据特征,综合考虑模型预测结果与实际作业情况,确定将概率为0.6作为西白令海狭鳕潜在渔场的阈值。这一阈值的确定,使得模型能够有效地将研究区域划分为潜在渔场和非潜在渔场,为后续的渔业生产决策提供了重要的参考依据。

2.3 环境因子重要性

从BRT模型分析结果(表2)可知,在影响西白令海狭鳕渔场分布的众多环境因子中,Chl-a和pH占据主导地位,相对重要性分别达到31.4%和27.3%。在狭鳕的栖息与分布过程中,海表Chl-a浓度及海水酸碱度起着关键作用[21]。Chl-a作为海洋初级生产力的重要指示指标,其浓度变化反映了海洋中浮游植物的丰富程度,为狭鳕提供了基础的食物来源。而pH值则影响着海水的化学性质,可能对狭鳕的生理机能和生存环境产生直接影响。SST作为次要影响因子,占比18.3%,对狭鳕渔场分布也有着不可忽视的作用。狭鳕作为变温动物,其新陈代谢、生长繁殖等生命活动对水温较为敏感[22]。结合图2分析,当SST处于6 ℃~12 ℃时,渔场概率均大于0.6,表明这一温度区间较为适宜狭鳕生存与聚集,可能与狭鳕的适温习性及该温度下海洋生态系统的稳定性有关。SSS和SSH对狭鳕渔场的影响相对较小,占比分别为13.0%和10.0%。海表盐度的变化可能影响海水的密度和渗透压,进而影响狭鳕的生存环境和食物分布。海平面高度则与海洋环流、潮汐等因素相关,间接影响狭鳕的栖息和洄游路径。在SSS处于32.0%~32.4%和32.6%~33.0%区间,以及SSH在海平面±0.05 m内波动时,渔场存在概率超过0.6,显示出狭鳕对这些盐度和海平面高度范围具有一定的偏好。在保持其他条件不变的情况下,分别改变Chl-a、pH、SST、SSS和SSH的取值范围,观察模型预测的狭鳕渔场概率变化。结果显示,当这些已纳入模型的环境因子发生变化时,渔场概率会产生显著波动。如当Chl-a浓度偏离0.2~0.4 mg/m3区间时,狭鳕渔场存在概率明显下降;pH值大于8.02时,渔场概率也逐渐降低。这表明现有环境因子对狭鳕渔场分布的影响具有较强的稳定性和显著性[23]

表2 环境因子的相对重要性

Tab.2 Relative importance of environment factors

环境因子environmental factor叶绿素aChl-a酸碱度acidity 海表温度SST海表盐度SSS海表高度SSH相对重要性/%relative importance31.427.318.313.010.0

图2 BRT模型中环境因子对西白令海狭鳕分布的影响

Fig.2 Effects of environmental factors on the distribution of walleye pollock in western Bering Sea in BRT model

2.4 作业渔场预测及验证

从图3可见,2020年的预测渔场主要分布在60°~63° N,180°~175° W区域,并可进一步分为西北区域(61°15′~62° N,179°45′~178° W)、东北区域(61°30′~62°30′ N,178°~176° W)和南部区域(60°~61°45′N,178°30′~175° W)。2020年中国狭鳕拖网船的作业点主要集中在西北区域,其中85.8%的作业网次位于预测概率大于0.6的海域,其对应的CPUE占比为87.8%;相反,在预测概率小于0.6的海域,作业网次和CPUE占比仅为14.2%和12.2%。总体来看,BRT模型预报的渔场位置与实际作业渔场位置高度吻合,且预报的渔场重心与实际CPUE分布也高度一致[24]

图3 2020年BRT预测渔场与狭鳕实际作业渔场

Fig.3 Distribution of predicted fishing grounds and fishing locations of Walleye Pollock in 2020

2.5 渔场环境数据频率分布

图4为2013—2019年的假定非渔场与实际作业渔场的环境数据频率分布趋势。从图4可见,实际作业渔场的Chl-a浓度和pH值主要集中在较低的范围,且有明显的峰值;而假定非渔场的这两个因子值分布更分散,峰值也分布在更高的频率区间上[25]。SST在两类渔场上的分布相似,峰值位置也较为接近;实际渔场的SSS值和SSH值主要集中在中高值范围,而假定非渔场的这两个因子值分布更广,但峰值位置十分接近。总体来看,Chl-a、pH和SST在实际渔场中的峰值大于假定非渔场,而SSS和SSH的峰值在两类渔场中差距较小。

图4 2013—2019年假定非渔场和实际作业渔场中环境因子频次分布

Fig.4 Frequencies distribution plots of environmental factors in non-fishing areas and actual fishing grounds from 2013 to 2019

3 讨论

基于提升回归树(BRT)模型构建的西白令海狭鳕渔场预报模型具有较高的准确性和可靠性,AUC值为0.96,kappa系数为0.79,准确率为89%,可有效应用于西白令海狭鳕渔场研究。Chl-a浓度、pH和海表温度是影响西白令海狭鳕渔场分布的关键环境因子,三者相对重要性之和超过75%,其中,Chl-a浓度为0.2~0.4 mg/m3、pH范围为7.96~8.02、SST范围为6 ℃~12 ℃的海域,狭鳕渔场存在的概率较高。将概率为0.6作为西白令海狭鳕潜在渔场的阈值,能有效划分潜在渔场和非潜在渔场,为渔业生产提供合理指导。

3.1 狭鳕渔场的影响因子

本研究中运用BRT模型分析,较好地阐述了西白令海狭鳕渔场分布的主要影响环境因子,其中Chl-a和pH值的主效显著,可进一步加深狭鳕对环境要求的理解,同时也可为渔业资源管理和渔场预报提供重要参考[26]。Chl-a作为海洋生态系统初级生产力的一个重要指标,其浓度的高低可直接影响浮游植物资源的丰富度,而浮游植物构成了狭鳕食物链中的主要部分。故Chl-a含量水平决定了狭鳕可利用食物的多少,这对于狭鳕的生存、生长和繁殖都是十分重要的。pH值可以影响海水的酸碱度、溶解氧含量等化学平衡,进而直接作用于狭鳕本身的生理功能和生存环境,有利于狭鳕进行正常的代谢活动,可以维持其正常的生理功能,但若pH值偏低或偏高,均会给狭鳕的正常生理活动造成危害,并影响狭鳕分布和种群数量[27]

SST作为次关键性因素,其对狭鳕的影响也主要以调节狭鳕的生理活动和维持生态系统稳定为主。狭鳕属于变温动物,体温随着环境的温度波动,SST的变化会直接影响狭鳕的新陈代谢速率、生长和繁殖等生理活动。而狭鳕的生理机能状态最佳适应温度为6 ℃~12 ℃,此范围同时也在该海域生态系统其他生物适宜生存温度范围内,从而保证了食物链完整及维持该海域的生态系统平衡,吸引了狭鳕在此处聚集。

SSS与SSH虽影响较小,但在特定范围内仍对狭鳕分布产生重要影响。SSS的变化影响海水密度和海水渗透压,间接影响狭鳕的生存环境和饵料分布。如在盐度为32.0~32.4、32.6~33.0范围内狭鳕生存和繁衍较适宜,可能与盐度为该范围时海洋生物分布和生态过程的适宜程度有关。SSH与海洋环流、潮汐等密切相关,间接影响狭鳕的栖息和洄游路线,在海平面±0.05 m范围内变化可能造成了对狭鳕生存和觅食相对适宜的海洋环境(如适宜的水流、营养物分布等),从而有利于形成渔场[28]。此外,考虑到BRT模型结构相对固定及西白令海作业的区域性,本文构建预报模型时未加入空间因子,以防止削减环境因子的影响程度。根据重要影响因子的效应图,可以发现Chl-a浓度为0.2~0.4 mg/m3、pH范围为7.96~8.02、SST范围为6 ℃~12 ℃的海域,狭鳕渔场存在的概率相对较高。

3.2 假定非渔场数据的影响

本文采用添加“伪缺席数据”[14]的方法来构建模型,从模型预测结果的准确率和验证结果来看,这种处理方法是可行的,不仅可以增加用于训练模型的数据量,还可以提高模型的泛化能力和对比能力[29]。本研究中Chl-a、pH在两类渔场中具有不同的频率分布趋势,二者在实际渔场中的频率分布更加集中(图4),表明作业人员可能对渔场位置的主动选择产生了较大影响;SST在实际渔场中的峰值明显高于假定非渔场,但其在两类渔场的分布趋势相似,可能会限制SST在模型中的解释能力;而SSS和SSH频率分布和峰值在两类渔场十分相似,可能导致这两种环境因子对狭鳕渔场的影响被弱化。

3.3 模型预报效果

基于BRT模型构建的西白令海狭鳕渔场预报模型在本次研究中展现出了较高的准确性和可靠性。模型的AUC值达到0.96,kappa系数为0.79,准确率为89%,这些指标表明,模型在区分渔场和非渔场区域方面具有出色的能力,且预测结果与实际情况高度吻合。通过对2013—2019年数据的验证,模型预测概率大于0.6的海域包含了当年实际作业数据中85.8%的作业网次和87.8%的CPUE,模型预报的渔场位置与实际作业渔场位置高度一致,且预报的渔场重心与实际CPUE分布也高度契合,充分证明了模型在实际应用中的有效性。将概率为0.6作为西白令海狭鳕潜在渔场的阈值,能够有效地将研究区域划分为潜在渔场和非潜在渔场,为渔业生产提供了明确的指导[27]。在实际应用中,渔业从业者可以根据模型的预测结果,合理规划捕捞作业,减少盲目搜寻渔场的时间和成本,提高捕捞效率,实现渔业资源的可持续利用。该模型预报的渔场范围与实际作业位置基本一致,且能有效区分高捕捞效率和低捕捞效率海域,可以进一步提高捕捞产量和效率并降低成本,但中国狭鳕捕捞时间跨度较短,厄尔尼诺事件等大尺度气候因子并未加入到模型中。已有研究表明,鱼类分布和资源量会受到厄尔尼诺等气候事件的影响[30]。在后续积累到足够时间跨度的数据量后,可考虑将此类大中型尺度海洋气候因子加入到模型中,观察是否可提高预测精度和准确度。

4 结论

1)SST作为次要因素,通过温度直接影响变温动物狭鳕的生理活动(如代谢、生长)。其最佳适温范围( 6 ℃~12°C )亦符合该海域生态要求,可保障食物链与系统稳定,促进狭鳕聚集。

2)CHL-a与pH在实际渔场中分布更集中,反映人为选址影响;SST虽峰值更高但分布趋势相似,或削弱其模型解释力;SSS 和SSH在两类渔场分布高度一致,可能弱化其对狭鳕渔场的作用。

3)2013—2019年数据显示,模型预测概率>0.6的海域覆盖了85.8%的作业网次及87.8%的CPUE,渔场位置与重心均与实际高度吻合,证实其有效性。以概率0.6为阈值可明确划分潜在渔场,指导渔业生产。

参考文献:

[1] 韦贝贝,黄开,朱国平.西白令海狭鳕夏季卵巢发育特征[J].上海海洋大学学报,2021,30(2):331-338.
WEI B B,HUANG K,ZHU G P.Ovary development of walleye pollock (Gadus chalcogrammus) in the western Bering Sea summer[J].Journal of Shanghai Ocean University,2021,30(2):331-338.(in Chinese)

[2] 徐香香,邹晓荣,杨香帅,等.西白令海狭鳕渔场与环境因子关系研究[J].海洋湖沼通报,2019,41(4):115-124.
XU X X,ZOU X R,YANG X S,et al.Studies on relationship between environmental factors and fishing grounds of walleye pollock (Theragra chalcogramma) in west Bering Sea[J].Transactions of Oceanology and Limnology,2019,41(4):115-124.(in Chinese)

[3] 黄建.西白令海狭鳕渔业资源初步分析[D].上海:上海海洋大学,2017:30-33.
HUANG J.Preliminary analysis of walleye pollock resource in the Western Bering Sea[D].Shanghai:Shanghai Ocean University,2017:30-33.(in Chinese)

[4] 陈聚法,唐启升.夏季鄂霍茨克海公海区狭鳕渔场环境特征[J].应用生态学报,2000,11(6):939-942.
CHEN J F,TANG Q S.Environmental characteristic of walleye pollock fishing ground in high seas of the Okhotsk Sea in summer[J].Chinese Journal of Applied Ecology,2000,11(6):939-942.(in Chinese)

[5] 陈芃,陈新军.海水pH变动对东白令海渔业资源丰度变动的影响[J].上海海洋大学学报,2021,30(4):718-725.
CHEN P,CHEN X J.Effects of pH variation on the abundance of fishery resources in the East Bering Sea[J].Journal of Shanghai Ocean University,2021,30(4):718-725.(in Chinese)

[6] 周文英,史文崇.机器学习在渔业研究中的应用进展与展望[J].渔业研究,2022,44(4):407-414.
ZHOU W Y,SHI W C.Application progress and prospect of machine learning applied to fishery research[J].Journal of Fisheries Research,2022,44(4):407-414.(in Chinese)

[7] FROESCHKE B F,TISSOT P,STUNZ G W,et al.et al.Spatiotemporal predictive models for juvenile southern flounder in Texas Estuaries[J].North American Journal of Fisheries Management,2013,33(4):817-828.

[8] HASTIE T,TIBSHIRANI R,FRIEDMAN J.The elements of statistical learning:data mining,inference,and prediction[M].2nd ed.New York:Springer,2009:299-345.

[9] ELITH J,LEATHWICK J R,HASTIE T.A working guide to boosted regression trees[J].Journal of Animal Ecology,2008,77(4):802-813.

[10] 高峰,陈新军,官文江,等.基于提升回归树的东、黄海鲐鱼渔场预报[J].海洋学报,2015,37(10):39-48.
GAO F,CHEN X J,GUAN W J,et al.Fishing ground forecasting of chub mackerel in the Yellow Sea and East China Sea using boosted regression trees[J].Haiyang Xuebao,2015,37(10):39-48.(in Chinese)

[11] 吴建辉,戴黎斌,戴小杰,等.GAM模型和BRT模型在长江口鱼类群落多样性预测中的比较[J].应用生态学报,2019,30(2):644-652.
WU J H,DAI L B,DAI X J,et al.Comparison of generalized additive model and boosted regression tree in predicting fish community diversity in the Yangtze River Estuary,China[J].Chinese Journal of Applied Ecology,2019,30(2):644-652.(in Chinese)

[12] 官文江,田思泉,王学昉,等.CPUE标准化方法与模型选择的回顾与展望[J].中国水产科学,2014,21(4):852-862.
GUAN W J,TIAN S Q,WANG X F,et al.A review of methods and model selection for standardizing CPUE[J].Journal of Fishery Sciences of China,2014,21(4):852-862.(in Chinese)

[13] PEARCE J L,BOYCE M S.Modelling distribution and abundance with presence-only data[J].Journal of Applied Ecology,2006,43(3):405-412.

[14] BARBET-MASSIN M,JIGUET F,ALBERT C H,et al.Selecting pseudo-absences for species distribution models:how,where and how many?[J].Methods in Ecology and Evolution,2012,3(2):327-338.

[15] FRANKLIN J,MILLER J A.Mapping species distributions:spatial inference and prediction[M].Cambridge:Cambridge University Press,2009:200-205

[16] 王运生,谢丙炎,万方浩,等.ROC曲线分析在评价入侵物种分布模型中的应用[J].生物多样性,2007,15(4):365-372.
WANG Y S,XIE B Y,WAN F H,et al.Application of ROC curve analysis inevaluating the performance of alien species’ potential distribution models[J].Biodiversity Science,2007,15(4):365-372.(in Chinese)

[17] FIELDING A H,BELL J F.A review of methods for the assessment of prediction errors in conservation presence/absence models[J].Environmental Conservation,1997,24(1):38-49.

[18] GREENWELL B,OEHMAKE B,CUNNINGLHAM J,et al.gbm:generalized boosted regression models [EB/OL].(R package version 2.1.8.1)[2022-10-03].https://CRAN.R-project.org/package=gbm.

[19] FREEMAN E A,MOISEN G.Presence absence:an R Package for presence absence analysis[J].Journal of Statistical Software,2008,23(11):31.

[20] 张聪,周为峰,樊伟.基于ADASYN和Stacking集成的南太平洋黄鳍金枪鱼渔场预报模型研究[J].海洋渔业,2023,45(5):544-558.
ZHANG C,ZHOU W F,FAN W.Research on fishing ground forecast models of South Pacific Thunnus albacores based on ADASYN and Stacking integration[J].Marine Fisheries,2023,45(5):544-558.(in Chinese)

[21] 刘子琳,陈建芳,刘艳岚,等.2008年夏季白令海粒度分级叶绿素a和初级生产力[J].海洋学报,2011,33(3):148-157.
LIU Z L,CHEN J F,LIU Y L,et al.The size-fractionated chlorophyll a concentration and primary productivity in the Bering Sea in the summer of 2008[J].Acta Oceanologica Sinica,2011,33(3):148-157.(in Chinese)

[22] SPRINGER A M,MCROY C P.The paradox of pelagic food webs in the northern Bering Sea:III.Patterns of primary production[J].Continental Shelf Research,1993,13(5/6):575-599.

[23] 刘子琳,陈建芳,陈忠元,等.白令海光合浮游生物现存量和初级生产力[J].生态学报,2006,26(5):1345-1351.
LIU Z L,CHEN J F,CHEN Z Y,et al.Primary productivity and the standing stock of photo-plankton in the Bering Sea during the summer of 2003[J].Acta Ecologica Sinica,2006,26(5):1345-1351.(in Chinese)

[24] PILCHER D J,CROSS J N,HERMANN A J,et al.Dynamically downscaled projections of ocean acidification for the Bering Sea[J].Deep Sea Research Part Ⅱ:Topical Studies in Oceanography,2022,198:105055.

[25] PILCHER D J,NAIMAN D M,CROSS J N,et al.Modeled effect of coastal biogeochemical processes,climate variability,and ocean acidification on aragonite saturation state in the Bering sea[J].Frontiers in Marine Science,2019,5:508.

[26] GATTUSO J P,MACH K J,MORGAN G.Ocean acidification and its impacts:an expert survey[J].Climatic Change,2013,117(4):725-738.

[27] PORTER S M.Effects of size and light on respiration and activity of walleye pollock (Theragra chalcogramma) larvae[J].Journal of Experimental Marine Biology and Ecology,2001,256(2):253-265.

[28] 杨香帅,邹晓荣,徐香香,等.ENSO现象对东南太平洋智利竹筴鱼资源丰度及其渔场变动的影响[J].上海海洋大学学报,2019,28(2):290-297.
YANG X S,ZOU X R,XU X X,et al.Effects of ENSO on abundance index andspatial-temporal change of Chilean jack mackerel in the Southeast Pacific Ocean[J].Journal of Shanghai Ocean University,2019,28(2):290-297.(in Chinese)

[29] 方舟,陈洋洋,陈新军,等.中西太平洋鲣渔场时空分布研究[J].海洋渔业,2019,41(2):149-159.
FANG Z,CHEN Y Y,CHEN X J,et al.Spatial and temporal distribution analysis of high catch fishing ground for Katsuwonus pelamis in the Western and Central Pacific[J].Marine Fisheries,2019,41(2):149-159.(in Chinese)

[30] 段咪,魏联,朱国平.西白令海阿拉斯加狭鳕矢耳石形态特征研究[J].大连海洋大学学报,2018,33(4):492-498.
DUAN M,WEI L,ZHU G P.Morphometric features of sagittal otolith for Alaska pollock Gadus chalcogrammus in the western Bering Sea[J].Journal of Dalian Ocean University,2018,33(4):492-498.(in Chinese)

A boosted regression tree based forecast model for walleye pollock (Gadus chalcogrammus)fishing grounds in the western Bering Sea

ZHAO Yuzhe1,ZOU Xiaorong1,2*,HE Yong1

(1.College of Marine Science,Shanghai Ocean University,Shanghai 201306,China;2.National Engineering Research Center for Oceanic Fisheries,Key Laboratory of Sustainable Exploitation of Oceanic Fisheries Resources,Ministry of Education,Scientific Observing and Experimental Station of Oceanic Fishery Resources,Ministry of Agriculture and Rural Affairs,Shanghai 201306,China)

Abstract: To improve the accuracy of fishing ground prediction and fishing benefit in the western Bering Sea, the study used the Chinese fishing production data of the walleye pollock (Gadus chalcogrammus) from 2013 to 2019 and the boosting regression tree model to build a prediction model for walleye pollock fishing ground in the western Bering Sea, with environmental factors such as chlorophyll-a concentration and seawater pH as explanatory variablesand with the actual fishing ground data and selected hypothetical non-fishing ground data from the background fishing area as response variables.Further, the prediction model was tested by using the actual fishing data in 2020. The results indicated that the area under the curve (AUC) value of the prediction model was 0.96, the kappa coefficient was 0.79, and the accuracy was 89%. The comprehensive relative importance of chlorophyll-a concentration, pH value, and sea surface temperature (SST) exceeded 75%. In areas with Chl-a concentrations ranging from 0.2 to 0.4 mg/m3, pH values between 7.96 and 8.02, and SST between 6°C and 12°C, the probability fordevelopment of a walleye pollock fishing ground was relatively high. The areas that the model-predicted probability was greater than 0.6 included 85.8% of the actual trawling operationand 87.8% of the Catch Per Unit Effort (CPUE) recorded in 2020. This suggested a strong alignment between the predicted fishing grounds and the actual fishing areas in 2020 and the CPUE distribution. These results suggest that a boosted regression tree-based fishery forecasting model is applicable for predicting walleye pollock fishing grounds in the western Bering Sea.

Key words: Gadus chalcogrammus; fishing ground prediction; boosting regression tree; western Bering Sea

中图分类号:S 931

文献标志码:A

DOI:10.16535/j.cnki.dlhyxb.2024-264

文章编号:2095-1388(2025)03-0472-09

收稿日期:2024-12-05

基金项目:浙江省“领雁”重大攻关计划项目(2022C02025)

作者简介:赵宇哲(2000—),男,硕士研究生。E-mail:13052909520@163.com

通信作者:邹晓荣(1971—),男,副教授。E-mail:xrzou@shou.edu.cn