基于主成分分析及GA-LM的水产养殖环境溶解氧和氨氮含量预测

姚启1,缪新颖1, 2*

(1.大连海洋大学 信息工程学院,辽宁 大连 116023; 2.辽宁省海洋信息技术重点实验室,辽宁 大连116023)

摘要:为了精准预测水产养殖过程中最重要的两个环境参数溶解氧和氨氮,针对预测模型需要解决的有效影响因子确定、预测算法和网络结构优化等问题,将Levenberg-Marquardt(LM)神经网络、遗传算法(genetic algorithm,GA)和主成分分析(PCA)算法相结合,提出一种基于GA-LM-PCA的水产养殖环境溶解氧和氨氮含量预测模型,即采用PCA确定影响因素,实现影响因素的去耦合降维,采用遗传算法对网络结构进行优化,确定合适的隐层节点数目和权值,采用LM训练神经网络,提高神经网络的收敛速度。为了验证GA-LM-PCA的预测效果,将GA-LM-PCA的预测效果与未用PCA方法的GA-LM预测模型进行了试验比较,并探讨了影响因素数量对预测效果的影响。结果表明:用GA-LM-PCA方法预测的溶解氧和氨氮值与实测值吻合较好,平均绝对误差和均方根误差分别为0.004 7、1.872 7×10-4(溶解氧)和0.006 5、9.428 7×10-4(氨氮),适用于影响因素数量较多的场合。研究表明,GA-LM-PCA是一种有效的水产养殖环境溶解氧和氨氮预测工具,尤其对于影响因素复杂繁多的非线性系统效果更好。

关键词: 溶解氧;氨氮;水产养殖环境;遗传算法(GA);LM神经网络算法;主成分分析(PCA)

水产养殖是一个包括多参数的复杂过程[1]。其中,溶解氧(dissolved oxygen,DO)和氨氮含量是决定水产养殖产量的重要因素[2-3],DO过高或过低都会导致养殖生物死亡[4],氨氮直接反映养殖水质的污染程度,过高直接影响养殖生物的生存状态。因此,在水产养殖环境中对二者进行预测,对水产养殖业具有重要的意义。

DO和氨氮含量的预测均为非线性问题[5],二者受多种因素影响,且各因素之间存在复杂的耦合关系[6],因此,难以利用统计的方法建立准确的预测模型,故而以神经网络和支持向量机(support vector machine,SVM)为代表的非线性问题解决工具,被研究者应用于DO和氨氮预测[7-11]。但是,SVM和误差反向传播神经网络(back propagation neural network,BPNN)具有极大的局限性[7-8],易引入冗余数据,且针对复杂问题的泛化能力受到一定的制约[12]。神经网络的结构很多都是通过试凑法来实现[4,13],导致运行费时。另外,DO和氨氮影响因素复杂,且相互之间存在很大的耦合性,很难确定神经网络的最佳输入,若将相关的影响因素全部直接引用,不仅会引入大量冗余数据,而且会由于多重共线性降低网络的训练速度和效率,影响预测精度[14]

Levenberg-Marquardt(LM)神经网络算法利用高斯-牛顿法可以在最优值附近产生一个理想的搜索方向,从而保持较快下降速度的特点,使网络能够有效收敛,可以大大提高网络的收敛速度和泛化能力[5]。遗传算法(genetic algorithm,GA)是一种模拟自然进化、搜索最优解的方法,适合用来优化神经网络的结构[5]。主成分分析(principal component analysis,PCA)方法一方面可以通过提取正交的各主成分,有效避免多重共线性,提高参数估计的准确性;另一方面可以对包含较多变量的影响因子数据集进行降维,使尽可能少的变量包含尽可能多的信息,从而使模型所包含的信息更丰富,建模更有效[15]

基于以上考虑,本研究中构建了一个综合GA、LM和PCA算法优点的GA-LM-PCA水产养殖环境DO和氨氮含量预测模型,利用PCA算法确定DO和氨氮含量预测模型的有效影响因子,利用LM算法训练神经网络,利用GA优化神经网络结构,以期为水产养殖重要环境因子的预测提供有效工具。

1 基于GA-LM-PCA的预测模型

1.1 水产养殖环境DO和氨氮的影响因素分析

影响水产养殖环境DO含量的因素复杂,主要包括水体温度、水体含氮量和空气中氧气组分的分压力等[7-8],其中一些因素在一定条件下对某一具体养殖环境和测量点可以认为是不变的[5]。影响水产养殖环境氨氮含量的因素主要有水温、pH、DO和电导率等,其中水温、pH越高,氨氮的毒性就越大,DO也直接关系到氨氮、亚硝酸氮和硝酸氮之间的转化效果,电导率能体现养殖环境中离子的量[9]

本研究中,水产养殖水样采集自大连獐子岛股份有限公司养殖基地。综合考虑各变量的可测性,选取水温、盐度、叶绿素a、电导率、浊度、风速、亚硝酸盐、氨氮和总氮9个变量作为DO的影响因素;初步选取水温、pH、DO和电导率4个变量作为氨氮的主要影响因素,在考虑多因素分析时,选取水温、盐度、叶绿素a、电导率、浊度、风速、亚硝酸盐、DO、pH和总氮10个变量作为氨氮的影响因素。采用浮标在线监测水温、盐度、叶绿素a、电导率、浊度、风速,采用多参数水质监测仪(YSI600XLM,美国)现场测定亚硝酸盐、pH、氨氮和DO含量,采用全自动总氮分析仪测定总氮含量(IL500,美国HACH公司)。

1.2 水产养殖环境DO和氨氮含量预测模型GA-LM-PCA的建立

从大连獐子岛股份有限公司2011—2012年所收集的监测数据中选取其中的1 200组作为建模数据,其中,1 100组作为训练样本,100组作为测试样本。用PCA确定养殖环境DO和氨氮有效影响因子的基础上,采用GA-LM方法进行预测。预测流程图如图1所示。

图1 基于GA-LM-PCA模型的水产养殖环境DO和氨氮含量预测流程图

Fig.1 Flowchart of dissolved oxygen (DO) and ammonia nitrogen concentrations in aquaculture environment based on GA-LM-PCA prediction model

1.2.1 基于PCA算法的水产养殖环境DO和氨氮有效影响因子的确定 考虑到水产养殖环境DO和氨氮含量影响因素众多,且相互之间存在着多重共线性,利用主成分分析方法确定DO和氨氮含量的有效影响因子,从而达到去耦合降维的效果。具体步骤如下:

1)对水产养殖环境DO和氨氮的影响因素进行标准归一化,以消除不同影响因子数值的平均值和方差大小对变量比较产生的影响。计算公式为

其中:xi为每个样本的第i个影响因素;xi mean为影响因素的平均值;σ(xi)为影响因素的标准差。

2)求样本协方差矩阵,即

i=1,2,…n; j=1,2,…,p

其中:的期望;的期望。 3)计算Cx的特征值λi及相应特征向量μi,其中i=1,2,…,p

4)对λi按照降序排列,计算出所有主元的累积贡献率,并将累积贡献率大于85%的前m(m<p)个主元选取出来,累积贡献率η(m)计算公式为

5)计算前m个主元对应的特征向量μi,构建其变换矩阵D,即

D=(μ1,μ2,…,μm)T

(4)

6)求出前m个主成分表达式,并将其作为GA-LM输入,主成分Z计算公式为

Z=DX*

(5)

1.2.2 基于GA的水产养殖环境DO和氨氮含量预测模型结构的确定 本研究中采用典型的3层神经网络,隐层节点数、最优权值和阈值等网络结构因素均由GA来完成。主要步骤如下:

1)初始化种群并编码。用染色体表示神经网络结构,在编码时具体包括结构基因与权重基因。结构基因采用二进制编码,表示隐层节点结构(“1”表示存在隐层节点,“0”表示不存在);连接权值和阈值用权重基因wn(x+y)表示,利用实数进行编码。当有n个隐层节点、x个输入、y个输出时,染色体编码的结构如图2所示。

图2 染色体编码结构

Fig.2 Structure of the chromosome code

本研究中种群初始值设为100,初始隐层节点设为30。

2)适应度评价,计算公式为

E=∑(S-V)2F=1/E

(6)

其中:V 是经LM训练神经网络得到的预测值;S 是所对应的实际测量值;E 是误差平方和(SSE);F 是适应度函数。总体向适应度函数F高的方向进化, 误差逐步减小,结构逐步趋于简单。

3)确定终止进化条件。本研究中确定了两个进化终止依据,二者为“或”的逻辑关系。具体为迭代次数达到500,或均方差(MSE)小于0.000 1。

4)遗传算子。具体包括选择、交叉和变异算子,本研究中采用不同的策略[5]。选择算子采用了轮盘赌策略;交叉和变异算子则根据染色体编码结构采用了不同的策略,其中结构基因采用单点交叉和基本位变异算子;权重基因采用算术交叉和非均匀变异算子。初始交叉率和变异率分别设置为0.6和0.08,可以自适应调整,调整公式为

其中: Fmax为种群的最大适应度值;Favg为种群的平均适应度值;F为要交叉的两个个体中较大的适应度值;F′为要变异个体的适应度值;k1k2k3k4为常数。

1.2.3 基于LM神经网络的水产养殖环境DO和氨氮含量预测算法 LM算法是在BPNN算法基础上的一种修正算法,能够克服BP算法容易陷入局部极小、收敛速度慢、泛化能力弱等不足。在修正过程中,权值的调整算法公式为

ΔW=-[JT(w)J(w)+αI]-1·JT(w)e(w)。

(8)

其中:J(ω)为Jacobian矩阵;α为大于零的调整因子,用于控制LM算法的迭代;I为单位矩阵。本研究中α的初始值设为0.01。

2 养殖环境中DO和氨氮含量的预测

2.1 DO含量的预测结果

对1 100组DO样本归一化后的部分水产养殖环境数据见表1,归一化后的样本数据变化范围变小,可以消除不同影响因子数值的平均值和方差大小对变量比较产生的影响。

表1 归一化后DO含量的影响因素

Tab.1 Normalized impact factors of DO concentration

样本号smapleNo.水温/℃temperature盐度salinity叶绿素a/(μg·L-1)chlorophyll a电导率/(mS·cm-1)electrical conductivity浊度/NTUturbidity风速/(m·s-1)wind speed亚硝酸盐/(mg·L-1)NO-2-N氨氮/(mg·L-1)ammonia nitrogen总氮/(mg·L-1)total nitrogen10.460 5-1.209 29.433 80.210 32.419 00.442 4-0.074 4-0.660 4-0.502 62-0.725 40.575 33.294 4-0.683 23.267 11.166 8-0.074 40.383 90.234 03-0.546 4-0.446 15.831 0-0.716 15.922 41.710 0-1.388 1-0.107 5-0.762 6︙︙︙︙︙︙︙︙︙︙1 0990.340 3-1.799 3-0.061 0-0.069 3-0.138 9-0.161 2-1.300 5-0.353 2-0.675 91 1000.355 7-1.942 1-0.060 7-0.088 3-0.136 20.442 41.064 10.076 80.580 6

对应的水产养殖环境DO样本的协方差见表2,DO的9个影响因素之间具有一定的耦合性,需要去耦。利用GA-LM-PCA模型对DO含量进行预测,得到如表3所示的DO降序特征值和贡献率。

表2 水产养殖环境DO样本的协方差

Tab.2 Covariance matrix of DO samples in aquaculture environment

因素factor水温temperature盐度salinity叶绿素achlorophyll a电导率electrical conductivity浊度turbidity风速wind speed亚硝酸盐NO-2-N氨氮ammonia nitrogen总氮total nitrogen水温 temperature1.000 0-0.511 5-0.095 20.977 4-0.134 5-0.269 10.002 1-0.002 10.005 1盐度 salinity-0.511 51.000 0-0.069 3-0.318 40.059 60.137 00.025 40.045 80.004 5叶绿素a chlorophyll a-0.095 2-0.069 31.000 0-0.124 50.809 40.198 4-0.022 5-0.043 5-0.042 1电导率 electrical conductivity0.977 4-0.318 4-0.124 51.000 0-0.137 2-0.266 00.018 50.008 50.015 7浊度 turbidity-0.134 50.059 60.809 4-0.137 21.000 00.216 70.006 9-0.023 3-0.013 0风速 wind speed-0.269 10.137 00.198 4-0.266 00.216 71.000 0-0.005 90.015 50.008 0亚硝酸盐 NO-2-N0.002 10.025 4-0.022 50.018 50.006 9-0.005 91.000 00.411 30.755 2氨氮ammonia nitro-gen-0.002 10.045 8-0.043 50.008 5-0.023 30.015 50.411 31.000 00.905 4总氮 total nitrogen0.005 10.004 5-0.042 10.015 7-0.013 00.008 00.755 20.905 41.000 0

从表3可见,前5个主元的累计贡献率大于85%,且特征值较大,因此,选取主成分数目为5个。

表3 DO的降序特征值和贡献率

Tab.3 Eigenvalue in descending order and corresponding contribution rates of DO

主元序号serial number of principal element特征值eigenvalue对应贡献率/%corresponding contribution rate累积贡献率/%cumulative contribution rate12.505 727.841 427.841 422.407 226.747 054.588 431.739 219.324 773.913 040.832 39.247 983.160 950.738 48.204 591.365 560.595 86.620 197.985 570.179 11.990 099.975 680.002 20.024 4100.000 090.000 00.000 0100.000 0

按照式(4)和(5)求出的主成分表达式为

在此基础上,得到如图3、4所示的5-10-1水产养殖环境DO含量预测网络结构和预测结果。

图3 5-10-1水产养殖环境DO含量预测网络

Fig.3 5-10-1 predicted network of DO concentration in aquaculture environment

2.2 氨氮含量的预测

将文献[9]中所采用的水温、pH、DO和电导率4个变量作为影响因素,依然采用1 200组监测数据作为样本,其中1 100组作为训练样本,100组作为测试样本,同样利用GA-LM-PCA模型对氨氮含量进行预测,得到如表4所示的降序特征值和贡献率。从表4可见,前3个主元的累计贡献率大于85%,且特征值较大,因此,选取主成分数为3。在此基础上,可以得到3-8-1的氨氮含量预测网络结构(图略)和预测结果(图5)。

图5 氨氮含量的GA-LM-PCA模型预测结果

Fig.5 Predicted ammonia nitrogen concentration by GA-LM-PCA model

表4 氨氮的降序特征值和贡献率

Tab.4 Eigenvalue in descending order and corresponding contribution rates of ammonia nitrogen

主元序号serial number of principal element特征值eigenvalue对应贡献率/%corresponding contribution rate累积贡献率/%cumulative contribution rate11.977 549.436 349.436 321.115 427.884 377.320 630.884 622.114 499.435 040.022 60.565 0100.000 0

2.3 利用PCA和未用PCA的GA-LM模型预测结果比较

2.3.1 DO含量预测比较 为了验证GA-LM-PCA的预测效果,将GA-LM-PCA 的预测结果与直接引用影响因素的GA-LM模型进行比较。采用直接引用变量法,将水温、盐度、叶绿素a、电导率、浊度、风速、亚硝酸盐、氨氮和总氮9个变量作为DO的影响因子,采用GA-LM模型对DO含量进行预测,结果如图6所示。

将图6与图4的DO含量预测结果进行比较,可以看出,GA-LM-PCA模型预测结果明显优于未用PCA方法的GA-LM 模型,二者具体性能比较如表5所示。从表5可见,利用GA-LM-PCA预测DO含量,尽管PCA确定有效影响因子需要花费一定的时间,但能够有效地对影响因素解耦降维,运行耗时反而降低,平均绝对误差与均方根误差也均小于GA-LM模型法,提高了预测精度。

图4 DO含量的GA-LM-PCA模型预测结果

Fig.4 Predicted DO concentration by GA-LM-PCA model

表5 GA-LM-PCA与GA-LM模型预测DO含量的效果比较

Tab.5 Comparison of DO concentration prediction between GA-LM-PCA and GA-LM model

模型model神经网络算法输入量个数number of NN input平均绝对误差mean absolute error均方根误差root mean square error运行时间/selapsed timeGA-LM90.121 80.186 4196.800GA-LM-PCA50.004 70.006 5182.749

图6 DO含量的GA-LM模型预测结果

Fig.6 Predicted DO concentration by GA-LM model

2.3.2 氨氮含量预测比较 将水温、pH、DO和电导率4个变量作为影响因素对氨氮含量进行预测,采用不加PCA的GA-LM模型预测结果如图7所示。

将图7与图5的氨氮含量预测结果进行比较,可以看出,GA-LM-PCA模型预测结果稍好于未用PCA方法的GA-LM 模型,二者具体性能比较如表6所示。从表6可见,两种模型的输入量个数相当,而GA-LM模型输入量本身就是行业内所认为相关度最高的4个量,所以未用PCA和使用PCA法所确定的GA-LM模型预测的平均绝对误差和均方根误差都非常接近,而且在输入量非常接近的情况下,未用PCA方法的运行反而耗时更短。

表6 GA-LM-PCA与GA-LM模型预测氨氮含量的效果比较

Tab.6 Comparison of ammonia nitrogen concentration prediction between GA-LM-PCA and GA-LM model

模型model神经网络算法输入量个数number of NN input平均绝对误差mean absolute error均方根误差root mean square error运行时间/selapsed timeGA-LM45.156 2×10-40.014 2175.677GA-LM-PCA34.573 4×10-40.011 1259.590

图7 氨氮含量的GA-LM模型预测结果

Fig.7 Predicted ammonia nitrogen concentration by GA-LM model

2.4 影响因素的数量对GA-LM-PCA预测模型的影响

对于同期监测的1 200组样本,将氨氮的影响因素从之前的4个增加到10个,具体为水温、盐度、叶绿素a、电导率、浊度、风速、亚硝酸盐、DO、pH和总氮,利用同样的GA-LM-PCA方法对其预测,得到表7所示的降序特征值和贡献率。从表7可见,前6个主元的累计贡献率大于85%,且特征值较大,因此,选取主成分数目为6。在此基础上,得到6-18-1的氨氮含量预测网络结构(图略)和预测结果(图8)。

表7 增加影响因素数量后氨氮的降序特征值和贡献率

Tab.7 Eigenvalue in descending order and corresponding contribution rates of ammonia nitrogen after increasing the number of the influence factors

主元序号serial number of principal element特征值eigenvalue对应贡献率/%corresponding contribution rate累积贡献率/%cumulative contribution rate12.504 025.040 025.040 021.795 017.950 042.990 031.716 417.164 060.154 041.138 011.380 071.534 050.918 29.182 080.716 060.794 17.941 088.657 070.735 47.354 096.011 080.225 22.252 098.263 090.173 71.737 0100.000 01000.000 0100.000 0

将图8与图5 的氨氮含量预测结果进行比较,可以看出,含有10个影响因素的GA-LM-PCA模型的预测结果明显好于含有4个影响因素的GA-LM-PCA 模型,二者具体性能比较如表8所示。

图8 增加影响因素数量后氨氮含量的GA-LM-PCA模型预测结果

Fig. 8 Prediction of ammonia nitrogen concentration by GA-LM-PCA model after increasing the number of the influence factors

从表8可见,将影响因素增加到10个后,影响因素尽可能地被考虑进来,此时采用GA-LM-PCA模型的氨氮含量预测效果明显提高。可见,采用GA-LM-PCA模型不用考虑由于引入大量低相关度甚至无关影响因素对预测效果产生的负面影响,对于有效影响因子难以确定的场合,适当增加影响因素选取范围,就可以取得较好的预测效果。

表8 不同影响因素数量下氨氮含量的GA-LM-PCA预测模型性能比较

Tab.8 Comparison of ammonia nitrogen concentration prediction by GA-LM-PCA model with different number of influence factors

影响因素个数number of influence factor神经网络算法输入量个数number of NN input平均绝对误差mean absolute error均方根误差root mean square error运行时间/selapsed time434.573 4×10-40.011 1201.5011061.872 7×10-49.428 7×10-4224.311

3 讨论

在水产养殖环境DO与氨氮含量的预测模型中,二者的预测受各因素之间存在复杂的耦合关系的影响,很难确定神经网络的最佳输入,冗余影响因素会降低训练速度和效率,影响预测精度。本研究中,采用GA-LM-PCA模型对水产养殖环境中的DO和氨氮含量进行预测,即采用PCA确定影响因素,用LM训练神经网络。付泰然[16]提出采用SAE-BP神经网络预测水体氨氮,得到氨氮含量预测结果的均方根误差为0.140 5,而本研究中GA-LM-PCA模型对氨氮含量预测结果的均方根误差为0.011 1,预测精度同样呈倍数提升。曹首启等[17]提出在传统遗传算法神经网络优化模型的基础上寻找最优误差输出及遗传算法优化的BP神经网络预测模型,对DO含量预测结果的平均误差由0.077 8 mg/L下降至0.0177 mg/L,精度提高了3.4倍,而本研究中GA-LM-PCA预测模型相较于此模型的DO含量预测的精确度提高了27.8%。由此可见,GA-LM-PCA预测模型在同类预测模型应用中处于预测精度较高的水平。

本研究中使用PCA方法的GA-LM模型可以有效避免多重共线性,提高参数估计的准确性,用GA-LM-PCA预测的氨氮值平均绝对误差较未用PCA方法的GA-LM模型提升了12.7%,而DO值则提升更多,同时大量低相关度影响因素对GA-LM-PCA预测模型的负面影响较小,可以通过增加影响因素的范围来提升预测精度,应用性较好,本研究结果为水产养殖生产过程中的DO与氨氮参数预测提供了新的方法。

4 结论

1)本研究中提出的PCA-GA-LM模型预测的DO和氨氮值与实测值吻合度均高于直接引用变量法的GA-LM模型,平均绝对误差和均方根误差也均小于直接引用变量法,提高了预测精度,可以作为水产养殖重要环境因子预测的一种有效工具。

2)PCA-GA-LM模型对于同样数量的样本,选取的影响因素越多预测效果越好,这意味着本模型对于相关度低、冗余的影响因素具有自动筛选功能,能使其中相关的影响因素充分发挥作用,且能去掉影响因素之间的耦合,能够为机理复杂、影响因素难以确定的非线性系统提供可行的预测方案。

参考文献:

[1] I,et al.Neural network modeling of dissolved oxygen in the Gruža reservoir,Serbia[J].Ecological Modelling,2010,221(8):1239-1244.

[2] 巫莉莉,黄志宏,何斌斌,等.基于随机森林的循环水养殖氨氮预测模型研究[J].重庆理工大学学报(自然科学版),2021,35(4):207-214.

WU L L,HUANG Z H,HE B B,et al.Study on ammonia nitrogen prediction model of circulating water aquaculture based on random forest[J].Journal of Chongqing University of Technology(Natural Science Edition),2021,35(4):207-214.(in Chinese)

[3] 陈俊.养殖中水体溶解氧的重要性[J].植物医生,2016,29(11):46-47.

CHEN J.Importance of dissolved oxygen in aquaculture[J].Plant Doctor,2016,29(11):46-47. (in Chinese)

[4] 陈英义,方晓敏,梅思远,等.基于WT-CNN-LSTM的溶解氧含量预测模型[J].农业机械学报,2020,51(10):284-291.

CHEN Y Y,FANG X M,MEI S Y,et al.Prediction model of dissolved oxygen content based on WT-CNN-LSTM [J]. Transactions of the Chinese Society for Agricultural Machinery,2020,51(10):284-291.(in Chinese)

[5] 缪新颖,葛廷友,高辉,等.基于神经网络和遗传算法的池塘溶解氧预测模型[J].大连海洋大学学报,2011,26(3):264-267.

MIAO X Y,GE T Y,GAO H,et al. Prediction model of dissolved oxygen in pond based on neural network and genetic algorithm [J]Journal of Dalian Ocean University,2011,26(3):264-267.(in Chinese)

[6] 王魏,郭戈.基于随机配置网络的海水养殖氨氮浓度软测量模型[J].农业机械学报,2020,51(1):214-220.

WANG W,GUO G.Soft sensing model of ammonia nitrogen concentration in mariculture based on random configuration network [J]. Transactions of the Chinese Society for Agricultural Machinery,2020,51(1):214-220.(in Chinese)

[7] LI C,LI Z B,WU J,et al.A hybrid model for dissolved oxygen prediction in aquaculture based on multi-scale features[J].Information Processing in Agriculture,2018,5(1):11-20.

[8] ADENIRAN K A,ADELODUN B,OGUNSHINA M.Artificial neural network modelling of biochemical oxygen demand and dissolved oxygen of rivers:case study of Asa River[J].Environmental Research,Engineering and Management,2017,72(3):59-74.

[9] 林少涵,王魏,王奕鹏.养殖水质氨氮混合软测量模型研究[J].渔业现代化,2020,47(3):36-44.

LIN S H,WANG W,WANG Y P[J].Study on the soft sensor model of mixed ammonia and nitrogen in aquaculture water quality[J].Fisheries Modernization,2020,47(3):36-44.(in Chinese)

[10] FARUK D Ö.A hybrid neural network and ARIMA model for water quality time series prediction[J].Engineering Applications of Artificial Intelligence,2010,23(4):586-594.

[11] 刘双印,徐龙琴,李道亮,等.基于蚁群优化最小二乘支持向量回归机的河蟹养殖溶解氧预测模型[J].农业工程学报,2012,28(23):167-175.

LIU S Y,XU L Q,LI D L,et al.Prediction model of dissolved oxygen in river crab culture based on ant colony optimization least squares support vector regression machine [J].Transactions of the Chinese Society of Agricultural Engineering,2012,28(23):167-175.(in Chinese)

[12] BENUWA B B,YONG Z Z,GHANSAH B,et al.A review of deep machine learning[J].International Journal of Engineering Research in Africa,2016,24:124-136.

[13] 袁红春,赵彦涛,刘金生.基于PCA-NARX神经网络的氨氮预测[J].大连海洋大学学报,2018,33(6):808-813.

YUAN H C,ZHAO Y T,LIU J S.Ammonia nitrogen prediction based on PCA-NARX neural network[J].Journal of Dalian Ocean University,2018,33(6):808-813. (in Chinese)

[14] ENAAMI M,GHANI S A,MOHAMED Z.Multicollinearity problem in cobb-douglas production function[J].Journal of Applied Sciences,2011,11(16):3015-3021.

[15] BHARATHI R,SUKANESH R.A PCA based framework for detection of application layer DDoS attacks[J].WSEAS Transactions on Information Science and Applications,2012,9(12):389-398.

[16] 付泰然.基于SAE-BP神经网络的水体“三氮”在线预测模型研究[D].武汉:华中农业大学,2018.

FU T R.Research on online prediction model of water trinitrogen based on SAE-BP neural Network[D].Wuhan:Huazhong Agricultural University,2018.(in Chinese)

[17] 曹守启,葛照瑞,张铮.基于物联网的浮标水质监测系统与预测模型研究[J].农业机械学报,2021.[2021-09-28].http://kns.cnki.net/kcms/detail/11.1964.S.20210915.1325.020.html.

CAO S Q,GE Z R,ZHANG Z.Buoy water quality monitoring system based on Internet of things and the forecast model research[J/OL].Journal of agricultural machinery:1-10[2021-09-28].http://kns.cnki.net/kcms/detail/11.1964.S.20210915.1325.020.html.(in Chinese)

Prediction of dissolved oxygen and ammonia nitrogen concentrations in aquaculture environment based on PCA and GA-LM

YAO Qi1, MIAO Xinying1,2*

(1.College of Information Engineering, Dalian Ocean University, Dalian 116023, China; 2.Key Laboratory of Ocean Information Technology of Liaoning Province, Dalian 116023, China)

Abstract To accurately predict two of the most important parameters, dissolved oxygen (DO) and ammonia nitrogen concentrations in aquaculture, aiming to solve the problems such as the determination of effective influence factors, prediction algorithm and network structure optimization, a prediction model of DO and ammonia nitrogen concentrations called GA-LM-PCA was proposed by combining the neural network (NN) algorithm of levenberg-marquardt (LM), genetic algorithm (GA) and principal component analysis (PCA). PCA was used to determine the influence factors which were decoupled and reduced in the dimension. The network architecture was optimized by GA for determination of the appropriate number of hidden layer nodes and weight values. LM was applied to train NN to improve the generalization ability and convergence speed. The performance of GA-LM-PCA was compared with that of GA-LM without PCA to verify the forecasting accuracy of the GA-LM-PCA, and the prediction effect of different quantity of influence factors was discussed. The comparison indicated that the predicted DO and ammonia nitrogen values using GA-LM-PCA were in good agreement with the measured data, with the mean absolute errors and the root mean square errors of 0.004 7, 1.872 7×10-4 (DO), and 0.006 5, 9.428 7×10-4 (ammonia nitrogen), indicating that GA-LM-PCA was more suitable for the occasion with a large number of influence factors. It is proved that the proposed model can be considered as an effective prediction tool for DO and ammonia nitrogen concentrations in aquaculture environment, especially for nonlinear systems with various complex factors.

Key words dissolved oxygen (DO); ammonia nitrogen; aquaculture environment; genetic algorithm(GA); levenberg-marquardt(LM) algorithm; principal component analysis (PCA)

中图分类号S 967.4;TP 183

文献标志码:A

DOI10.16535/j.cnki.dlhyxb.2021-082

文章编号:2095-1388(2021)05-0851-08

收稿日期 2021-03-31

基金项目 辽宁省科技重大专项计划项目(2020JH1/10200002);辽宁省教育厅科研项目(JL201918,JL202015)

作者简介 姚启(1997—), 男, 硕士研究生。E-mail:616103954@qq.com

通信作者 缪新颖(1977—), 女, 博士, 副教授。E-mail:miaoxinying@126.com