海洋表面温度(SST)对人类的生产生活具有非常重要的影响,由于水的比热容大,海洋温度微小的变化都会对全球的气候产生巨大的影响,我们所熟知的厄尔尼诺现象和拉尼娜现象都是海洋表面温度异常变化所引起的,因此,人们很早就开始了对海洋表面温度的观测,尤其是近年来对海洋表面温度的观测更加重视。对于海洋表面温度的精确观测并且进行有效的预报是十分重要的,提前对SST进行预报可以使人们做好相应的应对措施来减少对日常生产生活的影响,减少不必要的损失。但是由于海洋表面月平均温度变化随机性非常强,非线性和非平稳性特征十分明显,目前还没有一种明确可行且精度较高的方法对海洋表面温度进行有效的预测。
经验模态分解(Empirical Mode Decomposition,EMD)是由Huang et al.(1998)创造性提出的一种新型的信号处理方法,这种方法可以依据数据自身的特征将不同频率的信号数据逐级分解,得到若干个彼此正交的具有周期性和趋势性的信号,能将非线性、非平稳性强的信号分解为非线性、非平稳性较弱的一些系列信号。但是,EMD方法会出现模态混叠的问题(Huang et al., 1998;Gai,2006)。针对这一问题,Wu and Huang(2011)通过对原始数据序列加入不同白噪声提出了集合经验模态分解方法(Ensemble Empirical Mode Decomposition,EEMD),达到了抑制模态混叠的目的。进一步,Yeh et al.(2011)在原始数据序列中加入两个符号相反的白噪声,提出了一种EEMD的改进算法——互补集合经验模态分解方法(Complete Ensemble Empirical Mode Decomposition,CEEMD),在保证分解效果与EEMD相当的同时,减小了由于添加白噪声所引起的重构误差。目前EMD及其改进算法已经广泛应用于经济、大气环境、海洋、机械故障等多个领域(万仕全等,2005;毕硕本等,2012;蔡吉花等,2014;王德青等,2014;张承钊和潘和平,2015;Fang,2015;Liu et al., 2015;Niu et al., 2016)。这些研究和应用都反映出了EMD及其改进算法可以有效降低数据的非平稳性,给后面进一步的分析处理带来一定的帮助。
针对非线性预测,较为常用的方法有曲线拟合、均生函数模型、灰色系统模型、神经网络等。其中BP(Back Propagation)神经网络(李友坤,2012)在处理非线性问题上有一定的优势,它的原理简单、操作性强,因此在自动化、经济、环境等众多领域(朱信忠,2005;刘艳荣,2006;王德明等,2012;彭基伟等,2013)中得到了极为广泛的应用。
针对SST具有非平稳性强这一特点,本文拟利用EEMD、CEEMD和BP神经网络方法研究如何提高SST预测精度。
2 试验资料简介近年来的观测发现,东北部太平洋区域的冬季海面温度比往年高出不少,尤其是2014年2月,这一区域的月平均海表温度距平已经超过2.5 ℃。到了2014年的春夏季,高温区域已经扩展到了沿海海域,对沿岸地区的天气和渔民的生活都产生了影响,甚至影响到了美国华盛顿的气温,给当地居民的日常生活和生产劳动都造成了干扰(Bond et al., 2015)。本文选取东北部太平洋(40°N~50°N,150°W~135°W)区域1982年1月至2015年12月的SST资料,资料长度为408个月,实际分析计算时使用的是月平均海温距平序列SSTA(Sea Surface Temperature Anomaly)(图 1)。从图像直观来看,整体数据显得非常杂乱无章,非线性和随机性强。
本文将EEMD分解算法、CEEMD分解算法分别与BP神经网络算法结合起来,建立一种新的预测模型。首先对SSTA数据进行EEMD和CEEMD分解,得到若干个本征模函数IMFi(Intrinsic Mode Function);再通过BP神经网络对每个IMFi进行预测;最后将各个IMFi重构得到SSTA的预测值。
3.1 SSTA的EEMD分解基于EEMD分解算法将图 1的SSTA进行分解,共分解出7个IMF分量和1个剩余分量RES(Residue)(图 2)。
从图 2可以看出,前三个模态分量IMF1、IMF2、IMF3仍然表现出很强的非线性和非平稳性,IMF4至IMF7和最后的趋势项RES已经具备一定的周期性和较为规律的波动性,非平稳和非线性性质比前3个模态有所下降。趋势项RES反映了SSTA的整体变化趋势从1982年以来是逐渐上升的。由于各个模态的非平稳性逐渐降低,EEMD分解将会降低非平稳性对预测的影响。
分解的绝对误差ERR设为
$ a(t)=\left| S(t)-\left[ \sum\limits_{i=1}^{7}{{{I}_{i}}(t)+R(t)} \right] \right|, $ | (1) |
其中,a(t)表示绝对误差ERR,S(t)表示原始SSTA观测数据,Ii(t)表示模态分量IMF的第i个模态,R(t)表示趋势项RES。
图 3为EEMD分解的绝对误差,图中显示,分解后的408个月的数据误差基本都在0.008 ℃以下,有5个月的数据误差超过0.01 ℃,分别是1989年7月、1993年9月、1998年6月、1999年5月和2010年1月,除1989年外,另外4个误差较大的数据月均出现在厄尔尼诺现象时间内,其中最大误差位于2010年1月,实际值为-0.1195 ℃,EEMD分解结果为-0.1314 ℃, 分解绝对误差为0.0119 ℃;最小误差位于1987年2月,为1.69×10-5℃,EEMD分解的总体平均绝对误差为0.0032 ℃,数量级10-3。
基于CEEMD分解算法将SSTA进行分解,共分解出7个IMF分量和1个剩余分量RES(图 4)。对比EEMD和CEEMD的分解结果可以看到,虽然CEEMD分解出的模态与EEMD分解出的相应模态不尽相同,但是这两种分解方法分解出的8个模态的非线性和非平稳性都是逐渐降低的,而且最后的趋势项RES均为上升趋势,两种分解方法均印证了数据序列整体趋势逐渐升高的特征。
CEEMD分解绝对误差见图 5,图中显示,分解后的408个月数据误差均小于5×10-16 ℃,精度非常高。其中误差最大值位于2015年7月,为4.4409×10-16 ℃;最小误差为0;CEEMD分解的总体平均绝对误差为6.2008×10-17 ℃,数量级在10-17。
通过对以上两种分解方法的结果和误差的对比可以看出,改进算法CEEMD的误差远远小于EEMD分解误差,这是由于CEEMD比EEMD多加入了符号相反的白噪声,使得在分解效果与EEMD相当的情况下,减小了由白噪声引起的重构误差,与其他文献结论一致(郑近德等,2013)。
4 BP神经网络对SSTA模拟预测为了研究EEMD和CEEMD两种方法对预测结果的影响,分析BP神经网络预测效果和预测能力,进行如下若干试验:设计2015年SSTA预测试验,分析基于EEMD和CEEMD分解出的不同模态数据的预测效果;基于2015年的试验结果,设计系列试验分析预测模型的时效性、稳定性、以及对不同起报月份的敏感性。
4.1 2015年SSTA的1年模拟预测试验2015年海温异常升高,出现了厄尔尼诺现象(邵勰和周兵,2016),因此,选择这一年进行模拟预测可以验证预测模型对厄尔尼诺现象预报的准确性。试验设计如下:用各模态1982~2014年的资料作为分析资料对BP网络进行训练,用训练好的网络预测2015年12个月的SSTA,并与真实的2015年12个月的观测值进行对比和分析。
由于IMF1至IMF3模态的非线性还比较强,我们选择3层BP网络结构,各月独立分析预测。对IMF4及之后的各个模态,由于其非线性和非平稳性相对于前三个模态已经有一定的下降,因此我们直接采用输入层节点和输出层结点个数均为12的BP网络结构进行训练和预测。
EEMD各模态分量预测结果如图 6,预测值与实际值的绝对误差见表 1。通过图 6和表 1可以看出,EEMD-BP预测的第一模态最大误差位于1月份,为0.2216 ℃;最小误差为0.0015 ℃,位于8月份,第二模态预测效果与第一模态大致相当,前三个模态的预测平均绝对误差均在0.10 ℃至0.15 ℃之间。第四和第五模态的平均绝对误差分别为0.0671 ℃和0.0092 ℃,预测精度和EEMD分解的精度基本保持一致,最后3个模态的预测误差数量级为10-4。可见随着数据序列非线性和非平稳性的程度降低,预测结果的误差也越来越小。
按照同样的方法对CEEMD分解出的8个模态进行分析预测,预测结果和误差分析如图 7和表 2所示。通过图 7和表 2可以看到,CEEMD-BP预测的第一模态最大误差位于5月份,为0.1843 ℃;最小误差为0.0073 ℃;其中1月、4月、8月、11月的预测精度较高。第二模态预测效果与第一模态大致相当,除5月、9月、10月、11月这4个月的误差较大外,其余月份预测效果均较为理想。前3个模态预测效果和真实数据的趋势基本相同。第四模态除了12月份误差稍大外,预测效果都比较好。后面几个模态的预测值和实际观测值基本一致。
将各个模态分量重构后得到2015年月平均SSTA的预测值(图 8),误差分析见表 3。通过图表可以看到,EEMD-BP预测方法在1月、8月、11月误差较大,超过0.3 ℃,其余月份预测误差较为理想。CEEMD-BP预测方法除了8月预测误差超过0.2 ℃、10月份预测误差比EEMD-BP方法略大之外,其每个月的预测误差均小于EEMD-BP方法的预测误差。从整体上看,CEEMD-BP预测结果的预测值和真实值在0.001的显著性水平下,相关系数达到了0.92,比较准确地预测出了2015年的SSTA。通过分析可以看出,EEMD和CEEMD分解的误差会影响最终的预测结果,分解误差较小的CEEMD算法在最终的预测结果中的误差也较小,证明了CEEMD方法在数据分解上比EEMD方法更具有优势。同时还可看到两种预测方法最终的预测误差主要来自于前三个模态,后5个模态的误差对最终的预测结果影响不大。
通过对2015年1年SSTA预测的试验可以发现,使用CEEMD方法比EEMD方法误差更小,预测结果更加精确,因此,后续试验均基于CEEMD分解进行预测试验。
为了进一步分析CEEMD-BP预测SST的有效性,下面我们分别对2006~2015年的各年SSTA进行预测,统计分析10个1年的预测结果。试验中均按照上述2015年的预测试验方法,使用统一的神经网络结构和参数,试验结果如图 9、表 4所示。通过10年的试验预测结果来看,预报的平均绝对误差在0.3 ℃左右,准确率较高。对照4.1节中CEEMD-BP预测2015年的1年试验结果,本次10年预测的平均精度有所下降,但是从整体上来看预测值和真实值的相关系数为0.83,且通过了99.9%的置信度检验。而且10年试验的统计结果说明,使用统一的神经网络结构和参数的CEEMD-BP预测模型预测一年SSTA是有效的。
以上试验说明使用CEEMD-BP预测模型预测一年SSTA是可行的;为了进一步分析本预测模型的可预报性,下面分别进行试验尝试预测2年和预测3年的SSTA。在预测两年的试验中:用1982~2012年的数据作为训练样本,连续预测2013~2014年2年的SSTA;在预测3年的试验中:用1982~2012年的数据作为训练样本,分别进行连续预测和逐年预测2013~2015年3年的SSTA。
图 10和表 5、图 11和表 6分别是连续预测2年、3年的结果和误差分析,试验结果显示,随着预报时间的延长,误差越来越大,第二年预测值和实际值的相关性明显降低,预测效果不理想。图 12和表 7是3年逐年预测的结果和误差分析,从预测3年的效果来看,逐年预报比连续预报效果好,但两种预测方法对第三年的预测值走势均出现了问题,相关性不到0.1。另一方面,由于3个试验在进行BP神经网络训练时的结构不同:2013~2014年的连续2年预测时BP训练输入层和输出层节点个数为24,预测时连续输出24个月;2013~2015年连续3年预测时BP训练输入层和输出层节点个数为36,预测时连续输出36个月;2013~2015年逐年预测时BP训练输入层和输出层节点个数为12,预报时每次输出12个月,并将输出的12个月的预测值加入下一个12月预测的训练结构;不同的BP网络结构导致上述3个试验中第一年预测、第二年预测及第三年预测结果不同,说明BP网络本身的机制是预测过程中的误差也是最终预测误差的主要来源之一。综上所述,本模型在预测1年时效果比较准确,可以较为准确地预测出正确的趋势走向,预测第二年时效果不理想,预测时间延长到3年则基本不具备可预报性。
鉴于前人研究工作中指出的春季可预报性障碍问题(Webster and Yang, 1992;Chen et al., 1995),我们尝试从不同的月份开始预报,分析不同月份起报对预测的敏感性。本试验的设计为:针对2010年1月至2014年12月,以每年不同月份为起报时间进行12个月的预测,即不同月份起报各5次试验。预测结果为图 13~17、表 8。
从上面的误差分析可以看到,不同的起报月份得到的预测平均绝对误差均在0.33 ℃左右,且预测误差和4.2节“SSTA的1年模拟预测统计试验”中的预测误差处于同一水平,因此,用本预测模型对此区域的海洋表面温度进行预测在不同的起报月份下预测效果基本相同。
5 结论针对SST很强的非线性和非平稳性,本文利用了EEMD和CEEMD分解算法的BP神经网络预测模型进行了尝试,得到如下结论:
(1)对原始数据序列用两种基于EMD的改进算法进行处理,得到了若干个模态分量,有效降低了原始序列的非线性和非平稳性。并且使用CEEMD分解比EEMD分解精度高、误差小,这是由于CEEMD在保证分解效果与EEMD相当的情况下,减小了由白噪声引起的重构误差。对比EEMD-BP和CEEMD-BP两种方法得到的预测结果,后者比前者的预测精度要高,这和CEEMD比EEMD分解精度高、误差小的结果相一致,两种方法的最终预测误差均主要来自于BP神经网络的机制。
(2)从各个模态预测误差和SSTA的预测结果误差来看,SSTA的预测误差主要来自于前三个模态分量的预测,这是由于前三个模态与后面几个模态相比之下依然具有较强的非线性和非平稳性,出现奇异值和波动程度大的数值概率更大,随机性更强。随着非线性的逐渐降低,预测误差逐渐减小。
(3)CEEMD-BP预测模型在不同起报月份下得到的预测结果均比较理想,误差处于同一水平,因此用该方法在预报文中试验区域的SSTA时不存在春季预报性障碍,但不排除其他区域海表温度和预测方法在预报过程中的春季可预报性障碍问题。
本文基于改进的EMD分解算法和BP神经网络对SST的预测进行了初步研究,试验说明利用CEEMD-BP方法预测一年的效果比较准确,特别是超强厄尔尼诺事件出现的2015年,这可为今后预测厄尔尼诺现象提供参考;但预测两年及以上时效果不理想,提高预报时长是我们后续研究的重点。
[] | 毕硕本, 陈譞, 覃志年, 等. 2012. 基于EMD和集合预报技术的气候预测方法[J]. 热带气象学报, 28(2): 283–288. Bi Shouben, Chen Xuan, Qin Zhinian, et al. 2012. Study of climate prediction method based on EMD and ensemble prediction technique[J]. Journal of Tropical Meteorology (in Chinese), 28(2): 283–288. |
[] | Bond N A, Cronin M F, Freeland H, et al. 2015. Causes and impacts of the 2014 warm anomaly in the NE Pacific[J]. Geophys. Res. Lett., 42(9): 3414–3420. DOI:10.1002/2015GL063306 |
[] | 蔡吉花, 张世军, 杨丽. 2014. EMD-SVM在南京市月平均气温预测中的应用[J]. 数学的实践与认识, 44(22): 103–111. Cai Jihua, Zhang Shijun, Yang Li. 2014. Nanjing monthly average temperature prediction base on empirical mode decomposition and support vector machine[J]. Mathematics in Practice and Theory (in Chinese), 44(22): 103–111. |
[] | Chen D K, Zebiak S E, Busalacchi A J, et al. 1995. An improved procedure for El Niño forecasting: Implications for predictability[J]. Science, 269(5231): 1699–1702. DOI:10.1126/science.269.5231.1699 |
[] | Fang Y. 2015. A study on the correlations between investor sentiment and stock index and macro economy based on EEMD method[J]. Journal of Financial Risk Management, 4(3): 206–215. DOI:10.4236/jfrm.2015.43016 |
[] | Gai G H. 2006. The processing of rotor startup signals based on empirical mode decomposition[J]. Mechanical Systems & Signal Processing, 20(1): 222–235. DOI:10.1016/j.ymssp.2004.07.001 |
[] | Huang N E, Shen Z, Long S R, et al. 1998. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis[J]. Proceedings of the Royal Society A: Mathematical, Physical & Engineering Sciences, 454(1971): 903–995. DOI:10.1098/rspa.1998.0193 |
[] | 李友坤. 2012. BP神经网络的研究分析及改进应用[D]. 安徽理工大学硕士学位论文, 18-55. Li Youkun. 2012. Analysis and improvement applications of BP neural network [D]. M. S. thesis (in Chinese), Anhui University of Science and Technology, 18-55. http://cdmd.cnki.com.cn/Article/CDMD-10361-1012421305.htm |
[] | Liu J, Duan J D, Lu H L, et al. 2015. Fault location method based on EEMD and traveling-wave speed characteristics for HVDC transmission lines[J]. Journal of Power and Energy Engineering, 3(4): 106–113. DOI:10.4236/jpee.2015.34016 |
[] | 刘艳荣. 2006. 基于BP网络的彩票预测系统的研究[D]. 天津大学硕士学位论文, 20-39. Liu Yanrong. 2006. Study on the predictive system of the welfare lottery based on BP network [D]. M. S. thesis (in Chinese), Tianjin University 20-39. http://cdmd.cnki.com.cn/Article/CDMD-10056-2007043123.htm |
[] | Niu M F, Wang Y F, Sun S L, et al. 2016. A novel hybrid decomposition-and-ensemble model based on CEEMD and GWO for short-term PM2.5 concentration forecasting[J]. Atmos. Environ., 134: 168–180. DOI:10.1016/j.atmosenv.2016.03.056 |
[] | 彭基伟, 吕文华, 行鸿彦, 等. 2013. 基于改进GA-BP神经网络的湿度传感器的温度补偿[J]. 仪器仪表学报, 34(1): 153–160. Peng Jiwei, Lv Wenhua, Xing Hongyan, et al. 2013. Temperature compensation for humidity sensor based on improved GA-BP neural network[J]. Chinese Journal of Scientific Instrument (in Chinese), 34(1): 153–160. |
[] | 邵勰, 周兵. 2016. 2015/2016年超强厄尔尼诺事件气候监测及诊断分析[J]. 气象, 42(5): 540–547. Shao Xie, Zhou Bing. 2016. Monitoring and diagnosis of the 2015/2016 super El Niño event[J]. Meteorological Monthly (in Chinese), 42(5): 540–547. DOI:10.7519/j.issn.1000-0526.2016.05.003 |
[] | 万仕全, 封国林, 周国华, 等. 2005. 基于EMD方法的观测数据信息提取与预测研究[J]. 气象学报, 63(4): 516–525. Wan Shiquan, Feng Guolin, Zhou Guohua, et al. 2005. Extracting useful information from the observations for the prediction based on EMD method[J]. Acta Meteorologica Sinica (in Chinese), 63(4): 516–525. DOI:10.11676/qxxb2005.051 |
[] | 王德明, 王莉, 张广明. 2012. 基于遗传BP神经网络的短期风速预测模型[J]. 浙江大学学报(工学版), 46(5): 837–841, 904. Wang Deming, Wang Li, Zhang Guangming. 2012. Short-term wind speed forecast model for wind farms based on genetic BP neural network[J]. Journal of Zhejiang University (Engineering Science) (in Chinese), 46(5): 837–841, 904. DOI:10.3785/j.issn.1008-973X.2012.05.010 |
[] | 王德青, 王斐斐, 朱万闯. 2014. 基于EMD技术的非平稳非线性时间序列预测[J]. 系统工程, 32(5): 138–143. Wang Deqing, Wang Feifei, Zhu Wanchuang. 2014. Prediction for non-stationary non-linear time series based on empirical mode decomposition[J]. Systems Engineering (in Chinese), 32(5): 138–143. |
[] | Webster P J, Yang S. 1992. Monsoon and Enso: Selectively interactive systems[J]. Quart. J. Roy. Meteor Soc., 118(507): 877–926. DOI:10.1002/qj.49711850705 |
[] | Wu Z H, Huang N E. 2011. Ensemble empirical mode decomposition: A noise-assisted data analysis method[J]. Advances in Adaptive Data Analysis, 1(1): 1–41. DOI:10.1142/S1793536909000047 |
[] | Yeh J R, Shieh J S, Huang N E. 2011. Complementary ensemble empirical mode decomposition: A novel noise enhanced data analysis method[J]. Advances in Adaptive Data Analysis, 2(2): 135–156. DOI:10.1142/S1793536910000422 |
[] | 张承钊, 潘和平. 2015. 基于前向滚动EMD技术的预测模型[J]. 技术经济, 34(5): 70–77. Zhang Chengzhao, Pan Heping. 2015. Prediction model based on forward rolling EMD[J]. Technology Economics (in Chinese), 34(5): 70–77. |
[] | 郑近德, 程军圣, 杨宇. 2013. 改进的EEMD算法及其应用研究[J]. 振动与冲击, 32(21): 21–26, 46. Zheng Jinde, Cheng Junsheng, Yang Yu. 2013. Modified EEMD algorithm and its applications[J]. Journal of Vibration and Shock (in Chinese), 32(21): 21–26, 46. DOI:10.3969/j.issn.1000-3835.2013.21.004 |
[] | 朱信忠. 2005. 车牌自动识别技术的研究与实现[D]. 国防科学技术大学硕士学位论文, 49-74. Zhu Xinzhong. 2005. The research and implementation of license plate automatic recognition technology [D]. M. S. thesis (in Chinese), National University of Defense Technology, 49-74. http://cdmd.cnki.com.cn/Article/CDMD-90002-2005144137.htm |