降水从性质上可以分为雷阵雨与阵雨(非雷雨)。雷阵雨(又称雷雨)是伴有雷暴、闪电等的降水现象。有雷电时,往往伴随大风、强降水、冰雹、龙卷和闪电等剧烈天气活动,严重时会造成人畜伤亡、建筑物损坏,甚至引发火灾、电力通信系统瘫痪和危及航空安全(陈洪滨和朱彦良,2012)。雷电灾害是“联合国国际减灾十年”公布的最严重的十种自然灾害之一(孙凌等,2009)。例如2004年6月26日14:00(北京时间,下同)左右,浙江省台州市临海市杜桥镇杜前村突发雷阵雨,有30人聚集在大树下不幸遭雷击,造成17人死13人伤。由于强雷雨的局地性和危险性以及日益增长的对天气预报要素尤其是天气现象包括降水性质的要求,如何准确有效地区分春夏降水性质,甚至提供更精细化的预警和预报,是我省目前关注和研究的重点问题之一。
我国雷雨在东南部与西南部有两块高发区;春夏多,秋冬少;一天之中集中发生在下午到晚上(巩崇水等,2013)。近几十年来,国内外科学家已经开展了一系列对于强降水、雷暴、强对流在监测探测、发生发展机制、数值天气预报等方面的研究。对于雷暴的临近潜势预报预警,学者们的大量研究,总结出了外推预报法、数值模式预报,包括更精准的预报物理因子和预警方法。例如:外推预报法主要使用雷达回波资料进行线性或者非线性外推,可以在一定的时间段内做出预报(陈明轩等,2004),雷暴预报时效普遍集中在0~6 h(Ostby,1992;雷蕾等,2011)。而6 h以上的雷暴预报还较少实现(俞小鼎等,2012),譬如选定对流因子作为预报因子,通过费希尔判别准则及逐个引入因子法,建立集合多个对流参数的雷暴预报模型,从而进行较长时效(12~24 h)的区域性雷暴预报(李娜等,2015);利用T213数值预报产品计算多个对流参数,通过事件概率回归方法建立了全中国690个基本站4~9月的24 h雷暴潜势预报方程(曾淑玲等,2012)。然而,上述方法实现有针对性地提供短时(0~12 h)、中短期(1~7天)、长期(8~15天)精细化降水性质分类预报还是比较困难的。
决策树分类法是一种树结构,它着眼于从一组无规则次序的事例中推理出决策树表示形式的分类规则,构造决策树有多重算法,如ID3算法和C4, 5算法等(Quinlan,1986),早在20年代80年代几位统计学家提出分类和回归树(CART),介绍了二叉决策树的产生(Breiman et al., 1984)。目前决策树分类法在诸多领域广泛使用,而在气象方面多集中在气候分类、气象灾害等级预测等方面。例如利用决策树方法分别对气温距平值、雨量距平值等进行预报(向俊莲和王丽珍,2001);决策树算法在农业气象灾害统计中的应用(刘璇等,2009);亦有结合30年陕北某县气象数据,建立预测温度的决策树模型(姜文瑞等,2012)。鲜有对天气现象包括降水性质的分类预测研究,针对以上科学问题,现阶段,我们可以建立一个集合各类因子的参数指标,用决策树分类法结合数值产品,减少理论和经验上的误差,做出降水性质预报。
雷暴泛指深厚湿对流(DMC)现象(Doswell Ⅲ,2001),雷暴的预报因子大致可以分为:能量因子(代表潜在不稳定能量的对流有效位能等)、层结稳定度因子(K指数、沙氏指数、抬升指数等)、水汽因子(850 hPa与500 hPa温度差)等。本文就是利用ECMWF细网格预报资料、Micaps地面全要素填图数据及T-logP数据、自动站与地闪资料,结合近十年浙江春夏降水个例,探讨基于观测资料和ECMWF数值产品的区分降水性质的条件,建立决策树,确定预报因子和阈值,为开展浙江省春夏降水性质预报提供参考。
2 资料和方法 2.1 资料本文使用的资料包括:Micaps地面全要素填图数据及T-logP数据等、欧洲中期天气预报中心(ECMWF)的全球数值模式细网格预报产品、自动站和地闪观测资料。使用Micaps地面填图数据库提取浙江省3个站点(杭州58457、衢州58633和台州58665)、10年(2004~2013年,2013年以后取消了人工天气现象观测)的降水相关资料,并根据现在/过去天气现象分为雷雨/非雷雨两类。ECMWF细网格预报资料水平分辨率是0.25°,一般来说,变量在前72 h一天8次,时间间隔3 h,有08:00和20:00两个起报时次。ECMWF细网格预报资料在2016年春夏季(3~8月)用于检验,分别对3个站点24 h内降水量和降水性质进行计算。如果大于0.1 mm认为有降水,有降水则进一步用流程图计算雷暴概率。2016年实际降水量与降水性质使用自动站和地闪资料。降水采用自动站3 h降水的资料;降水性质采用地闪资料,对于单个站点,如果3 h内有降水且有地闪实况记为雷雨,如果3 h内有降水而没有地闪实况记为阵雨。
2.2 分析方法首先根据Micaps数据挑选出阵雨和雷雨个例,雷雨的判定为先确定有降水再确定是否为雷暴,根据《地面气象电码手册》(中国气象局监测网络司,1999),雷暴的识别依据为:现在天气现象电码值为17(闻雷,但观测时测站无降水)、18(观测时或观测前1 h内有飑)、19(观测时或观测前1 h内有龙卷)、27(观测时或观测前1 h内有冰雹或冰粒,或霰,或伴有雨)、29(雷暴)、91~99(91~94:观测前1 h内有雷暴,观测时无雷暴而有降水;95~99:观测时有雷暴和降水);过去现象电码值为9(雷暴)。然后对个例用临近探空的分析方法选定和统计预报因子,然后用决策树分类法做出分类效果最佳的判别规则(即决策树每个节点判别临界值),最终做出一个适用于浙江地区区分春夏降水性质的通用指标,通过判别某时刻某格点模式输出的预报因子所属类别做出降水性质划分。
2.2.1 临近探空分析方法在做潜势预报时经常用到临近探空的分析方法。所谓临近探空分析方法(王霁吟等,2015),即采用最靠近某事件发生时间(此处为降水发生时或者发生前)和发生地的温湿风垂直廓线,去寻找事件和环境参数的对应关系。本文即使用杭州(58457)、衢州(58633)和台州(58665)本站雷雨/阵雨发生时或者发生前的探空资料。
2.2.2 决策树CART算法分类回归树算法(Classification And Regression Tree)简称CART算法。它是一种二元递归分割技术,把当前样本划分为两个子样本,使得生成的每个非叶子节点都有两个分支,在每一个节点只能选择“是”或者“否”,故CART算法生成的决策树为简洁的二叉树。此算法的两大步骤为:(1)递归划分样本进行建树;(2)停止建树及剪枝。
建树分列时的标准为整个系统不纯度(G)指数下降最大,即不纯度越低越纯净分类效果越好。若一个样本有C类,对于某个节点A的不纯度定义为
$ G(A) = 1 - \sum\limits_{i = 1}^C {{P_i}^2}, $ | (1) |
其中,Pi表示属于i类的概率。假设x1, x2, …, xn代表样本的n个特征属性,对于此节点计算出使得G指数最小的特征属性xi和阈值vi,vi把样本分为两部分,一部分的所有点都满足xi≤vi,另一部分的所有点都满足xi>vi。然后CART算法通过递归处理,将上面得到的两部分按第一步重新选取一个属性继续划分,直到完成划分。
建树的过程可能存在过拟合,故需要建立条件终止划分,如设定样本个数小于预订阈值或者G指数小于预定阈值或者没有特征可供分裂。同时,需要剪枝来避免数据的溢出和使规则简化。本次研究采用特征属性可重复使用并都实现利用价值同时满足树的层数最少的方法,便于使用和理解。
3 预报指标的建立与检验 3.1 预报指标的建立首先根据雷暴发生的条件,综合各类因子,同时用临近探空资料计算这些因子,在两个事件之间做比较,挑选出适用的。由于雷雨发生的条件为有降水并且有雷暴,而雷暴发生三要素为:静力不稳定、水汽和抬升触发机制(Doswell Ⅲ,1987)。Micaps中相关的参数包括对流有效位能(Convective Available Potential Energy,记为CAPE)、K指数、沙氏指数(Si)等,另外计算850 hPa与500 hPa温度差(T8-5),这些参数都是将三要素里的两项或者三项结合在一起的。在气象上温度是用来定义季节的标准,故在研究不同月份和季节时有必要引入2 m温度(T0)从而避免分类讨论不同月份或季节的指标参数及阈值。
计算表明,雷雨个例不足阵雨个例的十分之一,做分类比较时效果很差。像这样的非均衡数据,要用过抽样(over-sampling)和欠抽样(under- sampling)来调整,使得每一类均衡。故采用过抽样对雷雨数据10倍过采样,再把雷雨和非雷雨的数据混合起来。首先查看各参数两两之间的相关性,Si与CAPE、K指数、T8-5的相关系数为-0.37、-0.87、-0.85,而同样表征稳定度因子的K指数与CAPE、T8-5的相关系数为0.29、0.65,发现沙氏指数与其它参数有较强的相关性,故同类参数留一个即可,保留K指数。初步选定的参数为CAPE、K指数、T8-5和T0。
按照整个系统的G下降最大选择的第一个节点为T8-5,区分阈值为23.95 ℃,此时G为0.4984。二叉树的第二层节点都为CAPE,T8-5<23.95 ℃处节点区分阈值为142.5J kg-1,G为0.465;T8-5≥23.95 ℃处节点区分阈值为6.8 J kg-1,G为0.3452。以此递归处理,构建了三层决策树后发现四个参数都已经用到,且已有节点G为0,剩余节点也都能很好区分雷雨与阵雨。得到的原始流程图为:此决策树在保证有比较好的分类结果同时节省计算量和计算时间。第四层为分类结果,可以看到若从左至右依次标记为第~类,则类则为阵雨,其余为雷雨。由于有些节点的两个叉枝为同一结果,故可以简化上图为如下流程图(图 1)。
![]() |
图 1 决策树降水分类模型 Fig. 1 Decision tree classification model of precipitation |
做降水性质预报时,对于单个站点或者格点首先判定有无降水,这里用的是ECMWF细网格预报资料。如果无降水,无需判别降水性质;如果有降水(≥0.1 mm),进而用临近探空的分析方法,计算各参数值,进入判别降水性质(雷雨/非雷雨)的流程图(图 2)。实际运用时可以结合雷达图、卫星图、实况等进一步判定。
![]() |
图 2 降水性质分类流程图 Fig. 2 Flow chart of precipitation classification |
对于2004~2013年春、夏(3~8月)历史样本过采样雷雨个例做的均衡样本,雷雨命中率是78.2%,阵雨命中率是67.5%。另外,TS评分、空报率和漏报率,雷雨为0.60、27.1%和21.8%,阵雨为0.54、26.5%和32.5%。回归到初始历史样本,进行逐日2次回报,雷雨和阵雨的命中率和均衡样本对比是接近和稳定的,分别为78.6%和67.1%(表 1)。
![]() |
表 1 2004~2013年浙江春夏均衡样本和历史样本的回归检验情况 Table 1 Regression tests of equilibrium samples and historical samples in Zhejiang Province during the spring and summer of 2004-2013 |
由于挑选的3站(杭州、衢州、台州)分别为北部、西部和东南沿海的代表站,故做出的决策树指标在全省范围内有一定适用性,将2016年春季与夏季(3~8月)作为检验样本进行预报检验。从样本检验来看,08:00起报准确率高于20:00,又因为模式资料降水的准确率影响了指标的正确率,故分析预报与实况都有降水且08:00起报的情况。表 2为2016年春、夏除去有降水预报误差个例(即预报有降水实际无降水和预报无降水实际有降水)后样本的检验评分,包括TS评分、命中率、漏报率和空报率,先分城市后分月份,对雷雨(第一列)和阵雨(第二列)分别分析研究。
![]() |
表 2 2016年浙江春夏降水分类预报检验 Table 2 Precipitation classification forecast in Zhejiang Province during the spring and summer of 2016 |
计算分析样本准确率可得,对于时效为一天的预报:
(1)从不同城市来看:雷雨命中率杭州、衢州、台州3市分别为100%、97%与67%,平均为89%;阵雨的命中率分别为59%、56%与69%,平均为,61%;命中率高则漏报率低,两者和为1;雷雨空报率3市接近分别为46%、41%、40%,阵雨空报率为0、3%、25%;TS评分基本超过0.50。
(2)从不同月份来看:雷雨命中率3~8月分别为:75%、85%、74%、100%、100%与93%,春季为78%,夏季为98%;阵雨命中率分别为:93%、65%、59%、39%、38%与25%,春季为70%,夏季为37%;同样,命中率高则漏报率低,两者和为1;空报率雷雨高阵雨低,阵雨几乎无空报;TS评分有月季变化,但雷雨夏季高,阵雨春季高。
(3)总体平均来看:TS评分都超过0.5,雷雨和阵雨差不多,分别为0.53和0.57;命中率雷雨(89%)高于阵雨(61%),阵雨雷雨两者综合的准确率为71%;空报率也是雷雨(43%)大于阵雨(10%)。杭州、衢州降水性质预报效果好于台州;夏季的雷雨预报效果好于春季,夏季的阵雨预报效果比春季差。
又对2016年两个浙江大范围典型阵雨雷雨及强天气过程进行预报检验。2016年4月2日下午至4月3日,浙江全省自北而南(图 3a、3c)出现了短时强降水和雷暴大风。实况4月2日降水落区主要在浙中北,有降水的地方基本上为雷雨,浙南地区出现一些无降水雷暴;4月3日降水是全省性的但是雷雨落区南移,浙北北部以阵雨为主,其它地区以雷雨为主。以ECMWF细网格数据计算,用上述方法预测在2016年4月2日降水出现在浙中北及丽水,出现降水的地区都以雷雨为主(图 3b、3d);4月3日浙北北部以阵雨为主,其它地区为雷雨。预报与实况对比基本吻合且效果好,4月2日丽水地区雷雨的空报主要由于降水空报引起。
![]() |
图 3 2016年4月2、3日(a、c)降水量实况与(b、d)ECMWF预报的降水量分布(填色)及降水性质(红色标记为雷雨):(a、b)2016年4月2日;(c、d)2016年4月3日 Fig. 3 Distributions of (a, c) real-time precipitation, (b, d) precipitation forecasts and classification (thunderstorm is denoted by red mark) during the period of 2-3 April 2016: (a, b) 2 April 2016; (c, d) 3 April 2016 |
图 4为2016年5月15日另一次浙江省大范围的雷雨过程,全省都有降水,在杭州南部、衢州、金华、丽水、温州、台州、宁波出现了短时暴雨,局地雷暴大风,其它地区以阵雨为主。ECMWF细网格资料的预报结果在浙北的湖州、嘉兴,杭州北部、绍兴北部为阵雨,其它地区为雷雨。与实况相比基本吻合,除宁波北部、杭州东部个别地区有偏差。
![]() |
图 4 2016年5月15日(a)降水量实况与(b)ECMWF预报的降水量分布(填色)及降水性质(红色标记为雷雨) Fig. 4 Distributions of (a) real-time precipitation, (b) precipitation forecasts and classification (thunderstorm is denoted by red mark) on 15 May 2016 |
通过对2004~2013年间阵雨与雷雨个例的分析,挑选能表征雷雨的独立的、典型的预报因子,用决策树的分析方法,找到区分两者的判别规则,初步建立起一个适用于浙江省的降水性质区分指标,并基于ECMWF细网格预报资料在2016年间进行预报检验。主要结论如下:
(1)雷雨发生的条件为有降水并且有雷暴,根据雷暴发生三要素(静力不稳定、水汽和抬升触发机制)计算确定的几个基本、独立预报参数为CAPE、K、T8-5和T0。判别流程为是否有降水,如果有降水且T8-5大于23.95 ℃,则判定为雷雨,其余进行进一步判断;如果CAPE小于142.5 J kg-1,则判定为阵雨,其余进行下一步判断;如果T0小于29.45 ℃,则判定为雷雨,否则为阵雨。
(2)从数学统计分类角度结合气象预报因子,初步建立了一个适用于浙江省的区分降水性质的指标,且实际业务化的时候计算量小,预报周期长,短期内预报时效高、精细化。本文所建立的指标在除去有降水预报误差个例后,命中率综合达到70%以上,TS评分超过0.53,空报率雷雨与阵雨分别为43%和10%,在不同地区和季节稍有区别(命中率高,且本省尚无类似指标进行对比)。总体来看杭州、衢州降水性质预报效果更好,杭州、衢州雷雨预报效果好于台州,阵雨略差于台州;夏季的雷雨预报效果好于春季,夏季的阵雨预报效果好于春季。从浙江省两次大范围过程来看,都能很好预报和区分出阵雨和雷雨的落区以及演变情况。
(3)降水分类指标在地域上(东西部,是否沿海)、季节上有差异,不可排除偶尔性,但本文所做分类指标在力求全面、合理、计算量低的前提下还是有一定局限性,有待结合其它资料(卫星、雷达)或地形、环境类等因子,进一步完善指标;另外,降水分类指标在很大程度上依赖降水预报的准确性,降水的漏报和空报都会直接导致误差,故未来希望能对数据进行订正,更好地服务于浙江省的降水性质预报,为气象业务人员提供参考和服务。
[] | Breiman L, Friedman J H, Stone C J, et al. 1984. Classification and Regression Trees[M]. Monterey, CA: Chapman and Hall/CRC. |
[] | 陈洪滨, 朱彦良. 2012. 雷暴探测研究的进展[J]. 大气科学, 36(2): 411–422. Chen Hongbin, Zhu Yanliang. 2012. Review on the observation investigation of thunderstorms[J]. Chinese Journal of Atmospheric Science (in Chinese), 36(2): 411–422. DOI:10.3878/j.issn.1006-9895.2011.11064 |
[] | 陈明轩, 俞小鼎, 谭晓光, 等. 2004. 对流天气临近预报技术的发展与研究进展[J]. 应用气象学报, 15(6): 754–766. Chen Mingxuan, Yu Xiaoding, Tan Xiaoguang, et al. 2004. A brief review on the development of nowcasting for convective storms[J]. Journal of Applied Meteorological Science (in Chinese), 15(6): 754–766. DOI:10.3969/j.issn.1001-7313.2004.06.015 |
[] | Doswell Ⅲ C A. 1987. The distinction between large-scale and mesoscale contribution to severe convection:A case study example[J]. Wea. Forecasting, 2(1): 3–16. DOI:10.1175/1520-0434(1987)002<0003:TDBLSA>2.0.CO;2 |
[] | Doswell Ⅲ C A. 2001. Severe convective storms-an overview[M]//Doswell C A. Severe Convective Storms. Boston: American Meteorological Society, 1-26. |
[] | 巩崇水, 曾淑玲, 王嘉媛, 等. 2013. 近30年中国雷暴天气气候特征分析[J]. 高原气象, 32(5): 1442–1449. Gong Chongshui, Zeng Shuling, Wang Jiayuan, et al. 2013. Analyses on climatic characteristics of thunderstorm in China in recent 30 Years[J]. Plateau Meteorology (in Chinese), 32(5): 1442–1449. DOI:10.7522/j.issn.1000-0534.2012.00134 |
[] | 姜文瑞, 王玉英, 郝小琪, 等. 2012. 决策树方法在气温预测中的应用[J]. 计算机应用与软件, 29(8): 141–144. Jiang Wenrui, Wang Yuying, Hao Xiaoqi, et al. 2012. Application of decision tree in temperature prediction[J]. Computer Applications and Software (in Chinese), 29(8): 141–144. DOI:10.3969/j.issn.1000-386X.2012.08.037 |
[] | 雷蕾, 孙继松, 魏东. 2011. 利用探空资料判别北京地区夏季强对流的天气类别[J]. 气象, 37(2): 136–141. Lei Lei, Sun Jisong, Wei Dong. 2011. Distinguishing the category of the summer convective weather by sounding data in Beijing[J]. Meteorological Monthly (in Chinese), 37(2): 136–141. DOI:10.7519/j.issn.1000-0526.2011.2.002 |
[] | 刘璇, 唐慧强, 许遐祯, 等. 2009. 决策树算法在农业气象灾害统计中的应用[J]. 农机化研究, 31(7): 200–203. Liu Xuan, Tang Huiqiang, Xu Xiazhen, et al. 2009. The application of decision-tree algorithm in the statistic of meteorological hazards of agriculture[J]. Journal of Agricultural Mechanization Research (in Chinese), 31(7): 200–203. DOI:10.3969/j.issn.1003-188X.2009.07.059 |
[] | Ostby F P. 1992. Operations of the national severe storms forecast center[J]. Wea. Forecasting, 7(4): 546–563. DOI:10.1175/1520-0434(1992)007<0546:OOTNSS>2.0.CO;2 |
[] | Quinlan J R. 1986. Introduction of decision trees[J]. Machine Le-arning(1): 81–106. |
[] | 孙凌, 周筠珺, 杨静. 2009. 雷暴预警预报的研究进展[J]. 高原山地气象研究, 29(2): 75–80. Sun Ling, Zhou Yunjun, Yang Jing. 2009. Advances in early-warning and forecasting of thunderstorms[J]. Plateau and Mountain Meteorology Research (in Chinese), 29(2): 75–80. DOI:10.3969/j.issn.1674-2184.2009.02.015 |
[] | 中国气象局监测网络司. 1999. 地面气象电码手册[M]. 北京: 气象出版社: 100pp. Monitoring Network Department of China Meterological Administration. 1999. The Manual of Surface Meteorological Code (in Chinese)[M]. Beijing: China Meteorological Press: 100pp. |
[] | 王霁吟, 陈宝君, 宋金杰, 等. 2015. 基于再分析资料的我国龙卷发生环境和通用龙卷指标[J]. 气候与环境研究, 20(4): 411–420. Wang Jiyin, Chen Baojun, Song Jinjie, et al. 2015. Atmospheric conditions of tornado genesis and universal tornadic index based on reanalysis data[J]. Climatic and Environmental Research (in Chinese), 20(4): 411–420. DOI:10.3878/j.issn.1006-9585.2014.14127 |
[] | 向俊莲, 王丽珍. 2001. PUBLIC在云南气象预报中的应用[J]. 云南大学学报(自然科学版), 23(1): 16–29. Xiang Junlian, Wang Lizhen. 2001. The application of PUBLIC in predicting the climatic phenomenon in Yunnan Province[J]. Journal of Yunnan University (in Chinese), 23(1): 16–29. DOI:10.3321/j.issn:0258-7971.2001.01.005 |
[] | 俞小鼎, 周小刚, 王秀明. 2012. 雷暴与强对流临近天气预报技术进展[J]. 气象学报, 70(3): 311–337. Yu Xiaoding, Zhou Xiaogang, Wang Xiuming. 2012. The advances in the nowcasting techniques on thunderstorms and severe convection[J]. Acta Meteorologica Sinca (in Chinese), 70(3): 311–337. DOI:10.11676/qxxb2012.030 |
[] | 曾淑玲, 巩崇水, 赵中军, 等. 2012. 动力-统计方法在24小时雷暴预报的应用[J]. 气象, 38(12): 1508–1514. Zeng Shuling, Gong Chongshui, Zhao Zhongjun, et al. 2012. The application of dynamical-statistical method to 24-h thunderstorm forecast[J]. Meteorological Monthly (in Chinese), 38(12): 1508–1514. |