气候与环境研究  2015, Vol. 20 Issue (1): 111-118   PDF    
三种聚类分析方法在中国温度区划分中的应用研究
韩微1,2, 翟盘茂2     
1 南京信息工程大学, 南京210044;
2 中国气象科学研究院灾害天气国家重点实验室, 北京100081
摘要:根据全国512个气象站1961~2010年的逐日气温观测资料,采用日平均气温稳定通过10 ℃的日数(≥10 ℃日数)作为划分我国温度分布的指标,经过旋转经验正交函数分析(REOF)方法处理,找出时间演变过程中变化相似的区域归为一类.在此基础上,采用快速样本聚类法(K-means法)、分层聚类法(Ward法)、聚类统计检验法(CAST法)3种聚类分析方法对全国范围的温度变化区域差异进行客观分区,结果分别将全国温度变化区划分为10个地区、9个地区、13个地区,且不同区域分界线与中国地形分布有很好的一致性.研究表明:K-means法运算简单快捷,结果会不断修正到最佳为止;Ward法聚类过程清晰明了,可以选取需要划分的类别数;CAST法使样本通过显著性检验,不但有助于气候变化的客观分区,而且在划分温度区时客观考虑气候变化对分区结果的影响也有很重要意义.
关键词聚类分析     日平均气温稳定通过10 ℃日数     变化     分区    
Three Cluster Methods in Regionalization of Temperature Zones in China
HAN Wei1,2, ZHAI Panmao2     
1 Nanjing University of Information Science and Technology, Nanjing 210044;
2 State Key Laboratory of Severe Weather, Chinese Academy of Meteorological Sciences, Beijing 100081
Abstract: A scheme for regionalization of temperature zones was established on the basis of daily surface air temperature observations from 512 stations in China during 1961-2010. Days with daily surface air temperature ≥10 ℃ were used as indicators for zoning the temperature distribution. After REOF (Rotated Empirical Orthogonal Function) analysis, areas with similar temperature changes in the time evolution were classified as one zone. The temperature zones were classified by three types of clustering analysis methods. The national area was divided into ten temperature zones by using the K-means method, nine temperature zones by using the Ward method, and 13 temperature zones by using the CAST (Cluster Analysis with Statistical Test) method. The boundaries of the various regions show a good consistency with the Chinese topography. Calculation by using the K-means method is considered to be simple and quick because, the results are revised until the best results are achieved. Moreover, the clustering process of the Ward method is clear; any number of categories may be selected. Finally, the results of the CAST method pass the significance test; therefore, this method is meaningful for zoning.
Key words: Cluster analysis     Days with daily surface air temperature ≥10 ℃     Change     Zoning    
1 引言

中国幅员辽阔,地形复杂多样,山地面积广大,气候类型极为丰富,温度分布不均匀。地面气温10 °C是一般喜温作物生长的起始温度,也是喜凉作物迅速生长,多年生作物开始以较快速度积累干物质的温度。我国大多采用多年5 d滑动平均气温稳定通过10 °C日数作为指标进行温度区的划分(中央气象局,1979陈咸吉,1982陈志鹏等,1991郑景云等,2010),该指标可以更有针对性地为各地工农业生产提供参考依据,对社会经济建设及人类应对未来的气候变化也具有重要的意义。现有的划分方法主要是使用固定的临界值,但是在具体的温度区划分过程中,没有客观考虑温度变化的一致性。近50年全球气候发生了变化,气温的响应更为显著(任国玉等,2005),因此对我国温度区重新进行划分时,考虑温度变化特征十分必要。

我国近些年应用统计方法进行分区的研究也有很多。秦爱民等(2005)采用分层聚类和相似分析方法,对中国月、季、半年、年平均气温进行了区划,通过动态分析分层聚类过程中组内和组间平均相关系数的差异指标,为不同季节气温分析、预测研究找到适宜的分区方案。该研究虽然采用了客观的聚类统计方法进行分区,但也没有考虑温度变化的一致性。韩翠华等(2013)通过正交旋转因子分析对4个时间段的年、冬、夏半年气温变化特征进行分区。依据年、夏半年气温变化特征,将全国划分成8个不同的区域;依据冬半年气温变化特征,将全国划分为7个变化区。该研究虽然考虑了温度变化特征,但是分区并不是很客观。

综合以往的研究,本文使用更加丰富、完善的资料,采用旋转经验正交函数分析(REOF)和聚类统计相结合的方法对近50年全国温度变化进行分区。利用REOF提取出各个站点时间演变过程中的温度变化特征,再用聚类的方法进行分区,这对划分温度区时客观考虑气候变化对分区结果的影响有很重要意义。且本文采用了3种聚类统计方法,对比3种聚类方法的优劣,为人们根据自己的需求选择适合的聚类分析方法提供依据。

2 资料与方法

本文采用中国气象局国家气象信息中心提供的1961~2010年全国512个逐日气温台站资料(本文剔除了海拔在3000 m以上的站点)计算多年5 d滑动平均气温(T)稳定通过10 °C的日数。采用REOF方法提取T≥10 °C日数的空间场,该空间场代表的是不受时间的限制的每个区域温度变化最典型的特征,进而采用3种聚类分析方法进行分区。3种聚类方法的步骤如下。

2.1 快速聚类法步骤

(1)选取K个样本为初始的类中心;

(2)计算每个样本与各中心的欧几里得距离,将每个样本赋给最近的类;

(3)计算每一类的平均值,以其为中心,计算每个样本与中心的距离,将每个样本重新赋给距离最小的类;

(4)重复步骤(3),直到方差不再发生变化。

2.2 分层聚类法步骤

(1)各样本序列先各自为一类;

(2)计算各样本两两间的离差平方和,将合并后离差平方和最小的两类归并为一个新类;

(3)计算新类的平均序列,计算各类之间的离差平方和,再将合并后增加的离差平方和最小的类进行合并;

(4)重复步骤(3),直到达到希望的类别数。

2.3 统计检验聚类分析法步骤

(1)选取中心,计算各样本与中心之间的相关系数;

(2)从相关系数最大的样本开始,按照构造出的服从χ2分布的公式计算,检验其能否通过显著性检验;

(3)通过检验,则该样本能与中心合并为一类;

(4)逐渐扩大合并的范围,直到检验不显著为止。

3 温度区划分

近些年,REOF在分析区域气候变化分型中应用较多。虽然EOF能够将气象变量场的时间与空间变化分离,用尽可能少的模态表达出其时间变化的空间一致性,但是它过分强调变量的整体相关结构,使重要的局部相关结构被掩盖(吴洪宝和吴蕾,2005)。而 REOF则克服了这个缺点,在EOF的基础上经过极大方差旋转,使高荷载集中在少数变量上,其余接近于零,从而使空间结构更加清晰,突出气候变化的区域一致性特征。本文对T≥10 °C的日数资料进行REOF,前10个主分量的累计贡献率达到60%以上。表 1列举了EOF与REOF前10个模态的方差贡献率和累计方差贡献率,可以看出REOF对场的总方差贡献量不变,而单个空间型尽量反映场的局部相关结构。

表 1 中国512个站1961~2010年T≥10°C日数标准化距平场前10个模态EOF和REOF的方差贡献率 Table 1 Variances accounted for by each of the first ten EOF modes and REOF(Rotated EOF)modes from normalized anomaly fields of days with 5-d running mean daily surface air temperature(T)≥10 °C for 512 stations of China during 1961−2010

由前十个模态的空间分布(图 1)可以看出,前十个空间模态几乎涵盖了全国。根据REOF展开第一模态(图 1a)可以看出,第一模态的空间型在长江中下游地区很显著,其中心值为0.89,代表该地区79.21%的方差贡献,因此可以把长江中下游地区气候划分一类。由REOF展开第二模态(图 1b)可以看出,第二模态的空间型在东北地区很显著,其中心值为0.85,代表该地区72.25%的方差贡献,因此可以把东北地区划分为一类。第三模态的空间型(图 1c)在西北中东部地区显著,其中心值为0.86,代表该地区73.96%的方差贡献。第四模态的空间型(图 1d)在华南沿海地区显著,其中心绝对值为0.82,代表该地区67.24%的方差贡献。第五模态的空间型(图 1e)在北回归线一带显著,其中心绝对值为0.80,代表该地区64%的方差贡献。第六模态的空间型(图 1f)在新疆准格尔盆地地区显著,其中心绝对值为0.69,代表该地区47.61%的方差贡献。第七模态的空间型(图 1g)在新疆塔里木盆地地区,其中心绝对值为0.79,代表该地区62.41%的方差贡献。第八模态的空间型(图 1h)在华北平原及辽东半岛地区显著,其中心值为0.80,代表该地区64%的方差贡献。第九模态的空间型(图 1i)在黄淮地区显著,其中心绝对值为0.72,代表该地区51.84%的方差贡献。第十模态的空间型(图 1j)在内蒙古中东部地区显著,其中心值为0.73,代表该地53.29%的方差贡献。

图 1 中国512站1961~2010年T≥10 °C日数标准距平场REOF展开前十个模态空间型(图中数值为绝对值),(a−j)依次为第一模态到第十模态 Fig. 1 (a−j)The first ten REOF modes of normalized anomaly fields of days with T≥10 °C for 512 stations of China during 1961−2010

对原始数据REOF后,前10个模态可以反映原始场的空间和时间变化。现提取出前10个模态的空间场进行统计聚类,分别采用3种不同的聚类分析方法进行分区。

3.1 快速聚类法(K-means法)

快速聚类,以迭代思想为理论基础,先任意按照给出的聚类数目K作为初始类中心,根据与每个中心的欧几里得距离,将每个对象赋予最近的 类别,计算每类的平均值为中心,将每个对象重新赋予最类似的类别,重复这个过程,逐步修改分 类至方差不再变化为止。该算法原理简单并便于处理大量数据,因此得到广泛应用(章基嘉等,1984刘伟东等,2013)。在K-means算法运行前必须 先指定聚类数目K。本文剔除了高原的资料,取 K值为7时,得到的结果更为合理,聚类结果如 图 2

图 2 K-means法对中国温度区划分(1961~2010年) Fig. 2 Regionalization for temperature zones in China by K-means method(1961−2010)

图中不同颜色的点表示不同的类别,红色的线为各类的分界线。从图中可以看出,分区的大小具有明显的地域性特点。全国温度区被划分为10个地区:即青藏高原地区、华南沿海地区、云贵高原地区、长江中下游地区、黄淮地区、内蒙古中东部和东北地区、西北中东部地区、新疆塔里木盆地地区、新疆准格尔盆地地区、大兴安岭北部地区。

分界线是沿着中国的地形划分的,一些小的区域没有划分出来。青藏高原周围地形复杂,因此把青藏高原地区单独划分出来。海南岛由于五指山和海洋的影响,使得海南岛的气候变化类型与华南沿海地区不同。云贵高原地区由于西侧青藏高原和复杂地形的影响,南北两侧为不同类型。划分的区域里有个别站点的气候变化类型不同,这是由于山脉、河流等地形的影响,如西北地区沿着青藏高原的地区的类型就不统一。新疆地区由于准格尔盆地、塔里木盆地的存在,站点分布不均匀,但沿着塔里木盆地的站点气候变化一致,准格尔盆地地区也是这样。大兴安岭背部北侧有一特别的博克图站点,其气候变化类型不同,比周围地区暖,可能是站点处于大兴安岭内部的原因。

K-means法是较经典的一种聚类方法。由于该算法的效率高,所以在对大规模数据进行聚类时被广泛应用。本文取K值等于7,将全国除青藏高原外的地区划分为7类。可以看出,用K-means法划分出的区域与传统方法划分出的区域有相似性。该方法的缺点是:可以选择的内容较少,最重要的K值需要提前给出,人为经验和判断无形中会起很大作用。

3.2 分层聚类法

分层聚类的方法(Hierarchical Clustering Methods),是目前在实际中使用最多的一类方法。这类方法的基本思想是:首先定义样品之间的距离(或相似系数)和类与类之间的距离。一开始将n个样品各自成一类,这时类与类之间的距离与样品之间的距离是等价的,然后将距离最近的两类合并,重新计算新类与其它类的距离,再按最小距离归类。这样每次缩小一类,直至所有的样品都成一类为止(黄嘉佑,2000)。本文组间距离测度标准采用皮尔逊相关系数,归并方法采用离差平方和法(Ward法)。这个方法基于方差分析的思想,同类样品之间的离差平方和较小,类与类之间的离差平方和较大(方开泰,1978)。为了与K-means方法相比较,选取聚为7类时的结果,如图 3

图 3 Ward法对中国温度区划分(1961~2010年) Fig. 3 Regionalization for temperature zones in China by Ward method(1961−2010)

分层聚类法顺序是自底向上的,本文采用离差平方和法(Ward法)一步步聚类,把我国温度区划分为9个地区:即青藏高原地区、华南沿海与云南南部地区、长江中下游地区、云贵高原北部地区、黄淮地区、东北地区、西北中东部地区、新疆地区、内蒙古中东部地区。

不同类型的分界线与中国地形分布也有很好的一致性。青藏高原地区单独划分为一类。海南岛南部由于五指山和海洋的影响,气候变化类型与华南沿海地区不同。云贵高原北部地区由于受青藏高原、四川盆地的影响与云贵高原南部地区为不同类别。西北中东部地区与新疆地区、内蒙古中东部地区的分界线沿着祁连山脉、黄土高原、太行山脉、阴山山脉划分。划分的区域里有个别站点的气候变化类型不同,这是受当地地形或者站点迁站的影响。如黄淮地区,黄河沿岸有两个红色与该地区不同类别的站点,分别为泰山、华山站。

用Ward法划分出的区域与前人划分的结果有很好的一致性。Ward聚类有很好的统计特点,应用广泛。虽然不需要确定分类数,但是一旦一个合并被执行,就不能修正,聚类质量受限制(Michelangeli et al.,1995)。

3.3 统计检验聚类分析法(CAST法)

传统的聚类分析是常用的重要数值分类方法,但是这个方法缺乏显著性检验。么枕生(1994)根据气候统计理论提出了一种新的具有统计检验的聚类分析(Cluster Analysis of Statistic Test,CAST)用于气候分型区划。这种方法改进了传统的聚类分析方法。采用距离系数表示两个变量的相关系数,该方法使得距离和相关系数在代表样本间相似程度时,是彼此一致的。所谓聚类统计检验分析是从统计学理论推导出具有显著性检验的聚类方法。Cij环绕其平均数是正态分布的,构造遵守χ2分布的函数。CAST一般可有两种计算方案:均匀聚类和中心聚类。对于地理空间上的气候区划来说,用中心聚类方案可大大节省计算量,并能区划出更为适用的气候区(赵春雨等,2009)。选好中心站后,计算χ2值,当其小于其在0.05显著性水平下的值时,通过检验。

CAST存在着一个不确定性的问题:即如何选取聚类中心站点并无客观标准。因此本文将CAST和REOF相结合的办法来确定中心站(丁裕国等,2007),选择载荷向量的高值区为中心,在此基础上对中国的温度带进行划分,划分结果如图 4

图 4 CAST法对中国温度区划分(1961~2010年) Fig. 4 Regionalization for temperature zones in China by CAST(Cluster Analysis of Statistic Test)method(1961−2010)

因为选取了前十个模态,即选择了10个中心站,因此可以将中国温度区划分为10类。分界 线沿着中国的地形分布,将中国划分为13个地 区:即青藏高原地区、华南沿海地区、华南丘陵地区、云贵高原地区、四川盆地地区、江南地区、黄淮地区、华北北部与辽东半岛地区、东北地区、内蒙古中东部地区、西北中东部地区、新疆塔里木盆地地区、新疆准格尔盆地地区。

图中黑色站点为不显著站点,没有被归为任何一类。云贵高原地区虽然没有通过显著检验,但是根据地形和前人的划分结果,单独划分出来,还是合理的。CAST方法将中国温度变化区划分的非常细致、合理,且通过了显著性检验。聚类统计检验虽然有很好的统计学意义,但是在大范围地区聚类检验之后会有如图的结果,边界过渡区或交叉混合区仍需人为的区分。

4 结论与讨论

采用REOF方法提取出时间演变过程中的温度变化特征,再利用3种聚类统计方法对1961~2010年我国温度变化进行客观的分区,得到如下结论:

(1)K-means法将全国温度区划分为10个地区,划分的结果较为合理,这些区域可以表示中国温度变化情况。该算法的效率高,运行起来简单快捷,所以在对大规模数据进行聚类时被广泛应用。该方法在运算过程中不断的修正,直到方差稳定为止,因此可以得到很好的结果。但是最重要的类别数K值需要提前给出,人为经验和判断无形中会起很大作用。本文K值也是在几次尝试后,选取了较为合理的7。

(2)Ward法将我国温度区划分为9个地区,该方法划分的结果不是很细致,但是总体上的划分结果还是合理的。Ward聚类有很好的统计特点,同类样品之间的离差平方和较小,类与类之间的离差平方和较大。聚类的每一步用树状图都能清楚的看到,在国际上应用广泛。所有样本最终被归为一类,所以可以选取聚类过程中适合的类别数。虽然不需要确定分类数,但是一旦一个样本被合并到一类,就不能修正,聚类质量受限制。

(3)CAST法将我国温度区划分为13个地区,该方法划分的最为细致合理,一些特殊地形都能表示出来。CAST聚类统计检验有很好的统计学意义,划分为一类的站点通过显著性检验,使得结果更为可信。在对数据REOF后,高载荷区为该模态最有代表性的站点,选取为中心站很合理。用中心聚类作气候分区,不但大大节省计算量,还可以区划出更合适的气候区。但是该方法在处理面积较大的地区时,会出现一些不显著的站点,还有一些对两类都通过检验的站点。检验之后也并不能把所有站点很客观的分类,边界过渡区或交叉混合区仍需人为的区分。此方法更适合应用于对一个省或面积较小的地区划分。

综合3种方法,我国的温度区可划分为:青藏高原地区、西南地区、华南地区、长江中下游地区、黄淮地区、华北地区、东北地区、西北中东部地区、新疆地区。该划分结果考虑了温度的变化情况,且用了客观的分类方法,结果更为合理。3种聚类方法在气候分区中都很有意义,各有优缺点,因此在应用中要根据自己的需求选取。

参考文献
[1] 陈咸吉. 1982. 中国气候区划新探 [J]. 气象学报, 40 (1): 35-48. Chen Xianji. 1982. A new approach to the climate division of China [J]. Acta Meteorologica Sinica (in Chinese), 40 (1): 35-48.
[2] 陈志鹏, 朱瑞兆, 尹晓荣. 1991. 中国气候数值区划的研究 [J]. 应用气象学报, 2 (3): 271-279. Chen Zhipeng, Zhu Ruizhao, Yin Xiaorong. 1991. A study of the numerical classification of the climates in China [J]. Journal of Applied Meteorological Science (in Chinese), 2 (3): 271-279.
[3] 丁裕国, 张耀存, 刘吉峰. 2007. 一种新的气候分型区划方法 [J]. 大气科学, 31 (1): 129-136. Ding Yuguo, Zhang Yaocun, Liu Jifeng. 2007. A new cluster method for climatic classification and compartment using the conjunction between CAST and REOF [J]. Chinese Journal of Atmospheric Sciences (in Chinese), 31 (1): 129-136.
[4] 方开泰. 1978. 聚类分析(Ⅰ) [J]. 数学的实践与认识, (1): 66-80. Fang Kaitai. 1978. Cluster analysis (I) [J]. Mathematics in Practice and Theory (in Chinese), (1): 66-80.
[5] 韩翠华, 郝志新, 郑景云. 2013. 1951~2010年中国温度变化分区及其区域特征 [J]. 地理科学进展, 32 (6): 887-896. Han Cuihua, Hao Zhixin, Zheng Jingyun. 2013. Regionalization of temperature changes in China and characteristics of temperature in different regions during 1951-2010 [J]. Progress in Geography (in Chinese), 32 (6): 887-896.
[6] 黄嘉佑. 2000. 气象统计分析与预报方法 [M]. 北京: 气象出版社, 181-191. Huang Jiayou. 2000. Meteorological Statistics Analysis and Predictive Method (in Chinese) [M]. Beijing: China Meteorological Press, 181-191.
[7] 刘伟东, 杨萍, 尤焕苓, 等. 2013. 北京地区热岛效应及日较差特征[J]. 气候与环境研究, 18 (2): 171-177. Liu Weidong, Yang Ping, You Huanling, et al. 2013. Heat island effect and diurnal temperature range in Beijing area [J]. Climatic and Environmental Research (in Chinese), 18 (2): 171-177.
[8] Michelangeli P A, Vautard R, Legras B. 1995. Weather regimes: Recurrence and quasi stationarity [J]. J. Atmos. Sci., 52 (8): 1237-1256.
[9] 秦爱民, 钱维宏, 蔡亲波. 2005. 1960~2000年中国不同季节的气温分区及趋势 [J]. 气象科学, 25 (4): 4338-4345. Qin Aimin, Qian Weihong, Cai Qinbo. 2005. Seasonal division and trend characteristic of air temperature in China in the last 41 years [J]. Meteorological Science and Technology (in Chinese), 25 (4): 4338-4345.
[10] 任国玉, 初子莹, 周雅清, 等. 2005. 中国气温变化研究最新进展 [J]. 气候与环境研究, 10 (4): 701-716. Ren Guoyu, Chu Ziying, Zhou Yaqing, et al. 2005. Recent progresses in studies of regional temperature changes in China [J]. Climatic and Environmental Research (in Chinese), 10 (4): 701-716.
[11] 吴洪宝, 吴蕾. 2005. 气候变率诊断和预测方法 [M]. 北京: 气象出版社, 37-48. Wu Hongbao, Wu Lei. 2005. Methods for Diagnosing and Forecasting Climate Variability (in Chinese) [M]. Beijing: China Meteorological Press, 37-48.
[12] 么枕生. 1994. 用于数值分类的聚类分析 [J]. 海洋湖沼通报, (2): 1-12. Yao Zhensheng. 1994. Cluster analysis used in numerical classification [J]. Transactions of Oceanology and Limnology (in Chinese), (2): 1-12.
[13] 章基嘉, 孙照渤, 陈松军. 1984. 应用K均值聚类法对东亚各自然天气季节500毫巴候平均环流的分型试验 [J]. 气象学报, 42 (3): 311-319. Zhang Jijia, Sun Zhaobo, Chen Songjun. 1984. A pattern classification of the mean pentad circulations at 500mb level over East Asia for each NSS by the method of K-means cluster analysis [J]. Acta Meteorologica Sinica (in Chinese), 42 (3): 311-319.
[14] 赵春雨, 王冀, 严晓瑜, 等. 2009. 东北地区冬季降雪的气候特征及其区划 [J]. 自然灾害学报, 18 (5): 29-35. Zhao Chunyu, Wang Ji, Yan Xiaoyu, et al. 2009. Climatic characteristics and regionalization of winter snowfall in Northeast China [J]. Journal of Natural Disasters (in Chinese), 18 (5): 29-35.
[15] 郑景云, 尹云鹤, 李炳元. 2010. 中国气候区划新方案 [J]. 地理学报, 65 (1): 3-12. Zheng Jingyun, Yin Yunhe, Li Bingyuan. 2010. A new scheme for climate regionalization in China [J]. Acta Geographica Sinica (in Chinese), 65 (1): 3-12.
[16] 中央气象局. 1979. 中华人民共和国气候图集 [Z]. 北京: 地图出版社, 222-223. China Meteorological Administration. 1979. Climatological Atlas of the People's Republic of China (in Chinese) [Z]. Beijing: China Atlas Press, 222-223.