聚类分析在福建省经济研究中的应用
摘要:本文论述聚类分析的基础知识,并以福建省9个市2014年的地区生产
总值、金融机构人民币各项存款余额等十项综合经济指标为样本,利用SPSS软件,对他们的综合发展水平进行类型划分及差异性程度分析.
关键词:聚类分析 综合经济指标 福建省经济区划分
一、引言:
聚类分析(Cluster Analysis)又称群分析,是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。聚类分析起源于分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量的分类。随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业知识难以确切地进行分类,于是人们逐渐地把数学工具引用到了分类学中,形成了数值分类学,之后又将多元分析的技术引入到数值分类学形成了聚类分析。 在中国,区域经济发展不平衡现象由来已久,区域经济差异更是不断的扩大。本文以9个市的10个经济指标作为研究对象,来分析本省地域经济之间的差异性以及相似性,评价各地区的经济发展现状。
二、基础知识
1.聚类分析的原理
聚类分析是研究多要素事物分类问题的数量方法.基本原理是根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类. 常见的聚类分析方法有系统聚类法、K-均值法等. 2.样品间的距离和相似系数 (1)距离的计算
描述样品间的亲疏程度最常用的是距离,设观测数据
xxj(i1,2,,n;j1,,m)列成下列X矩阵的形式.
设有n个样品,每个样品测得p个变量,原始资料阵为
x11x21Xxn1x12x1px22x2pxn2xnp,
其中xij为i个样品的第j个变量的观测数据.
用dij表示第i个样品的第j个样品之间的距离,其值越小表示两个样品接近程度越大.
距离的一般要求:
① dij0,对一切i,j;当dij0X(i)X(j); ② dijdji,对一切i,j;
③ dijdikdkj,对一切i,j,k(三角不等式). 常用的距离有以下几种:
1)闵氏距离
dij(q)(XikXjk)1qk1pq ,
其中常用的距离有绝对距离和欧氏距离.
绝对距离
欧氏距离
dij(1)(XikXjk)k1p.
dij(2)(XikXjk)12k1p2.
欧氏距离是常用的距离,但它也有不足之处,一是它没有考虑到总体的变异对“距离”远近的影响,显然一个变异程度大的总体可能与更多样品近些,即使它们的欧氏距离不一定最近;另外,欧氏距离受变量的量纲影响,这对多元数据的处理是不利的.通常我们需要先对数据近些标准化处理,然后用标准化后的数据计算距离.
2)马氏距离
设Xi与Xj是来自均值向量为,协方差为0的总体G中的p维样品,则两个样品间的马氏距离为
2dij(M)(XiXj)'1(XiXj).
马氏距离又称为广义欧几里得距离,显然马氏距离与上述各种距离的主要不同就是考虑到了观测变量之间的相关性.如果各变量之间相互,即观测变量的协方差矩阵是对角矩阵,对马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧几里得距离.马氏距离还考虑了观测变量之间的变异性,不再受各指标变量的影响,将原始数据作线性变换后,马氏距离不变.
选择不同的距离,聚类结果会有所差异.在地理分区和分类研究中,往往采用几种距离进行计算、对比,选择一种较为合适的距离进行聚类. (2)相似系数
在对多元数据进行分析时,相对于数据的大小,我们更好地对变量的变化趋势或方向感兴趣.因此,变量间的相似性,我们可以从它们的方向趋同性或“相关性”进行考察,我们用相似系数用来测量变量之间的距离,常用的相似系数有以下两种: 1)夹角余角
变量Xi与Xj是来自均值向量为,协方差为x0的总体G在的p维空间的两个向量,则这两个向量间的夹角余弦可表示为
cosijXk1p2ikk1pikXjkp
2)相关系数
(X)(X2jk)k1.
相关系数经常用来试题变量间的相似性.变量Xi与Xj的相关系数定义为
rij(Xk1ppikXi)(XjkXj)Xi)2(XjkXj)2
(Xk1ik.
在实际问题中,对样品分类常用距离,对变量分类常用相似系数,即Q型聚类分析常用距离,R型聚类分析常用相似系数.
4系统聚类分析方法
开始将样品或变量各视为一类,根据类与类之间的距离或相似程度将最近的类加以合并,再计算新类与其他类之间的相似程度,并选择最相似的加以合并,这样每合并一次就减少一类,不断继续这一过程,直至所有样品(或变量)合并为一类.
系统聚类分析方法方法包括最短距离法、最长聚类法、类平均法、重心法、ward法等八种不同的方法
三、实例
例 表1给出了 2014年能反映福建省9个市的综合经济的十项指标分别为: X1 地区生产总值(亿元),X2金融机构人名币各项存款余额(亿元),X3农村居民人均可支配收入(元),X4 城镇居民人均可支配收入(元),X5 人口(万人),X6固定资产投资(亿元),X7规模以上工业固定资产(万元),X8 地方公共财政收入(万元),X9 公共财政支出(万元),X10城镇单位在岗职工平均工资(元).
利用数据对福建省9个市的综合发展水平进行类型划分及差异性程度分析.
表1 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 福州市 7495.26 9439.39 14012.12 32450.86 674.94 4388.62 17391449 5108707 5748081 58839 厦门市 44.93 6607.25 16219.55 39625.09 203.44 1562.16 10743713 5562111 5609028 60729 莆田市 2315.01 1432.3 12828.79 26870.83 341.21 1423.68 4222194 1102982 1579085 51001 三明市 3016. 1205.73 11665.18 25197.04 284.01 1603.08 5653366 909210 1988757 52087 泉州市 10699.43 5778.53 14586.03 34819.52 716.22 2874.33 22088529 3801056 4767231 48823 漳州市 4042.14 2066.68 12690.15 25741.42 497.41 2081.86 9457001 16911 2745041 51495 南平市 1537.61 1250.48 11251.54 24074.28 319.19 1451.07 3267161 809938 1903858 48562 龙岩市 1682.31 1376.62 12054.43 26153.07 307.14 1558.45 5158792 1198424 2060037 49541 宁德市 2721.99 1077.16 11301.88 23956.36 352.24 1131.18 6848321 9222 1999031 50103 数据来源于2014年福建省统计年鉴
由于选用的数据在数量级以及单位上具有差别,不能直接进行比较,所以要对数据进行无量纲处理,在spss中可以通过“分析--描述统计--描述”得到标准化后的数据,这里得到的无量纲的数据为通过Z标准化方法得来的。
表2
X1 X2 X3 0.63 1.94 X4 0.67 1.96 X5 1.47 X6 2.32 X7 1.24 X8 1.43 1.67 X9 1.51 1.43 X10 1.48 1.90 福州市 1.06 1.96 厦门市 0.21 1.05 -1.16 -0.44 0.21 莆田市 -0. -0.62 -0.08 -0.34 -0.39 -0.57 -0.81 -0.65 -0.92 -0.31 三明市 -0.41 -0.69 -0.77 -0. -0.71 -0.40 -0.59 -0.75 -0.68 -0.06 泉州市 2.11 0.78 0.97 1.09 1.70 0.84 0.07 1.97 0.00 0.75 0.94 -0.80 漳州市 -0.07 -0.42 -0.16 -0.55 0.48 -0.34 -0.24 -0.20 南平市 -0.90 -0.68 -1.01 -0.85 -0.51 -0.54 -0.96 -0.80 -0.73 -0.86 龙岩市 -0.85 -0. -0.54 -0.47 -0.58 -0.44 -0.66 -0.60 -0. -0. 宁德市 -0.51 -0.74 -0.98 -0.87 -0.33 -0.86 -0.40 -0.71 -0.68 -0.51 上表中的数据即为消除量纲后的数据,对于表中的数值,大于0的表示该指标的值大于平均水平,小于0的表示低于平均水平。分析表中的数据,可知,对于地区生产总值X1来说,高于平均水平的有福州市,厦门市,泉州市,低于平均水平的有莆田市,三明市,漳州市,南平市,龙岩市,宁德市。在依次看其他指标所对应的值,均能能出一个地区的哪些指标高于平均水平,哪些指标低于平均水平。
再通过spss的“分析-分类-系统聚类”功能,得出聚类表
Agglomeration Schedule
Cluster Combined
Stage 1 2 3 4 5 6 7 8
Cluster 1
3 4 4 3 3 1 1 1
Cluster 2
8 9 7 4 6 5 2 3
Coefficients
.539 .705 .959 1.015 3.350 11.549 23.780 35.272
Stage Cluster First Appears Cluster 1
0 0 2 1 4 0 6 7
Cluster 2
0 0 0 3 0 0 0 5
Next Stage
4 3 4 5 8 7 8 0
通过上表,我们可以看出聚类的过程,第一阶段把距离测定值最小的莆田市(3)与龙岩市(8)聚成一类,下一次要用到这聚成的一类是在第四阶段。在第二阶段,把三明市(4)与宁德市(9)聚在一起,依次类推下去,直到把所有的市都聚在一起为止。
由于一共有9个市,所以至少要用8步才能把它们都归于一类.也可以通过此表看出系统聚类的基本思想:
距离相近的样本先聚成类,距离远的后聚成类,依次类推下去,知道所有额样本都聚到合适的类中。
上图为系统聚类分析得出的冰状图,从此图我们可以直观的看出,左边框的数字代表的是分类数,冰柱图给出了各个不同类别的聚类情况,如图,如果分为8类的话,那么龙岩与莆田市一类,剩下的聚成一类。如果聚成7类的话,宁德市与三明市一类,龙岩市与莆田市一类,以此类推下去。
根据实际情况我们将分为5个类别:经济发展强,经济发展较强,经济发展一般,经济发展较弱,经济发展弱5个类别。由冰柱图可得出聚成5类时,第一类为漳州市,第二类为南平市,宁德市,三明市,龙岩市,莆田市。第三类为厦门市,第四类为泉州市,第五类为福州市。
将这9个市按照所属的类别进行拆分,然后对着5个类别的数据进行平均值计算,可得到以下结果
Descriptive Statistics
类别
N
Mean
1.00 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 Valid N (listwise) 1 1 1 1 1 1 1 1 1 1 1 5 5 5 5 5 5 5 5 5 5 5 1 1 1 1 1 1 4042.1400 2066.6800 12690.1500 25741.4200 497.4100 2081.8600 9457001.0000 16911.0000 2745041.0000 51495.0000 2.00 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 Valid N (listwise) 2254.7120 1268.4580 11820.30 25250.3160 320.7580 1433.4920 5029966.8000 1001955.2000 1906153.6000 50258.8000 3.00 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 Valid N (listwise) 44.9300 6607.2500 16219.5500 39625.0900 203.4400 1562.1600 1 10743713.0000 1 1 1 1 1 1 1 1 1 1 10699.4300 5778.5300 14586.0300 34819.5200 716.2200 2874.3300 5562111.0000 5609028.0000 60729.0000 4.00 X1 X2 X3 X4 X5 X6 X7 1 22088529.0000 X8 X9 X10
Valid N (listwise)
5.00
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
Valid N (listwise)
1 1 1 1 1 1 1 1 1 1
3801056.0000 4767231.0000 48823.0000
7495.2600 9439.3900 14012.1200 32450.8600 674.9400 4388.6200
1 17391449.0000 1 1 1 1 5108707.0000 5748081.0000 58839.0000
可初步判断经济发展强的区域为第一类(福州市),经济发展较强的区域为第四类(泉州市),经济发展一半的区域为第三类(厦门市),经济发展较差的区域为第一类(漳州市),经济发展差的区域为第二类(南平市,宁德市,三明市,龙岩市,莆田市)
对所得的结果进行分析:
福州作为福建省的省会,在经济上的发展都优于其他各个市。社会文化环境是区域经济发展的重要组成要素之一。闽东南沿海地区人口密集, 土地、矿产等自然资源相对缺乏, 但靠海的便利条件, 自古以来就有到海外谋生的传统, 与外界的商品贸易频繁, 拉动了沿海地区的工业发展,使得福建沿海地区的经济发展相对来说较强。而闽北、闽西与外界的交流相对较少, 开放意识和市场价值观念不强, 参与创新和竞争动力不足。闽西北、闽西落后的社会文化观念是制约其经济发展的深层障碍。
参考文献:
[1]高惠璇.应用多元统计分析[M].北京:大学出版社,2005. [2]朱建平,应用多元统计分析(第三版)科学出版社 2016 [3]福建省统计局,福建省统计年鉴2014