您的位置:新文秘网>>毕业相关/毕业论文/文教论文/统计/财税统计/电信/通信/科学发展/>>正文

毕业论文:多元统计分析及其应用——2010年我国各省份电信业发展水平的分析及应用

发表时间:2013/9/18 12:03:33
目录/提纲:……
(一)主成分分析法的原理
(二)主成分的推导及其性质
(三)主成分的计算步骤
(四)主成分的分析过程
(五)主成分分析确定权数的优点
(一)因子分析模型建立
(二)因子分析的步骤
(三)因子分析的计算过程
(四)因子分析方法的优点
(一)原始数据标准化
(二)计算标准化数据的相关系数矩阵
(三)求相关系数矩阵特征值,方差贡献率,累计方差贡献率和主成分负荷
(四)确定主成分
(五)主成分得分
(六)结果分析
(一)评价指标的选择
(二)将原始数据标准化,以消除变量间在数量级和量纲上的不同
(三)求标准化矩阵的方差—协方差矩阵,即原始矩阵的相关系数矩阵
(六)求出各因子得分
(七)画出双重信息图biplot
……

本 科 毕 业 论 文
题目:多元统计分析及其应用——2010年我国各省份电信业发展水平的分析及应用

学 院: 数学科学学院学院
年 级: 2008级
专 业: 数学与应用数学

多元统计分析及其应用
——2010年我国各省份电信业发展水平的分析及应用

摘要 本文应用多元统计分析的方法对2010年我国各省份的电信业发展水平进行综合评价,建立评价指标体系。首先,用主成分分析对原始数据进行分析处理,得出评价电信业发展水平的综合指标。同时用因子分析方法对各地区电信业发展水平进行分析作为验证。探索了引起我国各省份电信业发展水平的差异性的主要因素,并对如何提高各地区的电信业综合实力提出建议,以实现各省份的共同发展。

关键词 多元统计分析 主成分分析 因子分析


Multivariate Statistical Analysis and Its Applications
——Based on the Developmental Level of Telecom Industry in Each Province of China in 2010

Abstract: This article conducts an overall evaluation of the developmental level of telecom industry in each province of China in 2010 based on the method of Multivariate Statistical Analysis aiming at establishing a system of evaluation inde*. First of all, the initial data are analyzed and processed by the use of Principal Component Analysis to obtain the overall evaluation inde*. Meanwhile, the overall evaluation inde* is verified by applying Factor Analysis to analyze the developmental level of telecom industry in each province. This article e*plores the major factors causing the developmental differences of telecom industry in each province and gives suggestions on how to improve the general strength of telecom indu
……(新文秘网https://www.wm114.cn省略2009字,正式会员可完整阅读)…… 
作出一个整体性的规划,因此多元统计分析方法得到了普及与应用。在构造综合评价指标中,如何科学客观地将多个复杂指标综合成少数几个简单指标,也就是降维处理,这就是我们所要解决的问题之一。我们知道已经有很多这样的降维方法,比如层次分析法,模糊综合评价法等。但是这些方法都有一个共同的缺点就是带有人为主观性,都需要专家评价,然后我们再进行信息处理。而主成分分析法则采用了一种完全不同的思路,倍受青睐,它避免了主观评分。在实际生活中,比如学生成绩的评价、物价指数、生活费用指数、商业活动指数、企业经济效益的分析等等,这都用到了多指标的统计分析方法。对于这些实际问题进行评价时,显然需要选取很多指标,而各指标之间往往又相互影响、具有相关性,关系相当复杂,给统计分析工作带来很大困难。因此,我们要通过降维技术,科学客观的选择一组相互无关的综合指标,这就使得主成分分析法成为一种广受欢迎的综合评价方法。
主成分分析(简记PCA)是将多指标化为少数几个综合指标的一种统计分析方法,是由英国生物统计学家Kart Pearson于1901年首次提出的,后来又由Hotelling于1933年发展起来。这一方法在处理解决多指标的统计分析中得到广泛应用,是一种很常用的、行之有效的多元统计分析方法。

(一)主成分分析法的原理
主成分分析法是通过恰当的数学变换,使新变量主成分成为原变量的线性组合,并选取少数几个方差累积量所占比例较大的主成分,主成分在方差总和中的比例越大,它在综合评价中的作用就越大。也可以说,在多维几何空间中,首先,把高维椭球的各个主轴找出来,对主轴作适当正交(垂直)旋转,再用代表大多数数据信息的最长的几个轴作为新变量,这些相互正交的新变量是原先变量的线性组合,就是主成分。
主成分分析的成分 和原来变量 之间的关系(假定原先有 个变量):

这里, 为第 个成分 和第 个原先的变量 之间的线性相关系数。
分别叫第一主成分,第二主成分,…,第 主成分,而总和的特性也就是用这些线性关系式的系数 来表示的。其中,在选择加权数 时要使 能得到最大解释变异能力,即要使 能得到最大的变异数,而 则是对原始资料中尚未被 解释的变异部分拥有最大解释能力,若以此类推,我们可以找到 个 出来( ),通常原始数据有 个 变量时,经过转换后,仍可找到 个 出来。然而我们最多只选择 个 ( = ),希望此愈小愈好,但解释能力却能达到80%以上。除此之外, 个 与原来 个变量 的最大差别是:原始变量中多为彼此相关的变量,经过线性转换后所产生的 个 则为彼此不相关的新变量。

(二)主成分的推导及其性质

其中, 求主成分就是寻求 的线性函数 ,使相应的方差达到最大,即 达到最大,且 (目的是使 唯一)。此处, 的协防差矩阵。
定理1 设 为非负定对称矩阵, 是它的 个不相同的特征根,相应的特征向量 相互正交,记 = ,则 可表示为 = ,称为 的谱分解。即存在一个正交阵 ,使 = , 的列向量为相应的特征向量。
设 特征根为 ,相应的单位特征向量为 ,令 ,则 ,即 为一正交阵,且:

因此 。
于是 。
当取 时, 。于是 就是第一主成分,它的方差最大, = = 。
同理, = = 。
另外,
该定理表明:变量 的主成分 是以 特征向量为系数的线性组合,他们是互不相关,方差为 特征根。而 特征根 ,所以有: 。
性质:(1) = ,这里, 为 的协方差阵的特征向量组成的正交阵。
(2) 的 个分量 之间是互不相关的。
(3) 的 个分量 是按方差大小由大到小排列的。
(4) 的协方差阵是对角阵。
(5) ,这里, 。
此处定义 为第 个主成分 的方差贡献率,第一个主成分的贡献率最大,表明 综合原始变量 的能力最强,而 的综合能力依次递减。若只取 (< )个主成分,则称 为主成分 的累计方差贡献率,它表明 的综合 的能力,通常取 使得累计贡献率不低于80%即可。
(6) ,这里, 。
这里, 表示第 个成分 和第 个原先的变量 的相关系数,也称为主成分负荷(loadings,在因子分析中称之为因子负荷),矩阵 称为因子载荷矩阵。在实际中,通常用 代替 作为主成分系数,因为他们标准化系数,能反映变量影响大小。

(三)主成分的计算步骤
(1)设有 个样品, 个指标将原始数据标准化,得到标准化数据矩阵:

(2)建立变量的相关系数阵: 。
(3)求 的特征值 及相应的单位特征向量:
, ,…, 。
(4)写出主成分:
, 。

(四)主成分的分析过程
(1)将原始数据的标准化,以消除变量之间在数量级和量纲上的不同。
设有 个样本, 项指标,可得数据矩阵 表示 个样本, 表示 个指标, 表示第 个样本的第 项指标值。
用 法对数据进行标准化变换:
式中 。
(2)求标准化数据的相关矩阵 。
其中: 为指标 与指标 的相关系数
,
即 有 , 。
(3)求相关矩阵 的特征值和特征向量。
由特征方程式 ,可求得 个特征根 ,将其按大小顺序排列为 ,它是主成分的方差,它的大小描述了各个主成分在描述被评价对象上所起作用的大小。由特征方程式,每一个特征根对应一个特征向量
, 。
(4)求方差贡献率,方差累计贡献率,确定主成分个数。
一般主成分个数等于原始指标个数,如果原始指标个数比较多,进行综合评价时就比较麻烦。主成分分析法就是选取尽量少的 个主成分 来进行综合评价,同时还要使损失的信息量尽可能少。设 为 个主成分, 的值由累计方差贡献率 决定,取前 个主成分来反映原评价对象。
(5)用原指标的线性组合来计算各主成分得分:以各主成分对原指标的相关系数(即载荷系数)为权,将各主成分表示为原指标的线性组合,而主成分的经济意义则由各线性组合中权数较大的指标的综合意义来确定,即
, 。
(6)综合得分:以各主成分的方法贡献率为权,将其线性组合得到综合评价函数。

(7)得分排名:利用总得分可以得到得分名次。

(五)主成分分析确定权数的优点
(1)可消除评价指标之间的具有相关关系的影响。由于主成分分析在对原指标变量进行变换后形成了彼此相互独立的主成分,并且实践证明指标间相关程度越低,主成分分析效果越好。
(2)可减少指标选择的工作量,对于其它评价方法,由于难以消除评价指标间的相关影响, 所以选择指标时要花费不少精力,而主成分分析由于可以消除这种相关影响,所以在指标选择上相对容易些。
(3)主成分分析中各主成分是按方差大小依次排列顺序的,在分析问题时,可以舍弃一部分主成分,只取前后方差较大的几个主成分来代表原变量,从而减少了计算工作量。
1.3 因子分析法

因子分析是主成分分析的推广,它也是一种把多个变量化为少数几个综合变量的多元统计分析方法,但其目的是用有限个不可测的隐变量来解释原变量之间的相关关系。主成分分析通过线性组合将原变量综合成几个主成分,用较少的综合指标来代替原来较多的指标(变量)。在多元统计分析中,变量间往往存在相关性,是什么原因使得变量间有关系呢?是否存在不能直接观测到的但影响可测变量变化的公共因子呢?因子分析就是寻找这些公共因子的统计分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考虑原变量间的联系与区别。
因子分析就是以最小的信息损失,将众多的原始变量浓缩成为少数几个因子变量,使得变量具有更高的可解释性的一种数据缩减方法,是多变量分析的主干技术之一。因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上代表了一个基本结构,即公共因子。对于所研究的问题,试图用最少个数的不可测的公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。研究样本间的相互关系的因子分析称为 型因子分析,而研究变量间的相互关系的因子分析称为 型因子分析,下面主要讨论并运用的是 型因子分析。

(一)因子分析模型建立
(1)求解初始因子载荷矩阵 ,也即 。
(2)建立因子模型 。
也即为下式表达:




其矩阵形式为: ,其中:
① 是可观测随机向量,均值向量 ,协方差阵 。且协方差阵 相关矩阵 相等(只要将变量标准化即可实现)。
② 是不可测的向量,其均值向量 ,协方差矩阵 ,即向量的各分量是相互独立的。
③ 与 相互独立,且 的协方差阵 对角阵,即各分量 之间是相互独立的。
④ 。
⑤ 即 和 是不相关的。
⑥ ,即 不相关,且方差均为1。
,即 不相关,且方差不同,分别 , , 。
我们把 称为 的公共因子或潜在因子,矩阵 称为因子载荷矩阵, 称为 的特殊因子。 为因子载荷。数学上可以证明,因子载荷 就是第 个变量与第 个因子的相关系数,反映第 个变量在第 个因子上的重要性。

(二)因子分析的步骤
(1)确认待分析的原变量是否适合作因子分析。
(2)构造因子变量。
(3)利用旋转方法使因子变量更具有可解释性。
(4)计算因子变量得分。

(三)因子分析的计算过程
(1)将原始数据进行标准化处理,即将统一变量减去其均值再除以标准差,以消除量纲的影响,记为 。
(2)计算相关系数据矩阵 。
(3)求相关系数矩阵 的特征向量 和特征值 。
(4)计算方差贡献率与累计贡献率。
(5)确定公共因子的个数,设 为 个因子,其中前 个因子包含的数据信息总量(即其累计贡献率 )不低于80%时,可取前 个因子来反映原评价指标。
(6)因子旋转:若所得的 个因子无法确定或其实际意义不是很明显,这时需要将因子进行旋转以获得较为明显的实际含义的新的因子载荷矩阵 。
(7)用原指标的线性组合来求各因子得分:采用回归估计法、Bartlet ……(未完,全文共31368字,当前仅显示5642字,请阅读下面提示信息。收藏《毕业论文:多元统计分析及其应用——2010年我国各省份电信业发展水平的分析及应用》