因子分析

来源：尔游网

因子分

§ 引言

析专题

因子分析是主成分分析的推广，它也是一种把多个变量化为少数几个综合变量的多元分析方法，其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。

例 Linden对二次大战以来奥林匹克十项全能比赛的得分做了分析研究，他收集了160组数据，这十个全能项目依次为：100米跑、跳远、铅球、跳高、400米跑、110米跨栏、铁饼、撑竿跳高、标、1500米跑。但是总的来说基本上可归结为他们的短跑速度、爆发性臂力、爆发性腿力和耐力这四个方面，每一个方面都称为一个因子。用

x1,x2,,x10分别表示十个项目的得分，它们可以表示为含有上述四个因子的线性模型：

xiiai1f1ai2f2ai3f3ai4f4i，i1,2,,10

aij称为第i个变量在第j个因子上的载荷。其中f1,f2,f3,f4表示4个因子，称为公因子，

i是总平均，i是第i项得分不能被四个公因子解释的部分，称之为特殊因子。这个模型形式上与线性回归模型几乎一样，但是它们有着本质的区别：回归模型中自变量是可以被观测得到的，而上述因子模型中的f1,f2,f3,f4是不可观测的隐变量，这使得该模型理解起来较为困难；再者，两个模型的参数意义也很不相同。

例为了评价高中学生将来进大学时的学习能力，抽了200名高中生进行问卷调查，共50个问题。所有这些问题可简单地归结为阅读理解、数学水平和艺术修养这三个方面。这也是一个因子分析模型，每一方面就是一个因子。

例公司老板对48名申请工作的人进行面试，并给出申请人在15个方面所得的分数，这15个方面是：（1）申请信的形式；（2）外貌；（3）专业能力；（4）讨人喜欢的能力；（5）自信心；（6）洞察力；（7）诚实；（8）推销能力；（9）经验；（10）驾驶汽车本领；（11）抱负；（12）理解能力；（13）潜力；（14）对工作要求强烈程度（15）适应性。这些问题可以归结为如下的几个方面：申请者外露的能力，讨人喜欢的程度，申请者的经验，专业能力。每一方面都是因子模型中的一个因子。

§ 因子模型

一、数学模型

设p维可观测的随机向量x(x1,x2,,xp)的均值为(1,2,,p)，协方差矩阵为(ij)，因子分析的一般模型为

其中f1,f2,,fm为公因子，1,2,,p为特殊因子，它们都是不可观测的随机变量。公因子f1,f2,,fm出现在每一个原始变量xi(i1,2,,p)的表达式中，可理解为原始变

量共同具有的公共因素；每个公因子fj(j1,2,,m)至少对两个原始变量有作用，否则它将归入特殊因子。每个特殊因子i(i1,2,,p)仅仅出现在与之相应的第i个原始变量xi

式中f(f1,f2,,fm)(mp)为公因子向量，(1,2,,p)为特殊因子向量，

A(aij):pm称为因子载荷矩阵，并假设A的秩为m。通常假定

同理易知cov(,f)EE()fE(f)E(f)0pm，注意两个协方差矩阵阶数不

一样。

由上述假定可以看出，公因子彼此不相关且具有单位方差，特殊因子彼此不相关且和公因子也不相关。

因子分析与主成分分析是多元分析中两种重要的降维方法，但两者有很大的不同。主成分分析不能作为一个模型来描述，它只能作为一般的变量变换，主成分是可观测的原始变量的线性组合；而因子分析需要构造一个因子模型，公因子一般不能表示为原始变量的线性组合。

二、因子模型的性质

1．x的协方差矩阵的分解即AAD 这就是的一个分解。如果x为标准化了的随机向量，则就是相关矩阵R(ij)pp，即有

2.模型不受单位的影响

将x的单位作变化，就是作一变换x*x，这里diag(1,2,,p)，j0，

(i1,2,,p)，于是x*x(Af)Af，令*，A*A，

f*f，*，则有

x**A*f**

（仍然为因子分析模型）

其中

***,2,,*即D*diag(1i2i2，(i1,2,,p)。 p)，i22223．因子载荷是不唯一的

设T为任意mm正交矩阵，令A*AT，f*Tf

因为

也可分解为

因此，因子载荷矩阵A不是唯一的，在实际应用中常常利用这一点，通过因子的变换，使得新的因子有更好的实际意义。

三、因子载荷矩阵的统计意义

1．A的元素aij——原始变量xi与公因子fj之间的协方差函数

xiiai1f1ai2f2aimfmi，(i1,2,,p)

故

即aij是xi与fj之间的协方差函数。若x为标准化了的随机向量，即V(xi)1，则xi与fj之间的相关系数

此时aij表示xi与fj的相关系数。

2．A的行元素平方和haij——原始变量xi对公因子依赖的程度

2ij1m令haaa2i2i12i22im2aij，(i1,2,,p)，于是 j1miihi2i2，(i1,2,,p)

hi2反映了公因子对xi的影响，可以看成是公因子对xi的方差贡献，称为共性方差；而i2ii1，是特殊因子i对xi的方差贡献，称为个性方差。当x为标准化了的随机向量时，此时有

hi2i21，(i1,2,,p)

2jp

3．A的列元素平方和gaij——公因子fj对x的贡献

i1其中

2gaij，(j1,2,,m) 2ji1p2反映了fj对x的影响越大，A的第j列元素的平方和g2j是V(fj)的系数，gj的值越大，

g2j是衡量公因子fj重要性的一个尺度，可视为公因子fj对x的贡献。

§ 参数估计

设x1,x2,,xn是一组p维样本，则和可分别估计为

1n1nxxi和S(xix)(xix)

ni1n1i1为了建立因子模型，首先要估计因子载荷矩阵A(aij):pm和个性方差矩阵

2Ddiag(12,2,,2p)。常用的参数估计方法有如下三种：主成分法，主因子法和极

大似然法。

一、主成分法

设样本协方差矩阵S的特征值依次为12p0，相应的正交单位特征向量为t1,t2,,tp。选取相对较小的主成分个数m，并使得累计贡献率达到一个较高的百分比，则S可作如下的近似分解

S1t1t12t2t2mtmtmm1tm1tm1ptptp1t111t21t1p12t122t222tp2mt1mmt2mmtpmm1t1,m1m1t2,m1m2t1,m2m2t2,m2m2tp,m2pt2ppt1pm1tp,m1ptpp1t111t211tp12t122t222tp2mt1mmt2mtmpmm1t1,m1m1t2,m1m1tp,m1m2t1,m2m2t2,m2m2tp,m2pt1ppt2ptppp1t112t12mt1m1t111t211t212t22mt2m2t122t221tp12tp2mtpmmt1mmt2mm1t1,m1m2t12pt1pm1t1,m1m1t2,m1m2t22pt2pm2t12m1tp,m1m2tp2ptpppt1p1t112t12mt1m1t111t211t212t22mt2m2t122t221tp12tp2mtpmmt1mmt2mt1t1t122t2mtmtmDˆAˆAˆDˆ易知，ˆ2misaˆ2iiij，i1,2,,p。证明如下。

j1证明：

因为SAˆAˆDˆ，即 1tp12tp2mtpmm1t2,m1m1tp,m1m2t22m2tp2pt2pptpp1tp1t2p2Dˆmtpm其中

A又因为A1,A21A1A1A2A2，即

A22ˆsiiaˆij对比等式两边，即得，i1,2,,p。

2ij1m证明完毕。

ˆ和Dˆ的第j列与S的第j个主成ˆ就是因子模型的一个解。因子载荷矩阵A这里的A分的系数向量仅相差一个倍数j（j1,2,,m），因此这个解就称为主成分解。

若p个原始变量的单位不同，则我们首先对原始变量作标准化变换，此时的样本协

ˆ，用RˆS，可类似地求得主成分的解。方差矩阵即为原始变量的样本相关矩阵R二、主因子法

主因子法是因子分析中一种最简单、最有效的方法，它已经得到了最普遍的应用。我们这里假定原始变量x已作了标准化变换。如果随机向量x满足因子模型则有，RAAD，其中R为x的相关矩阵，令

112R12212R12*即RRRp2p1 21pR1pR2p则称R*为x的约相关矩阵。易见，R*中的对角元素是hi2，而不是1，非对角元素和R中是完全一样的，并且R*是一个非负定矩阵。我们首先在相关矩阵R及个性方差矩阵

2diag(12,2,,2p)已知的条件下，求出因子载荷矩阵A。

由上一节因子模型的性质3知，A的解是不唯一的，可以有许多。主因子法就是要求得到的解能使第一个公因子f1对x的贡献gai21达到最大，第二个公因子f2对x21i12的贡献ga次之，…，第m个公因子fm对x的贡献gaim最小。

22i12i22mi1ppp由于rank(R*)rank(AA)rank(A)m，所以R*有m个正特征值，依次记为

******1*2m0，相应的正交单位特征向量为t1,t2,,tm，故R的谱分解为

其中，At,**11****2t2,,mtm



它就是我们所要求的主因子解。A中的第j列元素的平方和为

tt，即

**jj**jj*j在实际应用中，相关矩阵R和个性方差矩阵D一般都是未知的，它们可通过一组样本

x1,x2,,xn来进行估计。为了符号上的方便，我们将R（或R*）的估计值仍记为R（或

。估计个性方差i2等价于估计共性方差hi2，这是因为由hi2i21，(i1,2,,p)R*）式知

i21hi2，(i1,2,,p)

ˆ2）ˆi2i2（或hi2）的较好估计一般很难直接得到，通常是先给出它的一个初始估计（或h，i待载荷矩阵A估计好之后再作出i2（或hi2）的最终估计。

个性方差i2（或共性方差hi2）的常用初始估计方法有如下几种：

ˆ2取为原始变量x与其它原始变量x,x,,x,x,,x的复相关系数的平（1）h12i1i1piiˆ2。 ˆi21h方，则i1，其中rii是R1的对角元素。 iirˆ2maxr，则ˆ2。 ˆi21h（3）取hiijiˆi2（2）取jiˆ21，ˆ是一个主成分解。ˆi20，（4）取h则得到的A（因为此时D0，R*R） i因子的个数m应选取为多少呢？一般可采用主成分分析中确定主成分个数的原则，

即寻求一个较小的自然数m，使得

达到一个较高的百分比（比如至少达到85％）。需要指出的是，R*的部分特征值可能是负的。

***最后，取R*的前m的正特征值12m0及其相应的正交单位特征向量

**t1*,t2,,tm，可以得到近似分解式

其中

i2的最终估计为

ˆ21aˆ1hˆij2，(i1,2,,p) i2ij1m

2ˆ和Dˆdiag(ˆ12,ˆ2ˆ2我们称这样求得的A,,p)为因子模型的主因子解。

如果我们希望求得近似程度更好的解，则可以采用迭代主因子法，即利用（）式中

ˆi2再作为个性方差的初始估计，重复上述步骤，直至解稳定为止。的三、极大似然法

设公因子f~Nm(0,I)，特殊因子~Np(0,D)，且相互，则原始向量

xAf~Np(,)。样本x1,x2,,xn的似然函数为

容易知道，似然函数是,的函数。由于AAD，故似然函数可确切地表示为

ˆ,Dˆ)，即有 ˆ,AL(,A,D)。记(,A,D)的极大似然估计为(ˆ和Dˆ满足以下方程组 ˆx，而A可以证明，1nˆ其中(xix)(xix)，由于A的解是不唯一的，为了得到唯一解，可附加计算

ni1上方便的唯一性条件：

AD1A是对角矩阵

ˆ和Dˆ一般可用迭代方法解得。 A共性方差的极大似然估计为：

ˆahˆij2，i1,2,,p

2ij1m第j个因子fj对总样本方差的贡献为

ˆapsi1i1p2ij，其中sii为第i个变量的方差。

ii极大似然法在正态性假定能较好地被满足或者在大样本的情况下，能给出比主因子法更好的估计，并且有令人满意的渐进性质。极大似然法的计算量大约是主因子法的100倍，这是由于极大似然估计需要用迭代方法计算并且要试着提取不同个数的因子。实际应用中，在使用极大似然法之前，一般先使用主因子法进行分析，以便给出因子个数的初步估计。

§ 因子旋转

因子模型的参数估计完成之后，还必须对模型中的公因子进行合理的解释。进行这种解释通常需要一定的专业知识和经验，要对每个公因子给出具有实际意义的一种名称，它可用来反映在预测每个可观测的原始变量时这个公因子的重要性，也就是相应于这个

因子的载荷。因子的解释带有一定的主观性，我们常常通过旋转公因子的方法来减少这种主观性。

公因子是否易于解释，很大程度上取决于因子载荷矩阵A的元素结构。假设A是从

2hi21，故有aij1，即A的所有元素均在1和1相关矩阵R出发求得的，则aijj1m之间。如果载荷矩阵A的所有元素都接近于0或1，则模型的公因子就容易解释。这时可将原始变量x1,x2,,xp分成m个部分，第一部分对应第一个公因子f1，第二部分对应第二个公因子f2，…，第m部分对应第m个公因子fm。反之，如果载荷矩阵A的多数元素居中，不大不小，则对模型的公因子将难以作出解释，此时必须进行因子旋转，

使得旋转之后的载荷矩阵在每一列上元素的绝对值尽量拉开大小距离，也就是尽可能地使其中的一些元素接近于0，另一些元素接近于1。

因子旋转方法有正交旋转和斜交旋转两类，本书中我们只讨论正交旋转。对公因子．．．．作正交旋转就是对载荷矩阵，右乘正交矩阵T，使AT能有更鲜明实际．．．．．．．．．．．．A作一正交变换．．．．．．

*意义。旋转后的公因子向量为f*Tf，它的各分量f1*,f2*,,fm也是互不相关的公因

子。正交矩阵T的不同选取法构成了正交旋转的各种不同方法，在这些方法中使用最普遍的是最大方差旋转法（varimax），本节仅介绍这一种正交旋转法。

1p2令AAT(a)，dij，djdij，则A*的第j列元素平方的相对方差

pi1hi**ij*aij可定义为

**取aij是为了消除aij符号不同的影响，除以hi2是为了消除各个原始变量对公共因子依赖

2程度不同的影响。备注：

A*的第i行平方和hi*等于A的第i行平方和hi2，因为两个矩阵相等，对应的对角线元素当然相等，即hi*hi2。备注完毕。

所谓最大方差旋转法就是选择正交矩阵T，使得矩阵A*所有m个列元素平方的相对方差之和达到最大。

当m2时，设已求出的因子载荷矩阵为

现选取正交变换矩阵T进行因子旋转，T可以表示为

这里是坐标平面上因子轴按逆时针方向旋转的角度，只要求出，也就求出了T。

22A*各列元素平方的相对方差之和V。显然，V是旋转角度的函数，按照最大方差旋转法的原则，应求出，使V达到最大。由微积分中求极值的方法，将V对求导，并令其为零，可以推得满足

其中

Aui，Bvi，C(uv)，D2uivi

i1i1i12i2ii1pppp而

ai1ai2ai1ai2v2, ui2hhihiii22当m2时，我们可以逐次对每两个公因子进行上述的旋转。对公因子fl和fk进行旋转，就是对A的第l和k两列进行正交变换，使这两列元素平方的相对方差之和达到

最大，而其余各列不变，其正交变换矩阵为

其中是因子轴fl和fk的旋转角度，矩阵中其余位置上的元素全为0。m个公因子的两

2两配对旋转共需进行Cmm(m1)次，称其为完成了第一轮旋转，并记第一轮旋转后22的因子载荷矩阵为A(1)。然后再重新开始，进行第二轮的Cm次配对旋转，新的因子载

荷矩阵记为A(2)。如此继续旋转下去，记第s轮旋转后的因子载荷矩阵为A(s)，得到的一系列因子载荷矩阵为

A(1)，A(2)，…，A(s)，…

记V(s)为A(s)各列元素平方的相对方差之和，则必然有

这是一个有界的单调上升数列，因此一定会收敛到某一极限。在实际应用中，当V(s)的值变化不大时，即可停止旋转。

§ 因子得分

一、因子得分的概念

我们再回过来看一下因子模型xAf，设x1,x2,,xn为一组样本。在前面的讨论中，我们根据这一组样本估计出了公因子个数m、因子载荷矩阵A和个性方差矩阵D，并试图对公因子f1,f2,,fm进行合理的解释，即给出具有实际意义的名称。如果对这些公因子难以作出解释，则可以通过因子旋转的方法使得旋转后的公因子有着更鲜明的实际意义。实际上，还有一个问题是令我们非常感兴趣的，就是给出每一个个体

xi对m个公因子的得分。必须指出的是，因子得分的计算并不是通常意义下的参数估计，

而是对不可观测的随机变量f1,f2,,fm作出估计。因子模型的式子意味着这些公因子一般不是可观测原始变量x1,x2,,xp的线性组合，而是非线性组合。这些公因子的得分

是无法直接计算得到的，但它们可用各种不同的方法来进行估计。为了数学上处理的方便，人们一般还是将公因子得分的估计值表达为原始变量x1,x2,,xp的线性函数。以下我们介绍两种常用的因子得分估计方法。

二、巴特莱特（Bartlett）因子得分

其中V(i)i2，i1,2,,p。我们可以采用与求解线性回归模型相同的方法来求得因子得分f1,f2,,fm。由于p个个性方差不全相等，因此应采用加权的最小二乘法，也

ˆ,fˆ,,fˆ使得加权的“残差”平方和就是寻求f1,f2,,fm的一组取值f12mˆ,fˆ,,fˆ就称为巴特莱特因子得分。达到最小，这样求得的解f12m其中

用微积分学求极值的方法可以解得巴特莱特因子得分为

ˆ和Dˆ分别代替上述公式中的、A和D，并将每个样品在实际应用中，用估计值x、A的数据xi代入，便可得到相应的因子得分fˆ。

若将f和不相关的假定加强为相互，则在ffˆ的条件数学期望

ˆ|f)E(AD1A)1AD1(x)|fE(fE(AD1A)1AD1(Af)|f(ADA)ADAff111

（）

因此，从条件意义上来说巴特莱特因子得分fˆ是无偏的。我们再来计算反映fˆ估计精度

ˆf)(fˆf)] 的平均预报误差E[(f故

三、汤姆森（Thompson）因子得分

fx服从(mp) x给定的条件下，f的条件数学期望

或者

~f(IAD1A)1AD1(x)

（）

易知，相等。证明如下。证明：

A(AAD)1(IAD1A)1AD1，

即A(AAD)1(AAD)(IAD1A)1AD1(AAD) 即AI(IAD1A)1AD1AAAD1D) 即A(IAD1A)1AD1AAA 即A(IAD1A)1AD1AIA 即A(IAD1A)1IAD1AA

即AA 证明完毕。 ~ˆ和Dˆ分别代替上述公式中的、称f为汤姆森因子得分。在实际应用中，用估计值x、A~A和D，并将每个样品的数据xi代入，便可得到相应的因子得分f。

所以，汤姆森因子得分是有偏的。因为

~所以f的平均预报误差备注：

备注完毕。

(AD1A)1(IAD1A)1是正定矩阵，因此汤姆森因子得分比巴特莱特因子得分有更

小的平均预报误差。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文