因子分析(factor analysis)

在前天的presentation里面,我颇费笔墨地讲解了factor analysis(因子分析)。那么这种统计方法的定义是,为了研究观测到的变量(指标)之间的结构关系,同时把大量观测到的变量减少到少数几个因子。变量之间的结构关系,是通过变量变化程度(方差)体现出来的。

公式表达是-

一个n维空间

其中, Y是变量(一般是向量形式),是表示指标和因子之间的关系(矩阵),F是一系列因子的方程。

 

 

 

 

因子分析的定义并不是那么好懂,通常可以通过把这个方法生活化的方法解释。从咱们中国科学院国家健康研究课题组画出彪悍结构图想到的例子:

比较几个城市的健康状况,有三个项目- 残疾人所占比率 (残疾人数/100,000该地区居民总数),抑郁症比例(抑郁症人数/100,000该地区居民总数),急诊率(急诊次数/100,000该地区居民总数)。城市健康 本身无法直接测量,那么就可以综合这三个指标来估计。使用一个综合因子最大的好处就是,不用逐一比较各个指标,而可以比较这一组综合数据。

最简单的方法就是把这几个数据直接相加,那个城市的数值大,那个城市健康状况差。但是,变量能够直接相加的前提至少有两个,第一个是这三个变量权重上无区别。多1%的残疾人相当于多1%的抑郁症。第二是在多维世界中,这四个变量在一条直线上。如果几个变量有区别,比如残疾比急诊需要更多的资金和人力投入,那么残疾这一项应该被给予更高的权重;如果三个变量不在一条直线上,但是这三个指标确实相关,那么应该考虑把它们在某个方向的投影相加。即使这样加出来的不是观测到的分数,但是却能更准确衡量不同地区综合健康状况的差别。

 

 

 

 

 

 

 

 

 

 

 

这个 例子把因子分析生活化了,还可以把这套方法形象化了。比如说,抬头看到天空中一串氢气球。观察这些气球漂动的方向距离和速度,发现晃来晃去忽上忽下的大致都是往一个方向走的,速度也差不太多。那么可以推测这不是心动不是秋冬而是风动,而且应该能从气球的速度方向上,判断出风速度和方向。这气球就是所谓的变量,风要找出来的因子。

故此,这方法的哲学化就是通过现象看本质。相关现象必分享一些相关的本质。当现象高度相关的时候,起决定性本质就可能只有一个。

一线实战家总是先观察到了一些非常具体形象的东西,最容易理解也最容易忽视。当观察到的类似的具体形象多了,二线分析家们发现,其中有规律可循,这些规律也用于一些不具体不形象的问题中。三线建模家们就会去掉生活的毛边,把精髓凝炼,用数学公式表达出来。最后各线的顶级专家们讨论出一个付诸万物而皆准定义。定义完了发现,道理已经被哲学家们说了百年。

One thought on “因子分析(factor analysis)

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>