お金と数字と温泉を考えるブログ

お金と数字と温泉を考えています。

因子分析その①~回転まで

因子分析は準1級で出題が無いですが出る可能性があるため記載いたします。

因子分析について
因子分析は、ある観測された変量に対して背後に潜む因子(共通因子)を探す分析、だと考えています。
因子分析でしばしば利用されるデータが、生徒の成績データ(国、数、英、理、社)です。
各生徒の成績が、背後のどのような要因によって決定されているのかを因子分析によって明らかにします。
(既に多くの同様例で分析されているもので、因子としては文系能力と理系能力の2種類で主に説明されることが分かっています。
当たり前といえば当たり前なのですが。)

データについて
統計教育推進委員会が良いデータを提供してくれていました。
データで学ぶ!統計活用授業のための教材サイト:スポーツ
本データを見やすいように加工して分析を進めてみます。

Rを使った因子分析
Rには親切なことに因子分析のパッケージがあるので、それで簡単に分析できます。

score<-read.csv("C:…score.csv")
fa<-factanal(score[,-1],factors=2,rotation="none")
fa

f:id:umejiro330:20180401122344p:plain
各項目について
・Uniquenesses…共通因子によって説明できなかった部分。これを独自性と呼びます。
ちなみにRの出力では記載されていませんが、観測された変量が共通因子で説明できた割合(1-独自性)を共通性と呼びます。
どうやら英語の成績は文系・理系の能力だけでは説明しきれなかったようです。
・Loadings…因子負荷量
共通因子に対してどの程度影響を与えているか示したもの。空欄になっているのは<0.1のためです。
どうやら因子1は数学・物理・化学の影響が大きく、因子2は国語・英語の影響が大きいようです。
・SS loadings…因子寄与
各因子の説明力。(分散の大きさ)
・propotion Var…因子寄与率
全体に占める当該因子の説明力。
・Cumultative Var…累積寄与率
第一因子から累積した、当該因子までの寄与率の合計

今回のデータではこのように特に手を加えなくても解釈可能な結果が出ましたが、多くの場合、因子負荷量が複雑になり
解釈が難しくなります。その際に因子負荷量の解釈を簡単にするのが回転という手法です。
因子分析では、与えられるのは観測された変量だけであることから、因子負荷量と共通因子、独自因子の組み合わせはいくつも存在しています。
そのため、回転を施すことで、見やすい解に変更することができます。(=回転の不定性)