Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の食料費・住居費・被服及び履物費のデータ分析7 - R言語でPrincipal Component Analysis

 

www.crosshyou.info

 の続きです。

今回は、Principal Component Analysisというのをやってみます。これは、explanatory variablesが多いときに数を減らすのに使うらしいです。

prcomp関数でできるそうです。

f:id:cross_hyou:20200508133140j:plain

Food, Houseなどの変数からPC1、PC2などの変数を作りました。

str関数で構造を確認します。

f:id:cross_hyou:20200508133429j:plain

上の表は、rotationという名前で格納されているようです。round関数で小数点以下3桁までで表示してみます。

f:id:cross_hyou:20200508133615j:plain

PC1は、0.0168 x Food - 0.0007 x House + 0.049 x Wear + 0.9998 x perIncome + 0.0000 x logMitssudoということです。
PC1はperIncomeが一番大きい比率ですね。PC2はHouseが一番大きい比率(マイナス)ですが。PC2は1人当り課税所得が高いと、PC2は住居費が低いと値が大きくなります。

PC1とPC2を計算してみます。

f:id:cross_hyou:20200508133834j:plain

plot関数とtext関数で散布図を描きます。

f:id:cross_hyou:20200508134344j:plain

f:id:cross_hyou:20200508134406j:plain

東京都は右下の隅っこにいます。1人当りの課税所得が大きく、住居費が大きいということですね。1人当りの課税所得は多いほうがいいでしょうし、住居費は少ないほうがいいでしょうから、このグラフでいうと、右上にいるほど、良い都道府県と言えるのかな?

今回は以上です。