Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の事業所数(民営)のデータ分析2 - R言語のscale関数で各変数を標準化する。

 

www.crosshyou.infoの続きです。

前回作成した人口密度や1人当りの課税所得など、分析に必要なデータだけのデータフレームを作ります。

f:id:cross_hyou:20200513114939j:plain

perIncやperS, perLの値の大きさがバラバラなので、データを標準化しようと思います。

f:id:cross_hyou:20200513115139j:plain

min-max法という標準化方法ですね。(個々のデータ - データ全体の最小値) / (データ全体の最大値 - データ全体の最小値)という計算で標準化します。最小値が0, 最大値が0になります。

sapply関数とmin関数で各変数の最小値、sapply関数とmax関数で各変数の最大値を求め、scale関数で標準化します。

summary関数でみると、どの変数も最小値が0、最大値が1になっていることがわかります。

boxplot関数で箱ひげ図を作成します。

f:id:cross_hyou:20200513115731j:plain

f:id:cross_hyou:20200513115742j:plain

 for関数とhist関数でMits, perInc, perS, perLのヒストグラムをいっぺんに描きます。

f:id:cross_hyou:20200513154020j:plain

f:id:cross_hyou:20200513154036j:plain

MitsuやperLは右の裾野が広い分布ですね。

 

pairs関数で散布図マトリックスを描きます。

f:id:cross_hyou:20200513154317j:plain

f:id:cross_hyou:20200513154331j:plain

YearはperSとだけ直線的な相関がありそうですね。

MitsuはperIncとPerLと相関がありそうです。

 

cor関数で相関係数マトリックスを見てみます。

f:id:cross_hyou:20200513154726j:plain

一番相関が強いのは、MitsuとperLです。YearとMitsuは0.000と全くの無相関です。

今回は以上です。