の続きです。
まず、年度が何年と何年だったか確認します。
2010年度と2015年度の2か年でした。
この2か年の平均値を都道府県ごとに作成してみましょう。一つ一つの変数に対して、tapply関数で処理するのではなく、tapply関数の処理をlapply関数でいっぺんにやってしまいます。
この1行で実行できます。
sort(tapply(x, df$Pref, mean))という処理をfunction関数で定義して、それをlapply関数でデータフレームの3行目からいっぺんに実行します。
結果はこちら。
人口は上のようになります。鳥取県、島根県、高知県が人口が少なく、東京都、神奈川県、大阪府が多いです。
昼夜間人口比率は上のようになります。埼玉県、千葉県、奈良県は昼間の人口が夜の人口よりもかなり低いですね。東京や大阪に通勤しているのでしょうね。東京都、大阪府、京都府が昼夜間比率上位です。以外だったのが北海道、昼間の人口のほうが少ないです。
面積は上のとおりです。香川県、大阪府、東京都が小さい面積、北海道、岩手県、福島県が大きい面積の都道府県です。
年間平均気温は上のとおりです。北海道、岩手県、青森県が低く、沖縄県、鹿児島県、宮崎県が高いです。
課税所得は上のようになりました。鳥取県、高知県、島根県が少なく、東京都、神奈川県、愛知県が多いです。
食料自給率(カロリーベース)は上のようになります。神奈川県、大阪府、東京都は0.0%です。北海道、秋田県、山形県が高いです。
lapply関数とtapply関数をつかって、2010年と2015年の都道府県ごとの平均値のデータフレームを作ります。
1行目でtapply関数とlapply関数で都道府県ごとの平均値のリストを作り、
2行目でリストをデータフレームに転換しています。
3行目で都道府県の変数を追加しています。
4行目でデータフレームの行名を削除しています。
5行目でデータフレームの始めの6行を表示しています。
boxplot関数とscale関数をつかって、各変数の箱ひげ図を描きます。
各変数の数値のレンジが違うので、scale関数で標準化してからboxplot関数で箱ひげ図にしました。一番、値がとびぬけているのは、Areaの外れ値、つまり北海道の面積です。
for関数とhist関数を使って、各変数のヒストグラムを描きます。
どの変数も正規分布の形状ではないですね。
同じようにして、小さい順に並び替えたグラフも描きます。
同じようにして、Q-Q plotも描きましょう。qqnorm関数とqqline関数を使います。
各変数の散布図マトリックスを描きます。pairs関数を使いました。
あまり相関はなさそうです。
cor関数で相関係数マトリックスを描きます。
PopuとIncomeの相関係数が0.980で一番たかいですね。Calとの相関係数に注目すると、Area, DayNigh, Popu, Income, Tempの順番で相関係数が1から-1に近くなっています。
変動係数(CV)を計算します。変動係数は、標準偏差 / 平均値です。sd(x) / mean(x)という関数をfunction(x)で定義して、sapply関数で処理しました。
変動係数の高い順に並べると、Area, Income, Popu, Cal, Temp, DayNightになります。
今回は以上です。