の続きです。前回は都道府県別の10年間の平均値をtapply関数を使って算出しました。
せっかくなので、グラフにしてどのようなデータ分布なのか見てみます。
まずは、いっぺんに三つのグラフを描く関数を作ります。
小さい順に並べたグラフ、ヒストグラム、箱ひげ図をいっぺんに描きます。
赤い線で平均値、青い線で中央値を表示します。それでは老人福祉費を見てみます。
金額の大きい複数の都道府県があることがわかります。
次は児童福祉です。
社会福祉費と同じような形状ですね。
総人口を見てみます。
総人口も同じようにヒストグラムの裾野が右に広がっています。
総面積を見てみます。
面積は、北海道が桁違いに大きいことがわかります。
県内総生産はどうでしょうか?
県内総生産は東京都がダントツで、2番手グループに大阪、愛知、神奈川があります。
5つの変数がすべて分布の裾野が右側に広がっていますので、対数変換して分布の形状を左右対称に近づけましょう。
log関数で10を底数にして変換しました。すこし分布形状が左右対称に近づきました。
児童福祉費も定数変換します。
こちらも分布の峰が中央よりに移動しました。
総人口も対数変換します。
総面積を対数変換します。
対数をとっても北海道の面積はけた違いですね。
県内総生産の対数をとります。
北海道の面積ほどではないですが、東京の県内総生産も突出していますね。
今回はここまでです。
ここで、いままで作成してきたオブジェクトをls関数で確認しておきましょう。
avgAreaは10年間平均の都道府県別の総面積
avgChildは10年間平均の都道府県別の児童福祉費
avgGDPは10年間平均の都道府県別の県内総生産
avgOldは10年年間平均の都道府県別の老人福祉費
avgPopは10年間平均の都道府県別の総人口
df1は生データ
df2は生データからNA行を削除したデータフレーム
graphは3つのグラフをいっぺんに描く関数
logAreaは10年間平均総面積を対数変換したもの
logChildは10年年間平均児童福祉費を対数変換したもの
logGDPは10年間平均県内総生産を対数変換したもの
logOldは10年間平均老人福祉費を対数変換したもの
logPopは10年間平均総人口を対数変換したもの
です。