www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の世帯土地統計のデータの分析２ - Rのggplot() + geom_histogram()関数で各変数のヒストグラムを描く。

データ分析

UnsplashのGuillaume Chabrolが撮影した写真

www.crosshyou.info

の続きです。

前回はデータのCSVファイルをRにインポートしました。

まず、skimrパッケージのskim()関数で各変数の基本統計量を一覧します。

282行、10列のデータフレームで、文字列型の変数が2つ、数値型の変数が8個です。

文字列型変数のうち、prefは47種類、setaiは6種類の値があります。

shoyuからbothshoyuの4つの土地所有の世帯数ですが、平均値を比べると、shoyuが一番多いようです。

summary()関数でも基本統計量を算出してみます。

次は、グラフをいくつか作成して、どんな感じのデータなのかを確認しましょう。

ggplot()関数とgeom_histogram()関数でヒストグラムを描きます。

totalのヒストグラムから描きます。

左側に分布が集中していますね。自然対数に変換してヒストグラム描いてみます。

自然対数に変換したtotalのほうが分布の形状が正規分布に近いですね。

自然対数のtotalを変数として追加しておきます。

次は、shoyuのヒストグラムです。

これも左側に分布が集中しています。

自然対数に変換したヒストグラムを描いてみます。

shoyuも自然対数に変換したほうが正規分布に近くなりますね。

自然対数に変換した変数を追加します。

次は、noshoyuのヒストグラムです。

noshoyuも自然対数変換値のほうがよさそうです。ヒストグラムを描いてみます。

自然対数変換値したほうが正規分布に近くなっています。noshoyuの自然対数変換値も追加しておきます。

次は、hokashoyuです。

hokashoyuも左側に分布が集中しています。自然対数変換値のヒストグラムを確認しましょう。

hokashoyuも自然対数変換したほうが正規分布に近くなりますね。

自然対数変換値を変数として追加しておきます。

次は、bothshoyuのヒストグラムです。

bothshoyuも左側に分布が集中しています。自然対数変換値にしてヒストグラムを描いてみます。

bothshoyuも自然対数に変換したほうが正規分布に近くなります。

自然対数変換値を新たな変数として追加します。

最後はshotokuのヒストグラムです。

これはちょっと微妙ですね。。一番右の値、おそらく東京都の値だと思いますが、これを除けば、正規分布に近いような気がします。

東京都を除いてヒストグラムを描いてみます。

東京都を除くと、正規分布に近い分布になりますね。

東京都の時は、1、そうでないときは0のダミー変数を作成しておきましょう。

最後に自然対数変換値の変数の基本統計量をみてみましょう。

select()関数の中で、starts_with()関数で"l_"で始まる変数だけを選択して、summary()関数で基本統計量を出しました。

今回は以上です。

次回は、

www.crosshyou.info

です。

初めから読むには、

www.crosshyou.info

です。

ランキング参加中