
UnsplashのGuillaume Chabrolが撮影した写真
の続きです。
前回はデータのCSVファイルをRにインポートしました。
まず、skimrパッケージのskim()関数で各変数の基本統計量を一覧します。

282行、10列のデータフレームで、文字列型の変数が2つ、数値型の変数が8個です。
文字列型変数のうち、prefは47種類、setaiは6種類の値があります。
shoyuからbothshoyuの4つの土地所有の世帯数ですが、平均値を比べると、shoyuが一番多いようです。
summary()関数でも基本統計量を算出してみます。
次は、グラフをいくつか作成して、どんな感じのデータなのかを確認しましょう。
ggplot()関数とgeom_histogram()関数でヒストグラムを描きます。
totalのヒストグラムから描きます。


左側に分布が集中していますね。自然対数に変換してヒストグラム描いてみます。


自然対数に変換したtotalのほうが分布の形状が正規分布に近いですね。
自然対数のtotalを変数として追加しておきます。

次は、shoyuのヒストグラムです。


これも左側に分布が集中しています。
自然対数に変換したヒストグラムを描いてみます。


shoyuも自然対数に変換したほうが正規分布に近くなりますね。
自然対数に変換した変数を追加します。

次は、noshoyuのヒストグラムです。


noshoyuも自然対数変換値のほうがよさそうです。ヒストグラムを描いてみます。


自然対数変換値したほうが正規分布に近くなっています。noshoyuの自然対数変換値も追加しておきます。

次は、hokashoyuです。


hokashoyuも左側に分布が集中しています。自然対数変換値のヒストグラムを確認しましょう。


hokashoyuも自然対数変換したほうが正規分布に近くなりますね。
自然対数変換値を変数として追加しておきます。

次は、bothshoyuのヒストグラムです。


bothshoyuも左側に分布が集中しています。自然対数変換値にしてヒストグラムを描いてみます。


bothshoyuも自然対数に変換したほうが正規分布に近くなります。
自然対数変換値を新たな変数として追加します。

最後はshotokuのヒストグラムです。


これはちょっと微妙ですね。。一番右の値、おそらく東京都の値だと思いますが、これを除けば、正規分布に近いような気がします。
東京都を除いてヒストグラムを描いてみます。


東京都を除くと、正規分布に近い分布になりますね。
東京都の時は、1、そうでないときは0のダミー変数を作成しておきましょう。

最後に自然対数変換値の変数の基本統計量をみてみましょう。

select()関数の中で、starts_with()関数で"l_"で始まる変数だけを選択して、summary()関数で基本統計量を出しました。
今回は以上です。
次回は、
です。
初めから読むには、
です。