UnsplashのGuillaume Chabrolが撮影した写真
の続きです。
前回はデータのCSVファイルをRにインポートしました。
まず、skimrパッケージのskim()関数で各変数の基本統計量を一覧します。
282行、10列のデータフレームで、文字列型の変数が2つ、数値型の変数が8個です。
文字列型変数のうち、prefは47種類、setaiは6種類の値があります。
shoyuからbothshoyuの4つの土地所有の世帯数ですが、平均値を比べると、shoyuが一番多いようです。
summary()関数でも基本統計量を算出してみます。
次は、グラフをいくつか作成して、どんな感じのデータなのかを確認しましょう。
ggplot()関数とgeom_histogram()関数でヒストグラムを描きます。
totalのヒストグラムから描きます。
左側に分布が集中していますね。自然対数に変換してヒストグラム描いてみます。
自然対数に変換したtotalのほうが分布の形状が正規分布に近いですね。
自然対数のtotalを変数として追加しておきます。
次は、shoyuのヒストグラムです。
これも左側に分布が集中しています。
自然対数に変換したヒストグラムを描いてみます。
shoyuも自然対数に変換したほうが正規分布に近くなりますね。
自然対数に変換した変数を追加します。
次は、noshoyuのヒストグラムです。
noshoyuも自然対数変換値のほうがよさそうです。ヒストグラムを描いてみます。
自然対数変換値したほうが正規分布に近くなっています。noshoyuの自然対数変換値も追加しておきます。
次は、hokashoyuです。
hokashoyuも左側に分布が集中しています。自然対数変換値のヒストグラムを確認しましょう。
hokashoyuも自然対数変換したほうが正規分布に近くなりますね。
自然対数変換値を変数として追加しておきます。
次は、bothshoyuのヒストグラムです。
bothshoyuも左側に分布が集中しています。自然対数変換値にしてヒストグラムを描いてみます。
bothshoyuも自然対数に変換したほうが正規分布に近くなります。
自然対数変換値を新たな変数として追加します。
最後はshotokuのヒストグラムです。
これはちょっと微妙ですね。。一番右の値、おそらく東京都の値だと思いますが、これを除けば、正規分布に近いような気がします。
東京都を除いてヒストグラムを描いてみます。
東京都を除くと、正規分布に近い分布になりますね。
東京都の時は、1、そうでないときは0のダミー変数を作成しておきましょう。
最後に自然対数変換値の変数の基本統計量をみてみましょう。
select()関数の中で、starts_with()関数で"l_"で始まる変数だけを選択して、summary()関数で基本統計量を出しました。
今回は以上です。
次回は、
です。
初めから読むには、
です。