UnsplashのShana Van Roosbroekが撮影した写真
の続きです。
前回はそれぞれの変数の分布を見るために、ヒストグラムを作成しました。
今回は2つの変数の関係性を見るために、散布図を描いてみます。
まず、l_totalとshotokuをみてみましょう。
なんとなくですが、shotokuが大きいところのほうが、l_totalも大きいような感じですね。color = setaiとして、世帯人数ごとに色分けしています。
次は、l_shoyuとshotokuです。
これもなんとなくですが、正の相関関係があるような感じです。
次は、l_noshoyuとshotokuです。
この散布図も同様ですね。
次は l_hokashoyuとshotokuです。
このまま、ggplot() + geom_point()で同じように作成してもよいのですが、ほとんど同じコードを書くのは面倒なので、散布図を作るカスタム関数を作成します。
このカスタム関数、sanpuz()でl_hokashoyuとshotokuの散布図を描いてみます。
これも、なんとなく正の相関、shotokuが大きいほど、l_hokashotokuも大きい、感じです。
次は、shotokuとl_bothshoyuです。
これも、正の相関関係がある感じですね。
もう一つ、散布図を描いてみます。これは、土地を所有していない世帯、noshoyuと居住している土地と居住していない土地の両方を所有している世帯、both_shoyuの比率と一人当たりの県民所得の散布図です。
まず、mutate()関数で比率の変数を作成します。
ヒストグラムで分布形状を確認します。
これはまた、右側にスキューしている分布ですね。。自然対数変換値を作成しましょう。
これで正規分布に近くなりました。
それでは、このl_nobothとshotokuの散布図を描いてみます。
これも、なんとくですが、正の相関関係があるようです。
今回は以上です。
次回は、
です。
初めから読むには、
です。