Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の睡眠の平均時間のデータの分析2- Rのpivot_longer()でデータフレームを縦長に変換して、ggplot2パッケージでデータの視覚化

Generated by Bing Image Creator: Beautiful Photo of colorful landscape of green grass field, yellow and blue flowers

www.crosshyou.info

の続きです。

今回は「百聞は一見に如かず」という言葉もありますので、Rのggplot2パッケージでデータをグラフにしてみましょう。

まず、pop:人口とgdp:県内総生産額の2つのデータから、gp:一人当り県内総生産額を示す変数を作成します。

ggplot2パッケージでデータをグラフにするためには、縦長のデータフレーム構造のほうが都合がいいので、pivot_longer()関数でデータフレームの構造を変換します。

pivot_longer()関数は、cols_to = で縦に変換する変数名を指定して、names_to = でその縦に入る変数名のラベルの名前を指定し、values_to = でその縦に入る変数の値の名前を指定します。

それでは、ggplot2パッケージでデータをグラフにしましょう。

type別のsleepのヒストグラムをみてみます。

fw:有業者女子の睡眠時間が短いこと、mnw:無業者男子の睡眠時間が長いことがよくわかります。

year別のsleepはどうでしょうか?

2006年度と2011年度を比べると、2011年度のほうが少し分布が左側、睡眠時間が短くなる方向にシフトしたように見えます。統計的に有意な差なのかはちょっとわからないですね。

gp:一人当り県内総生産額とsleepの関係を散布図に描いて見てみます。まずは、type別の散布図です。

はっきりとした関係はわからない感じです。右側にgpが大きな値のものがあるので、それが邪魔している感じがします。gpをlog()関数で対数変換してから散布図にしてみます。

対数変換したgpでの散布図のほうが見やすくはなりました。しかし、log(gp)とsleepの関係はどうでしょうか?若干、log(gp)が大きなところのほうがsleppが短い時間のように見えます。

year別はどうでしょうか?

年度を分けてlog(gp)とsleepを見ました。関連性は薄い印象です。

今回は以上です。

次回は、

www.crosshyou.info

です。

初めから読むには、

www.crosshyou.info

です。