Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の活動平均時間の分析 - 睡眠、身の回りの用事、食事の時間は女性のほうが長い。

今回は、政府統計の総合窓口から、都道府県別の1次活動の平均時間と県内総生産額のデータを分析してみます。

1次活動というのは、

www.e-stat.go.jpにありますが、睡眠、身の回りの用事、食事の時間です。

f:id:cross_hyou:20190605195024j:plain

こんな感じでデータをサイトから取得しました。R言語のread.csv関数で読み込み分析していきましょう。

f:id:cross_hyou:20190605195908j:plain

NAの行がたくさんあるので、na.omit関数でNAの行を削除してしまいましょう。

f:id:cross_hyou:20190605200148j:plain

はじめは、611 obsだったのが、94 obsとなってNAの行がなくなっています。

Yearのファクタ水準がそのままですので、as.charcter関数で文字型にしてから、as.factor関数でもう一度ファクタにします。

f:id:cross_hyou:20190605200554j:plain

Yearの水準が2つに減りました。2006年度と2011年度の2つですね。

summary関数で各変数の基本統計量をみてみましょう。

f:id:cross_hyou:20190605200903j:plain

Prodは県内生産額で単位は百万円です。最低は169億1800万円、最高は5251億0600万円、平均は916億5500万円です。1次活動平均時間は男性の平均は636分、女性の平均は645分です。

男性と女性で活動時間に違いはあるか?

2006年と20011年で活動時間に違いはあるか?

県内生産額と活動時間に関係はあるか?

の3点を調べてみようと思います。

まず、男性の活動時間と女性の活動時間の分散を比較します。var.test関数です。

f:id:cross_hyou:20190605204221j:plain

p-value = 0.04198と0.05よりも小さいので、男性の活動時間の分散と女性の活動時間の分散は違いがあります。

var関数でそれぞれの分散をみてみましょう。

f:id:cross_hyou:20190605204847j:plain

女性のほうがバラツキが小さいですね。

hist関数でヒストグラムを描いてみましょう。

f:id:cross_hyou:20190605205059j:plain

f:id:cross_hyou:20190605205116j:plain

ヒストグラムは、615から665まで5刻みですね。女性のヒストグラムも同じ刻みで描きましょう。

f:id:cross_hyou:20190605205511j:plain

f:id:cross_hyou:20190605205525j:plain

ヒストグラムを見ると、女性のほうが活動時間が長いですね。

Wilcox Rank-sum testで男性の1次活動時間と女性の1次活動時間に違いがあるかどうか調べてみます。

f:id:cross_hyou:20190605210034j:plain

p-value < 2.2e-16と0.05よりもはるかに小さい値ですので、男性の1次活動平均時間と女性の1次活動平均時間には有意な差がある、ということです。

次は、2006年度と2011年度で活動時間に違いがあるかどうかを調べます。

まずは、男性と女性の活動時間の平均値を計算しましょう。

f:id:cross_hyou:20190605210601j:plain

平均は641時間です。tapply関数を使って年度ごとの平均値を計算しましょう。

f:id:cross_hyou:20190605210804j:plain

2006年度は639分、2011年度は642分と3分の違いがあります。あんまり変わりはないですね。

var.test関数で分散に違いがあるか確認します。

f:id:cross_hyou:20190605211134j:plain

p-value = 0.4359と0.05よりも大きいので分散に違いは無いと言えます。

分散に違いは無いので、t.test関数で2006年の活動時間と2011年の活動時間の平均値を検定します。

f:id:cross_hyou:20190605211648j:plain

p-value = 3.991e-07と0.05よりも小さいので、2006年度と2011年度では違いがあるということです。たかが3分、されど3分、2011年度のほうが2006年度よりも1次活動の時間は伸びました。

県内生産額と1次活動時間に関係はあるでしょうか?plot関数で散布図を描いてみます。

f:id:cross_hyou:20190605212157j:plain

f:id:cross_hyou:20190605212214j:plain

県内生産額を対数にして散布図を描いでみましょう。

f:id:cross_hyou:20190605212529j:plain

f:id:cross_hyou:20190605212540j:plain

微妙に右肩上がりのような気がしますがどうでしょうか?

cor.test関数で相関関係があるかどうか検定してみましょう。

f:id:cross_hyou:20190605212828j:plain

p-vale = 0.04695と0.05より小さいので相関関係はあります。相関係数は0.2054706なので弱い正の相関です。

lm関数でモデルを作ってみましょう。

f:id:cross_hyou:20190605213532j:plain

p-value = 0.04583なので0.05よりも小さいのでモデルは有意です。しかし、切片項しか有意ではないです。2乗項をはずしてみましょう。

f:id:cross_hyou:20190605213851j:plain

p-value = 0.04695で0.05以下なので有意なモデルです。logProdの係数は、5.497でp値は0.047と0.05よりも小さいので有意です。

あ、年度を追加してみましょう。

f:id:cross_hyou:20190605214218j:plain

p-value = 0.01857と0.05よりも小さいので有意なモデルです。

logProdの係数、df$Year2011年度の係数のp値は両方とも0.05なので有意です。

県内生産額が大きいと1次活動の平均時間は長くなり、2006年と2011年を比較すると、2011年度のほうが平均時間は長いです。

まとめると、男性と女性では、女性のほうが1次活動の時間は長い、2006年度よりも2011年度のほうが活動時間は長い、県内生産額が大きいほうが活動時間は長い、とおおいうことでした。

今回は以上です。