今回は、政府統計の総合窓口から、都道府県別の1次活動の平均時間と県内総生産額のデータを分析してみます。
1次活動というのは、
www.e-stat.go.jpにありますが、睡眠、身の回りの用事、食事の時間です。
こんな感じでデータをサイトから取得しました。R言語のread.csv関数で読み込み分析していきましょう。
NAの行がたくさんあるので、na.omit関数でNAの行を削除してしまいましょう。
はじめは、611 obsだったのが、94 obsとなってNAの行がなくなっています。
Yearのファクタ水準がそのままですので、as.charcter関数で文字型にしてから、as.factor関数でもう一度ファクタにします。
Yearの水準が2つに減りました。2006年度と2011年度の2つですね。
summary関数で各変数の基本統計量をみてみましょう。
Prodは県内生産額で単位は百万円です。最低は169億1800万円、最高は5251億0600万円、平均は916億5500万円です。1次活動平均時間は男性の平均は636分、女性の平均は645分です。
男性と女性で活動時間に違いはあるか?
2006年と20011年で活動時間に違いはあるか?
県内生産額と活動時間に関係はあるか?
の3点を調べてみようと思います。
まず、男性の活動時間と女性の活動時間の分散を比較します。var.test関数です。
p-value = 0.04198と0.05よりも小さいので、男性の活動時間の分散と女性の活動時間の分散は違いがあります。
var関数でそれぞれの分散をみてみましょう。
女性のほうがバラツキが小さいですね。
hist関数でヒストグラムを描いてみましょう。
ヒストグラムは、615から665まで5刻みですね。女性のヒストグラムも同じ刻みで描きましょう。
ヒストグラムを見ると、女性のほうが活動時間が長いですね。
Wilcox Rank-sum testで男性の1次活動時間と女性の1次活動時間に違いがあるかどうか調べてみます。
p-value < 2.2e-16と0.05よりもはるかに小さい値ですので、男性の1次活動平均時間と女性の1次活動平均時間には有意な差がある、ということです。
次は、2006年度と2011年度で活動時間に違いがあるかどうかを調べます。
まずは、男性と女性の活動時間の平均値を計算しましょう。
平均は641時間です。tapply関数を使って年度ごとの平均値を計算しましょう。
2006年度は639分、2011年度は642分と3分の違いがあります。あんまり変わりはないですね。
var.test関数で分散に違いがあるか確認します。
p-value = 0.4359と0.05よりも大きいので分散に違いは無いと言えます。
分散に違いは無いので、t.test関数で2006年の活動時間と2011年の活動時間の平均値を検定します。
p-value = 3.991e-07と0.05よりも小さいので、2006年度と2011年度では違いがあるということです。たかが3分、されど3分、2011年度のほうが2006年度よりも1次活動の時間は伸びました。
県内生産額と1次活動時間に関係はあるでしょうか?plot関数で散布図を描いてみます。
県内生産額を対数にして散布図を描いでみましょう。
微妙に右肩上がりのような気がしますがどうでしょうか?
cor.test関数で相関関係があるかどうか検定してみましょう。
p-vale = 0.04695と0.05より小さいので相関関係はあります。相関係数は0.2054706なので弱い正の相関です。
lm関数でモデルを作ってみましょう。
p-value = 0.04583なので0.05よりも小さいのでモデルは有意です。しかし、切片項しか有意ではないです。2乗項をはずしてみましょう。
p-value = 0.04695で0.05以下なので有意なモデルです。logProdの係数は、5.497でp値は0.047と0.05よりも小さいので有意です。
あ、年度を追加してみましょう。
p-value = 0.01857と0.05よりも小さいので有意なモデルです。
logProdの係数、df$Year2011年度の係数のp値は両方とも0.05なので有意です。
県内生産額が大きいと1次活動の平均時間は長くなり、2006年と2011年を比較すると、2011年度のほうが平均時間は長いです。
まとめると、男性と女性では、女性のほうが1次活動の時間は長い、2006年度よりも2011年度のほうが活動時間は長い、県内生産額が大きいほうが活動時間は長い、とおおいうことでした。
今回は以上です。