今回から、都道府県別の睡眠時間、食事時間、仕事時間の平均値のデータを分析しようと思います。
データは、政府統計の総合窓口、e-stat.go.jp から取得しました。
www.e-stat.go.jp取得したデータ項目は以下のとおりです。
これをExcelにダウンロードします。
こんな感じのデータです。
このCSVファイルをR言語で読み込んで分析をします。
read.csv関数でCSVファイルを読み込み、na.omit関数でNAのある行を削除して、str関数でデータの構造を確認します。
94行のデータです。47都道府県ありますから2年分のデータですね。
as.factor関数でYearをファクター型に変換してから、summary関数でdataのサマリーを見てみます。
2006年度と2011年度の2年分のデータがあります。
個々のデータのバラツキ具合を見ようと思います。hist関数で分布を見てみます。
Popu, Area, Incomeは右の裾野が広がっている歪んだ分布になっています。そのほかのデータは概ね左右対称ですね。
Popu, Area, Incomeを対数変換した変数を作成します。log関数を使います。
この3つの変数のヒストグラムを描いてみます。
対数変換したほうが分布の山の頂点が真ん中よりになりました。
boxplot関数で箱ひげ図を描いてみましょう。
変動係数を計算しましょう。変動係数は、標準偏差 / 平均値です。
function(x) round(sd(x) / mean(x), 3)の部分で小数点以下3桁までの変動係数を計算する関数を作成しています。それをsapply関数でdata[ , -c(1, 2)]について実行し、実行した結果をsort関数で小さい順に並べています。女性の睡眠時間が一番変動が少なく、男性の睡眠時間、男性の食事時間、女性の食事時間と続きます。女性の仕事時間は結構変動が大きいですね。
今回は以上です。