Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の睡眠・食事・仕事の平均時間データの分析1 - R言語でデータを読み込む

今回から、都道府県別の睡眠時間、食事時間、仕事時間の平均値のデータを分析しようと思います。

データは、政府統計の総合窓口、e-stat.go.jp から取得しました。

www.e-stat.go.jp取得したデータ項目は以下のとおりです。

f:id:cross_hyou:20200517083258j:plain

これをExcelにダウンロードします。

f:id:cross_hyou:20200517083816j:plain

こんな感じのデータです。

このCSVファイルをR言語で読み込んで分析をします。

 

read.csv関数でCSVファイルを読み込み、na.omit関数でNAのある行を削除して、str関数でデータの構造を確認します。

f:id:cross_hyou:20200517084611j:plain

94行のデータです。47都道府県ありますから2年分のデータですね。

as.factor関数でYearをファクター型に変換してから、summary関数でdataのサマリーを見てみます。

f:id:cross_hyou:20200517084940j:plain

2006年度と2011年度の2年分のデータがあります。

個々のデータのバラツキ具合を見ようと思います。hist関数で分布を見てみます。

f:id:cross_hyou:20200517085632j:plain

f:id:cross_hyou:20200517085649j:plain

Popu, Area, Incomeは右の裾野が広がっている歪んだ分布になっています。そのほかのデータは概ね左右対称ですね。

Popu, Area, Incomeを対数変換した変数を作成します。log関数を使います。

f:id:cross_hyou:20200517090512j:plain

この3つの変数のヒストグラムを描いてみます。

f:id:cross_hyou:20200517090826j:plain

f:id:cross_hyou:20200517090839j:plain

対数変換したほうが分布の山の頂点が真ん中よりになりました。

boxplot関数で箱ひげ図を描いてみましょう。

f:id:cross_hyou:20200517091645j:plain

f:id:cross_hyou:20200517091701j:plain

変動係数を計算しましょう。変動係数は、標準偏差 / 平均値です。

f:id:cross_hyou:20200517092040j:plain

function(x) round(sd(x) / mean(x), 3)の部分で小数点以下3桁までの変動係数を計算する関数を作成しています。それをsapply関数でdata[ , -c(1, 2)]について実行し、実行した結果をsort関数で小さい順に並べています。女性の睡眠時間が一番変動が少なく、男性の睡眠時間、男性の食事時間、女性の食事時間と続きます。女性の仕事時間は結構変動が大きいですね。

今回は以上です。