今回は、都道府県別の趣味・娯楽時間のデータを分析してみたいと思います。
政府統計の総合口(e-stat)からデータを取得します。
www.s-stat.go.jp
ですね。
度道府県別の人口増減率、1人当り県民所得、趣味・娯楽の平均時間(4種類ありました。男性/女性と有業者/無業者で区分されています。)
これをダウンロードすると、下のようなExcelファイルになります。
9行目は私がRで読み込むときの変数名として挿入した行です。
それではこのファイルをread.csv関数でR言語に読込みます。
read.csv関数でR言語にデータを取り込み、na.omit関数でNAのある行を削除し、str関数で構造を確認し、summary関数でデータのサマリを表示しました。
str関数で、94 obs. of 8 variables とありますので、94 x 8 のデータフレームです。
summary関数でYearを見ると、2006年度と2011年度は47とあって、他は0なので、このデータフレームは、2006年と2011年の2時点のデータということがわかります。
Yearはファクタになっています。2011年や1976年などの必要のないファクタ水準を削除しましょう。
as.factor関数でデータ型を文字列型に変換して、as.factor関数でファクタ型に戻しますとファクタ型がデータが存在しないファクタ水準が整理できます。summary関数、levels関数で見てみると、2006年度と2011年度しかファクタ水準がないことがわかります。
それでは、もう一度、趣味・娯楽の平均時間を見てみましょう。
summary関数を、df1[ , 5:8]に適用して趣味・娯楽の平均時間のデータだけを表示しました。平均値に注目すると、男性の有業者は、40.87分、男性の無業者は74.85分、女性の有業者は27.14分、時世の無業者は43.56分でした。男性のほうが、趣味・娯楽の時間が長いということでした。これは私にとっては意外でした。
有業者、無業者の観点で見ると、有業者のほうが時間は短く、無業者のほうが長いという結果です。これは意外ではありませんでした。
それぞれの変数の変動係数(CV)を計算しましょう。変動係数は、標準偏差 / 平均値 で計算します。
apply関数でdf1の5列目から8列目を一度に処理しています。sd関数が標準偏差、mean関数が平均値を計算する関数です。
一番変動係数が大きいのはFWork, 女性の有業者です。一番低いのはFFree, 女性の無業者です。
今回は以上です。