crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

都道府県別の趣味・娯楽の平均時間のデータ分析1 - R言語で基本統計量を算出する。男性のほうが趣味・娯楽の時間は多い。

今回は、都道府県別の趣味・娯楽時間のデータを分析してみたいと思います。

政府統計の総合口(e-stat)からデータを取得します。

f:id:cross_hyou:20200229145445p:plain

www.s-stat.go.jp

ですね。

f:id:cross_hyou:20200229145515p:plain

度道府県別の人口増減率、1人当り県民所得、趣味・娯楽の平均時間(4種類ありました。男性/女性と有業者/無業者で区分されています。)

これをダウンロードすると、下のようなExcelファイルになります。

f:id:cross_hyou:20200229145708p:plain

9行目は私がRで読み込むときの変数名として挿入した行です。

それではこのファイルをread.csv関数でR言語に読込みます。

f:id:cross_hyou:20200229150608p:plain

read.csv関数でR言語にデータを取り込み、na.omit関数でNAのある行を削除し、str関数で構造を確認し、summary関数でデータのサマリを表示しました。

str関数で、94 obs. of 8 variables とありますので、94 x 8 のデータフレームです。

summary関数でYearを見ると、2006年度と2011年度は47とあって、他は0なので、このデータフレームは、2006年と2011年の2時点のデータということがわかります。

Yearはファクタになっています。2011年や1976年などの必要のないファクタ水準を削除しましょう。

f:id:cross_hyou:20200229151111p:plain

as.factor関数でデータ型を文字列型に変換して、as.factor関数でファクタ型に戻しますとファクタ型がデータが存在しないファクタ水準が整理できます。summary関数、levels関数で見てみると、2006年度と2011年度しかファクタ水準がないことがわかります。

それでは、もう一度、趣味・娯楽の平均時間を見てみましょう。

f:id:cross_hyou:20200229151613p:plain

summary関数を、df1[ , 5:8]に適用して趣味・娯楽の平均時間のデータだけを表示しました。平均値に注目すると、男性の有業者は、40.87分、男性の無業者は74.85分、女性の有業者は27.14分、時世の無業者は43.56分でした。男性のほうが、趣味・娯楽の時間が長いということでした。これは私にとっては意外でした。

有業者、無業者の観点で見ると、有業者のほうが時間は短く、無業者のほうが長いという結果です。これは意外ではありませんでした。

それぞれの変数の変動係数(CV)を計算しましょう。変動係数は、標準偏差 / 平均値 で計算します。

f:id:cross_hyou:20200229152502p:plain

apply関数でdf1の5列目から8列目を一度に処理しています。sd関数が標準偏差、mean関数が平均値を計算する関数です。

一番変動係数が大きいのはFWork, 女性の有業者です。一番低いのはFFree, 女性の無業者です。

今回は以上です。