Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別のボランティア活動行動者率の分析1 - 基本統計量 10歳以上の約3割弱がボランティア活動行動者です。

今回は、都道府県別のボランティア活動行動者率を分析してみます。

政府統計の総合窓口、www.e-stat.go.jpからデータを取得します。

f:id:cross_hyou:20190805080125j:plain

地域は47都道府県です。

f:id:cross_hyou:20190805080154j:plain

取得するデータは、総人口(人)、総面積(ha)、県内総生産額(百万円)、ボランティア活動行動者率(10歳以上)(%)です。

f:id:cross_hyou:20190805080334j:plain

こんな感じのCSVファイルです。9行目に私が変数名の列を入れました。

R言語のread.csv関数でファイルを読み込み、分析します。

f:id:cross_hyou:20190805081514j:plain

f:id:cross_hyou:20190805081533j:plain

ボランティア活動者のデータは、2006年度と2011年度の2つの年度があるようですね。

はじめに、それぞれのデータのベクトルを作成します。

f:id:cross_hyou:20190805082358j:plain

f:id:cross_hyou:20190805082416j:plain

VOLUの最小値は19.70%, 平均値は28.11%, 中央値は27.75%, 最大値は35.50%です。

まずは、年度で違いがあるか、箱ひげ図で目でみてみます。plot関数を使います。

f:id:cross_hyou:20190805082820j:plain

f:id:cross_hyou:20190805082839j:plain

2006年度、2011年度で大きな違いはなさそうですね。

hist関数でヒストグラムを描いてみます。

f:id:cross_hyou:20190805083818j:plain

f:id:cross_hyou:20190805083857j:plain

2006年度のほうが山型って感じで2011年は山というより、丘型という感じですね。

tapply関数で年度別の平均値と標準偏差を見てみます。

f:id:cross_hyou:20190805084347j:plain

2006年度の平均値は、28.16%, 2011年度は28.06%でした。分散と標準偏差は200年度のほうが大きいですね。

var.test関数で両者の分散に違いがあるといえるのか検定してみます。

f:id:cross_hyou:20190805084914j:plain

p-value = 0.8287ですので、両者の分散に違いがある、といは言えません。

両者の分散は同じと考えてよさそうなので、t.test関数で両者の平均値に違いがあるかどうかを検定します。

f:id:cross_hyou:20190805085431j:plain

p-value = 0.6776 なので、両者の平均値に違いがあるとは言えません。

ヒストグラムの形状は少し違っているように見えましたので、wilcox.test関数で分布形状のが同じかどうかを検定します。

f:id:cross_hyou:20190805090056j:plain

p-value = 0.662 なので、両者の分布形状に違いがあるとは言えません。

今回の分析では、10歳以上の人の3割弱、28%ぐらいがボランティア活動をしている、2006年度と2011年度で活動者の比率に大きな変化は無い、ということがわかりました。

今回は以上です。