Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の教育用PC1台当り生徒数の分析１ - 基本統計量。佐賀県は高校生一人にPC1台を達成。千葉県は9.3人にPC1台。

データ分析

今回は都道府県別の教育用コンピュータ１台当りの生徒数を調べます。

政府統計の総合窓口e-Statからデータを取得します。

www.e-stat.go.jp

がe-Statのウェブサイトです。

f:id:cross_hyou:20190824151105j:plain

47都道府県を選択します。

f:id:cross_hyou:20190824151131j:plain

総人口(人), 総面積(ha), 県内総生産(百万円), 教育用コンピュータ１台当りの生徒数(高等学校)(人)を選択します。

f:id:cross_hyou:20190824151256j:plain

こんな感じのファイルをダウンロードします。7行目に変数名をいれました。

調査年はYear

総人口はPopu

総面積はArea

県内総生産額はSeis

そして1台当りの生徒数はCompにしました。

このファイルをR言語のread.csv関数で読み込んで分析していきます。

f:id:cross_hyou:20190824152256j:plain

Yearを見ると、2013年度、2014年度、2015年度の3年間のデータがあります。Compを見ると、最小値は１です。PC1台に生徒一人ということですね。恵まれた都道府県ですね。そして最大値は9.3です。PC１台に生徒9.4人です。あまり恵まれていない都道府県ですね。

どこでしょうか？

f:id:cross_hyou:20190824152813j:plain

作業に始まる前にdf2$Yearとかdf2$Popuとdf2$をあたまにつけるのが面倒なので、変数化しておきました。

それでは、恵まれた都道府県はどこかな？

f:id:cross_hyou:20190824153324j:plain

まず、indeというCompが１ならTRUE、そうじゃないならFALSEになるベクトルを用意して、PrefとYearでTRUEの位置にあるものを表示しています。

恵まれた県は2015年度の佐賀県でした！

恵まれていない県はどこでしょうか？

f:id:cross_hyou:20190824153720j:plain

恵まれていない県は2015年度の千葉県でした！

f:id:cross_hyou:20190824154328j:plain

もとのデータフレーム、df2を確認してみると、たしかに2015年度の佐賀県は1人、千葉県は9.3人です。

年度によって平均値はどうなっているでしょうか？tapply関数を使います。

f:id:cross_hyou:20190824154641j:plain

あんまりかわらないようですね。平均はPC1台に生徒5人ですね。

ANOVA分析をして、年度によって生徒数に違いがあるかどうかみてみます。

f:id:cross_hyou:20190824155018j:plain

p-valueは0.985ですから年度による違いは無いですね。

県別の生徒数の平均値を見てみましょう。

f:id:cross_hyou:20190824155242j:plain

佐賀県が一番PC1台当りの生徒数が少なく、千葉県が多いです。

平均値や中央値など調べましょう。

f:id:cross_hyou:20190824155644j:plain

最小値は1.867(佐賀県), 最大値は8.867(千葉県), 中央値は4.733, 平均値は5.025, 標準偏差は1.32, 変動係数は0.263です。

ヒストグラム、箱ひげ図、小さい順グラフを描きます。

f:id:cross_hyou:20190824160237j:plain

f:id:cross_hyou:20190824160251j:plain

hist関数でヒストグラムです。abline関数で赤い平均値の垂線と青い中央値の垂線を書きました。

f:id:cross_hyou:20190824160556j:plain

f:id:cross_hyou:20190824160613j:plain

boxplot関数で箱ひげ図です。黒い太線が中央値ですから、平均値だけabline関数で加えました。

f:id:cross_hyou:20190824161541j:plain

f:id:cross_hyou:20190824161553j:plain

sort関数で小さい順に並び替えてからplot関数でグラフを描きました。

グラフの左下、佐賀県のプロットを見ると、ダントツに値が小さいですね。

グラフの右上、千葉県のプロットですが、これもダントツに値が大きいですね。

今回は以上です。