今回は都道府県別の教育用コンピュータ1台当りの生徒数を調べます。
政府統計の総合窓口e-Statからデータを取得します。
www.e-stat.go.jp
がe-Statのウェブサイトです。
47都道府県を選択します。
総人口(人), 総面積(ha), 県内総生産(百万円), 教育用コンピュータ1台当りの生徒数(高等学校)(人)を選択します。
こんな感じのファイルをダウンロードします。7行目に変数名をいれました。
調査年はYear
総人口はPopu
総面積はArea
県内総生産額はSeis
そして1台当りの生徒数はCompにしました。
このファイルをR言語のread.csv関数で読み込んで分析していきます。
Yearを見ると、2013年度、2014年度、2015年度の3年間のデータがあります。Compを見ると、最小値は1です。PC1台に生徒一人ということですね。恵まれた都道府県ですね。そして最大値は9.3です。PC1台に生徒9.4人です。あまり恵まれていない都道府県ですね。
どこでしょうか?
作業に始まる前にdf2$Yearとかdf2$Popuとdf2$をあたまにつけるのが面倒なので、変数化しておきました。
それでは、恵まれた都道府県はどこかな?
まず、indeというCompが1ならTRUE、そうじゃないならFALSEになるベクトルを用意して、PrefとYearでTRUEの位置にあるものを表示しています。
恵まれた県は2015年度の佐賀県でした!
恵まれていない県はどこでしょうか?
恵まれていない県は2015年度の千葉県でした!
もとのデータフレーム、df2を確認してみると、たしかに2015年度の佐賀県は1人、千葉県は9.3人です。
年度によって平均値はどうなっているでしょうか?tapply関数を使います。
あんまりかわらないようですね。平均はPC1台に生徒5人ですね。
ANOVA分析をして、年度によって生徒数に違いがあるかどうかみてみます。
p-valueは0.985ですから年度による違いは無いですね。
県別の生徒数の平均値を見てみましょう。
佐賀県が一番PC1台当りの生徒数が少なく、千葉県が多いです。
平均値や中央値など調べましょう。
最小値は1.867(佐賀県), 最大値は8.867(千葉県), 中央値は4.733, 平均値は5.025, 標準偏差は1.32, 変動係数は0.263です。
ヒストグラム、箱ひげ図、小さい順グラフを描きます。
hist関数でヒストグラムです。abline関数で赤い平均値の垂線と青い中央値の垂線を書きました。
boxplot関数で箱ひげ図です。黒い太線が中央値ですから、平均値だけabline関数で加えました。
sort関数で小さい順に並び替えてからplot関数でグラフを描きました。
グラフの左下、佐賀県のプロットを見ると、ダントツに値が小さいですね。
グラフの右上、千葉県のプロットですが、これもダントツに値が大きいですね。
今回は以上です。