今回は、各都道府県の図書館の数と図書館登録人数を調べようと思います。
政府統計の総合窓口、e-Statからデータを取得します。
総人口と図書館数と図書館登録者数です。
エクセルにこのようにデータを取得しました。
read.csv関数でR言語にデータを読込み、分析します。
事前のCSVファイルを眺めたのですが、図書館数と図書館登録人数は同じ年には調査されていないようで、年度データでは、どちらか一方しかありませんでした。
そこで、今回は、図書館数と図書館登録人数を別々に分析しようと思います。
まず、Year(年度), Pref(都道府県), Pop(人口), Kan(図書館数)のデータフレームを作って、na.omit関数でNAのデータを削除します。
Yearを見ると、1975年度、1978年度、1981年度と3年ごとのデータのようです。
図書館登録人数のデータフレームを作ります。
図書館登録人数は、2007年度、2010年度、2014年度の3回しかデータが無いですね。
一番新しい、204年度のデータだけにしてしまいます。
図書館数は一番新しい年度は何年でしょうか?summary関数でみてみます。
2015年度が一番新しいです。2015年だけのデータフレームを作ります。
こうして作成した、df2015とdf2014をmerge関数で結合します。
Pop.xが2015年の人口、Pop.yが2014年の人口です。colnames関数で名前を変更します。
人口と図書館数の散布図を描いてみます。plot関数です。
人口が多いほど、図書館の数も多いです。
人口と図書館登録人数の散布図も描いてみます。
こちらも、人口が多いと図書館登録人数が多いですね。
まずは、人口当りの図書館数を計算して、どこの都道府県が図書館が多いか少ないかを調べましょう。
KanPopという10万人当りの図書館数のベクトルを作成し、names関数でそのベクトルに都道府県の名前を付けて、sort関数で小さい順に表示しています。神奈川県は10万人当り0.9しか図書館ないですが、山梨県は6.6もあります。
次は、図書館登録人数 / 人口をやってみます。
パーセンテージ表示です。青森県は人口の10%しか図書館登録がなく、富山県は人口の56%が図書館登録あります。都道府県によってこんなに違うのですね。
hist関数で人口10万人当りの図書館数、図書館登録人数比率のヒストグラムを描いてみます。
人口10万人当りの図書館数(KanPop)のほうが左右対称に近いですね。図書館登録人数比率(HitoPop)は左に山の頂点がよっています。
KanPopとHitoPopの散布図を描いてみます。
結構分散していますね。
今回は以上です。