今回は都道府県別の図書館数などのデータを調べてみます。
政府統計の総合窓口(www.e-stat.go.jp)からデータを取得しました。
47の都道府県を選択して、
図書館数、図書館蔵書数、図書館登録者数、図書館外貸出冊数の4つのデータを選択しました。
このようなCSVファイルがダウンロードされます。9行目に私が変数名を挿入しました。
このデータをR言語に読み込みます。
まず、tydyverseパッケージの読み込みをしておきます。
read_csv関数でデータを読み込みます。
あれ?何故か7番目の変数として、X7というのが読み込まれていますね。
select関数でX7以外の変数だけを選択して分析用のデータフレームを作ります。
select関数でX7以外の変数を選択しました。
summary関数でサマリを見てみます。
libraryは298のNAがあります。booksは1316、peopleとrentalは1363のNAがあります。
全部で1504の観測データがありますから、books、people、rentalはほとんどNAということですね。
どうしましょうか。。各変数について、一番新しい調査年度のデータで分析することにしましょう。
library(図書館数)から調べます。
filter関数でlibraryがNAで無いのだけに絞り込み、group_by関数でyear(調査年度)でグループ化します。そしてsummarise関数の中でn()関数を使い年度ごとのデータ数を集計します。最後にarrange関数で年度の新しい順に表示しています。2015年が一番新しいlibraryのデータがある年度です。
この2015年度だけのlibraryのデータフレームを作ります。
books(蔵書冊数)の一番新しい調査年度は何でしょうか?
booksも2015年度でした。2015年度のbooksのデータフレームを作ります。
people(図書館登録者数)も同じように調べます。
2014年度だけのpeopleのデータフレームを作ります。
rental(図書館外貸出冊数)も同じです。
rentalも2014年度が最新の年度でした。
2014年だけのrentalのデータフレームを作ります。
これで、それぞれの変数の最新調査年度のデータフレームができました。library, booksは2015年度、people, rentalは2014年度です。
この4つをinner_join関数で結合して分析用のデータフレームを作ります。
summary関数でデータフレームのサマリを見てみます。
うまくできたようです。
今回は以上です。
次回は、
です。