crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

都道府県別の図書館数などのデータの分析1 - R言語にCSVファイルのデータを読み込む。2014年度と2015年度の調査データを利用する。

今回は都道府県別の図書館数などのデータを調べてみます。

政府統計の総合窓口(www.e-stat.go.jp)からデータを取得しました。

f:id:cross_hyou:20210117091947p:plain

47の都道府県を選択して、

f:id:cross_hyou:20210117092016p:plain

図書館数、図書館蔵書数、図書館登録者数、図書館外貸出冊数の4つのデータを選択しました。

f:id:cross_hyou:20210117092111p:plain

このようなCSVファイルがダウンロードされます。9行目に私が変数名を挿入しました。

このデータをR言語に読み込みます。

まず、tydyverseパッケージの読み込みをしておきます。

f:id:cross_hyou:20210117092525p:plain

read_csv関数でデータを読み込みます。

f:id:cross_hyou:20210117093036p:plain

あれ?何故か7番目の変数として、X7というのが読み込まれていますね。

select関数でX7以外の変数だけを選択して分析用のデータフレームを作ります。

f:id:cross_hyou:20210117093731p:plain

select関数でX7以外の変数を選択しました。

summary関数でサマリを見てみます。

f:id:cross_hyou:20210117093757p:plain

libraryは298のNAがあります。booksは1316、peopleとrentalは1363のNAがあります。

全部で1504の観測データがありますから、books、people、rentalはほとんどNAということですね。

どうしましょうか。。各変数について、一番新しい調査年度のデータで分析することにしましょう。

library(図書館数)から調べます。

f:id:cross_hyou:20210117094904p:plain

filter関数でlibraryがNAで無いのだけに絞り込み、group_by関数でyear(調査年度)でグループ化します。そしてsummarise関数の中でn()関数を使い年度ごとのデータ数を集計します。最後にarrange関数で年度の新しい順に表示しています。2015年が一番新しいlibraryのデータがある年度です。

この2015年度だけのlibraryのデータフレームを作ります。

f:id:cross_hyou:20210117095417p:plain

books(蔵書冊数)の一番新しい調査年度は何でしょうか?

f:id:cross_hyou:20210117095704p:plain

booksも2015年度でした。2015年度のbooksのデータフレームを作ります。

f:id:cross_hyou:20210117095910p:plain

people(図書館登録者数)も同じように調べます。

f:id:cross_hyou:20210117100158p:plain

2014年度だけのpeopleのデータフレームを作ります。

f:id:cross_hyou:20210117100416p:plain

rental(図書館外貸出冊数)も同じです。

f:id:cross_hyou:20210117100648p:plain

rentalも2014年度が最新の年度でした。

2014年だけのrentalのデータフレームを作ります。

f:id:cross_hyou:20210117100945p:plain

これで、それぞれの変数の最新調査年度のデータフレームができました。library, booksは2015年度、people, rentalは2014年度です。

この4つをinner_join関数で結合して分析用のデータフレームを作ります。

f:id:cross_hyou:20210117101405p:plain

summary関数でデータフレームのサマリを見てみます。

f:id:cross_hyou:20210117101528p:plain

うまくできたようです。

今回は以上です。

 次回は、

 

www.crosshyou.info

 です。