今回は都道府県別の小学校費のデータを分析します。
政府統計の総合窓口(www.e-stat.go.jp)からデータを取り込みます。
47都道府県を選択します。
総人口(人)、可住地面積(ha)、県内総生産額(H17年基準、百万円)、小学校費(都道府県財政、千円)、小学校費(市町村財政、千円)の5つのデータを選択しました。
このようなデータです。
CSVファイルはこのようになりました。
このCSVファイルをR言語に取り込みます。
tidyverseパッケージの読み込みをしてから、read_csv関数で読み込みします。
read_csv関数でCSVファイルを読み込みます。
na.omit関数でNA行を削除してから、summary関数で読み込んだデータを確認します。
658のobservationsがあります。658/47=14年分のデータですね。
変数の説明をしておきます。
year: 調査年
pref: 都道府県名
pop: 総人口(人)
area: 可住地面積(ha)
gdp: 県内総生産額(平成17年基準、百万円)
shouga_ken: 小学校費(都道府県財政、千円)
shouga_shi: 小学校費(市町村財政、千円)
です。
yearが「2010年度」と「年度」がついているので文字列になっています。
これを数値データに変更してみましょう。
str_sub関数ではじめの4文字だけとりだして、as.numeric関数で処理すればいいですね。
2001年から2014年のデータがあることがわかります。
とりあえず、小学校費の合計値の推移をグラフにしてみます。
はじめにgroup_by関数でyearでグループ化し、summarise関数で各年の合計値をだしています。そしてggplotでグラフにしました。都道府県財政の小学校費は減少傾向、市町村財政の小学校費は横ばい傾向ですね。
今回は以上です。