Photo by Vadym Chumak on Unsplash
今回は、都道府県別の教育費のデータを分析しようと思います。
データは、政府統計の総合窓口(www.e-stat.go.jp)のウェブサイトから取得します。
まずは、47の都道府県を選択します。
教育費は都道府県財政の値と市町村財政の2つありました。
その他に人口、可住地面積、県内総生産額も取得します。
このようなCSVファイルがサイトからダウンロードできます。
このデータをRに読み込んで分析してみます。
まず、tidyverseというパッケージの読み込みをしておきます。
そうしたら、read_csv()関数を使ってデータを読み込みます。
head()関数を使って読み込んだデータのはじめの数行を表示させてみます。
nenとyearは、実質同じ情報なので、nenを削除します。
na.omit()関数をつかって NA のある行を削除します。
yearをはじめの4文字だけにします。str_sub()関数で1文字目から4文字目までを抽出して、as.numeric()関数で数値型にします。
ed_p: 教育費(都道府県財政)とed_c: 教育費(市町村財政)を合計した変数、edを作成します。
ed_p/edでp_ratioという変数を作ります。
最小が0.5869ということは、どの都道府県でも都道府県財政の教育費のほうが市町村財政の教育費よりも大きいのですね。
gdp: 県内総生産額は百万円単位、教育費は千円単位と単位が違いますので、どちらも1億円単位にして統一します。
pop: 人口は1人単位です。少しgdpやedなどと比べると値が大きいので、千人単位になおします。
人口の一番少ないところは、57万7千人、一番多いところ、東京都ですが1339万9千人です。
area: 可住面積はha単位です。これも値が大きいので、百ha単位に変換します。
一番小さいところは大阪府で、一番大きなところは北海道です。
prefのデータ型をファクター型に変換します。
summary()関数でデータフレームのサマリーを表示してみます。
summary()関数で表示すると、pref: 都道府県名が文字化けしていますが、head()関数では問題なく表示されていたので、よしとしましょう。
今回は以上です。
次回は
です。