今回は、都道府県別の図書館数、博物館数、社会体育施設数のデータを分析しようと思います。
データは政府統計の総合窓口、e-statか取得しました。
www.e-stat.go.jp取得したデータは、以下のものです。
これをダウンロードすると、CSVファイルになります。
変数名は
Year 調査年
Pref 地域(都道府県)
Popu 総人口
GDP 県内総生産額(百万円)
Lib 図書館数(館)
Mus 博物館数(館)
Gym 社会体育施設数(施設)
です。
このデータをR言語で分析しようと思います。
read.csv関数でデータを読み込みます。
skip = 8 と指定しているので、CSVファイルの9行目から読み込みます。
na.strings = c("***", "-", "X")としているので、***, -, XはNAとして読み込みます。
stringsAsFactrs = FALSEとしていますので、文字のデータはファクターではなく、文字として読み込みます。
na.omit関数でNAのある行を削除します。
str関数でデータフレームの構造を確認します。
141行、7列のデータフレームです。
table関数でYearの度数を見てみます。
データは、2008年度、2011年度、2015年度の3つの年のデータでした。
Yearをas.factor関数でファクターに変換しましょう。
summary関数でデータフレームのサマリを見てみます。
図書館は一番少ないところで21館、一番多いところで397館、博物館は一番多いところで5館、一番多いところで111間、社会体育施設数は一番少ないところで379館、一番多いところで4194館です。
GDP, Lib, Mus, Gymは実数ではなくて、人口当たりに変換しましょう。
これらのデータのサマリを見てみます。
県内総生産額は、1番少ないところで1人当り252万9千円、1番多いところで799万6千円、平均で371万9千円、中央値が365万4千円です。
図書館数は10万人当りで1番少ないところが0.9095館、1番多いところが6.5874館、平均で3.1212館、中央値が2.9268館です。
博物館数は10万人当りで1番少ないところが0.3223館、1番多いところが4.0499館、平均で1.3034館、中央値が1.1146です。
社会体育施設は10万人当りで1番少ないところが12.92施設、1番多いところが99.36施設、平均で49.96施設、中央値が49.75施設です。
この4つの変数の中でどれが一番バラツキが大きいか、変動係数(CV)を計算してみます。CVは標準偏差 / 平均値です。sd関数で標準偏差、mean関数で平均値が計算できます。
変動係数が1番小さいのはperGDPですね。1番大きいのはperMusです。博物館の数は都道府県によって差が大きいということですね。
今回は以上です。