Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の図書館数・博物館数・社会体育施設数のデータ分析1 - R言語でデータを取り込む

今回は、都道府県別の図書館数、博物館数、社会体育施設数のデータを分析しようと思います。

データは政府統計の総合窓口、e-statか取得しました。

www.e-stat.go.jp取得したデータは、以下のものです。

f:id:cross_hyou:20200426173555j:plain

これをダウンロードすると、CSVファイルになります。

f:id:cross_hyou:20200426173640j:plain

変数名は
Year 調査年

Pref 地域(都道府県)
Popu 総人口

GDP 県内総生産額(百万円)

Lib 図書館数(館)

Mus 博物館数(館)

Gym 社会体育施設数(施設)

です。

このデータをR言語で分析しようと思います。

 read.csv関数でデータを読み込みます。

f:id:cross_hyou:20200427072436j:plain

skip = 8 と指定しているので、CSVファイルの9行目から読み込みます。

na.strings = c("***", "-", "X")としているので、***, -, XはNAとして読み込みます。

stringsAsFactrs = FALSEとしていますので、文字のデータはファクターではなく、文字として読み込みます。

na.omit関数でNAのある行を削除します。

f:id:cross_hyou:20200427072719j:plain

str関数でデータフレームの構造を確認します。

f:id:cross_hyou:20200427072828j:plain

141行、7列のデータフレームです。

table関数でYearの度数を見てみます。

f:id:cross_hyou:20200427073023j:plain

データは、2008年度、2011年度、2015年度の3つの年のデータでした。

Yearをas.factor関数でファクターに変換しましょう。

f:id:cross_hyou:20200427073225j:plain

summary関数でデータフレームのサマリを見てみます。

f:id:cross_hyou:20200427073356j:plain

図書館は一番少ないところで21館、一番多いところで397館、博物館は一番多いところで5館、一番多いところで111間、社会体育施設数は一番少ないところで379館、一番多いところで4194館です。

GDP, Lib, Mus, Gymは実数ではなくて、人口当たりに変換しましょう。

f:id:cross_hyou:20200427074319j:plain

これらのデータのサマリを見てみます。

f:id:cross_hyou:20200427074535j:plain

県内総生産額は、1番少ないところで1人当り252万9千円、1番多いところで799万6千円、平均で371万9千円、中央値が365万4千円です。

図書館数は10万人当りで1番少ないところが0.9095館、1番多いところが6.5874館、平均で3.1212館、中央値が2.9268館です。

博物館数は10万人当りで1番少ないところが0.3223館、1番多いところが4.0499館、平均で1.3034館、中央値が1.1146です。

社会体育施設は10万人当りで1番少ないところが12.92施設、1番多いところが99.36施設、平均で49.96施設、中央値が49.75施設です。

この4つの変数の中でどれが一番バラツキが大きいか、変動係数(CV)を計算してみます。CVは標準偏差 / 平均値です。sd関数で標準偏差、mean関数で平均値が計算できます。

f:id:cross_hyou:20200427075744j:plain

変動係数が1番小さいのはperGDPですね。1番大きいのはperMusです。博物館の数は都道府県によって差が大きいということですね。

今回は以上です。