Photo by Joanna Huang on Unsplash
今回は、都道府県別の工業用水のデータを分析してみようと思います。
データは、政府統計の総合窓口(www.e-stat.go.jp)から取得しました。
47の都道府県を選択します。
工業用水量のデータの他に総人口、県内総生産額、製造業付加価値額、製造業事業所数、製造業行就業者数のデータを選択しました。
このような形式のCSVファイルをダウンロードできます。
これをRで読み込み分析します。
はじめにtydyverseという便利なパッケージを読み込みしておきます。
次に、read_csv関数でCSVファイルのデータを読み込みます。
str()関数で読み込んだデータを見てみます。
year1とprefが文字化けしてしまったので削除します。
yearは、2019100000となっているので、100000を引いてから1000000で割って4桁の西暦に戻します。
再び、str()関数を使ってデータをみてみましょう。
余計なattribution(属性)を削除します。
またまた、str()関数でみてみます。
year = col_double()のような余計なattributionがなくなりました。
waterがNAの行は削除します。
dfをsummary()関数でみてみます。
ここで各変数が何かを確認します。
year: 調査年
code: 地域コード(各都道府県を表す)
pop: 総人口(人)
gdp: 県内総生産額(平成17年基準・百万円)
kachi: 製造業付加価値額(百万円)
num: 製造業事業所数(事業所)
man: 製造業従業者数(人)
water: 工業用水量(m3/日)
です。
工業用水量のデータのヒストグラムを見てみます。
対数変換したほうがよさそうですね。
2つの山がある分布のようですね。
popなどその他もヒストグラムにしてみます。
総人口も対数変換したほうがよさそうです。
gdpのヒストグラムをみてみます。
gdpも対数変換したほうがよさそうです。
kachiのヒストグラムを見てみます。
kachiも対数変換したほうがいいですね。
numのヒストグラムを見てみます。
やっぱりnumも対数変換したほうがいいようです。
結局、すべての変数で対数変換したほうがより正規分布に近くなっていますね。
もとものの変数は対数正規分布になっていたということでしょうね。
対数正規分布については、
の書籍に詳しく書いてありました。
今回は以上です。
次回は、
です。