都道府県別の公害苦情件数データの分析１ - R言語にデータを読み込む。read.csv関数やsubstr関数やas.numeric関数を使った。

今回は、都道府県別の公害苦情件数のデータを分析してみようと思います。

データは、政府統計の総合窓口、e-statから取得しました。

www.e-stat.go.jp

公害苦情件数

データのファイルはこんな感じです。

データファイル

9行目は私が変数名として追加しています。
このファイルをR言語のread.csv関数で読み込みます。

read.csv関数でCSVファイルを読み込む

skip = 8 としています。これは8行はとばして、9行目からデータを読み込むという意味です。

na.strings = c("***", "-", "X") は***, -, X はNAとして読み込みなさい、という意味です。

encoding = "UTF-8" はこのファイルのエンコードがUTF-8なのでそのように指定しています。よくわかりませんが、これを入れないと文字化けして読み込んでいました。

str関数で読み込まれたどうか確認します。

str関数でデータの構造を確認

うまく読み込んだようです。

yearが2007年度となって文字列型になっていますので、数値型に変換してみましょう。

どうすればいいでしょうか？
substr関数ではじめの4文字だけを抜き出しましょう。

substr関数

"2007", "2007"と””がついています。これは、文字列型だということです。

as.numeric関数で数値に変換します。

as.numeric関数

summary関数でyearを見てみると、最小値、最大値などが表示されていて、数値型に変換されていることがわかります。1977年から2007年までの30年間のデータです。

2007年というと今から13年前ですね。それ以降は統計を取っていないのでしょうか？

今回は以上です。

www.crosshyou.info