今回は、都道府県別の公害苦情件数のデータを分析してみようと思います。
データは、政府統計の総合窓口、e-statから取得しました。
www.e-stat.go.jp
データのファイルはこんな感じです。
9行目は私が変数名として追加しています。
このファイルをR言語のread.csv関数で読み込みます。
skip = 8 としています。これは8行はとばして、9行目からデータを読み込むという意味です。
na.strings = c("***", "-", "X") は***, -, X はNAとして読み込みなさい、という意味です。
encoding = "UTF-8" はこのファイルのエンコードがUTF-8なのでそのように指定しています。よくわかりませんが、これを入れないと文字化けして読み込んでいました。
str関数で読み込まれたどうか確認します。
うまく読み込んだようです。
yearが2007年度となって文字列型になっていますので、数値型に変換してみましょう。
どうすればいいでしょうか?
substr関数ではじめの4文字だけを抜き出しましょう。
"2007", "2007"と””がついています。これは、文字列型だということです。
as.numeric関数で数値に変換します。
summary関数でyearを見てみると、最小値、最大値などが表示されていて、数値型に変換されていることがわかります。1977年から2007年までの30年間のデータです。
2007年というと今から13年前ですね。それ以降は統計を取っていないのでしょうか?
今回は以上です。