Generated by Bing Image Creator: Photograph of exotic Japan, blue background, more blight
今回は、政府統計の総合窓口(e-stat.go.jp)のサイトから都道府県ごとの企業の土地取得状況等に関する調査のデータを分析してみます。
こちらのサイトにアクセスして、
下の画像のようなCSVファイルをダウンロードしました。
これをRで分析します。
まず、tidyverseパッケージの読み込みをします。
read_csv()関数でCSVファイルを読み込みます。
CSVファイルは12行目からが実際のデータなので、skip = 11 としています。
glimpse()関数で問題なく読み込まれたか確認してみます。
141の観測と14の変数です。yearとprefは文字列データで、その他は数値データです。
ここで、各変数の意味を確認しておきましょう。
num_total:企業数【社】総数 総数
num_total_unuse:企業数【社】総数 うち未利用地
num_jigyo_total:企業数【社】事業用資産を所有している 総数
num_jigyo_unuse:企業数【社】事業用資産を所有している うち未利用地 num_tana_total:企業数【社】たな卸資産を所有している 総数
num_tana_unuse:企業数【社】たな卸資産を所有している うち未利用地
area_total:面積【ha】総数 総数
area_total_unuse:面積【ha】総数 うち未利用地
area_jigyo_total:面積【ha】事業用資産 総数
area_jigyo_unuse:面積【ha】事業用資産 うち未利用地
area_tana_total:面積【ha】たな卸資産 総数
area_tana_unuse:面積【ha】たな卸資産 うち未利用地
です。
yearとprefをファクター型にしましょう。
summary()関数でこのデータフレームのサマリーをみます。
主要な変数のnum_totalとarea_totalのヒストグラムをみてみます。
facet_wrap()関数で年ごとにヒストグラムを描きました。
2006年と2007年は同じ形状ですが、2008年は少し違うようです。
num_areaはどうでしょうか?
大きな外れ値を持つ都道府県があるようで、ヒストグラムだとわかりにくいですね。
geom_density()関数を使ってみます。
う~ん、これもわかりにくいですね。geom_boxplot()関数で箱ひげ図を描きましょう。
どうでしょうか? 軸のスケールを対数にしたりするか、外れ値を除外してグラフを描くしかないですね。
filter()関数で外れ値を除外してからヒストグラムを描きました。
今回は以上です。
次回は、
です。