Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の企業の土地取得状況等に関する調査のデータ分析1 - CSVファイルを読み込む

Generated by Bing Image Creator: Photograph of exotic Japan, blue background, more blight

今回は、政府統計の総合窓口(e-stat.go.jp)のサイトから都道府県ごとの企業の土地取得状況等に関する調査のデータを分析してみます。

企業の土地取得状況等に関する調査1.企業の土地所有状況 1-5 都道府県ごとの土地の保有、利用状況 土地所在地(47区分) 資産区分(4区分)別企業数・面積 | 統計表・グラフ表示 | 政府統計の総合窓口 (e-stat.go.jp)

こちらのサイトにアクセスして、

下の画像のようなCSVファイルをダウンロードしました。

これをRで分析します。

まず、tidyverseパッケージの読み込みをします。

read_csv()関数でCSVファイルを読み込みます。

CSVファイルは12行目からが実際のデータなので、skip = 11 としています。

glimpse()関数で問題なく読み込まれたか確認してみます。

141の観測と14の変数です。yearとprefは文字列データで、その他は数値データです。

ここで、各変数の意味を確認しておきましょう。

num_total:企業数【社】総数 総数
num_total_unuse:企業数【社】総数 うち未利用地
num_jigyo_total:企業数【社】事業用資産を所有している 総数
num_jigyo_unuse:企業数【社】事業用資産を所有している うち未利用地  num_tana_total:企業数【社】たな卸資産を所有している 総数
num_tana_unuse:企業数【社】たな卸資産を所有している うち未利用地
area_total:面積【ha】総数 総数
area_total_unuse:面積【ha】総数 うち未利用地
area_jigyo_total:面積【ha】事業用資産 総数
area_jigyo_unuse:面積【ha】事業用資産 うち未利用地
area_tana_total:面積【ha】たな卸資産 総数
area_tana_unuse:面積【ha】たな卸資産 うち未利用地
です。

yearとprefをファクター型にしましょう。

summary()関数でこのデータフレームのサマリーをみます。

主要な変数のnum_totalとarea_totalのヒストグラムをみてみます。

facet_wrap()関数で年ごとにヒストグラムを描きました。

2006年と2007年は同じ形状ですが、2008年は少し違うようです。

num_areaはどうでしょうか?

大きな外れ値を持つ都道府県があるようで、ヒストグラムだとわかりにくいですね。

geom_density()関数を使ってみます。

う~ん、これもわかりにくいですね。geom_boxplot()関数で箱ひげ図を描きましょう。

どうでしょうか? 軸のスケールを対数にしたりするか、外れ値を除外してグラフを描くしかないですね。

filter()関数で外れ値を除外してからヒストグラムを描きました。

今回は以上です。

 

次回は、

www.crosshyou.info

です。