Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の工場立地動向調査のデータの分析1 - CSVファイルのデータをRに取り込み、pivot_longer(), select(), filter(), mutate(), inner_join()などで加工する

Bing Image Generator で生成: Close up of flowering Hibiscus, on the beach side, coral sea, blue sky and white could, photo

今回からしばらくは、都道府県別の工場立地動向調査のデータを分析してみます。

政府統計の総合窓口(e-stat.go.jp)からデータをダウンロードしました。

立地件数のファイルと

敷地面積のファイルをダウンロードしました。

これをRに取り込みます。

まず、tidyverseパッケージの読み込みをします。

read_csv()関数でCSVファイルを読み込みます。

glimpse()関数で取り込んだデータをみてみます。

問題なく取り込みできたようです。

これら2つのデータフレームですが、表題項目など不必要な変数は削除して、横長のデータフレームを縦長のデータフレームに変換します。

select()関数で不必要な変数を削除して、それから、pivot_longer()関数で縦長のデータフレームに変換します。

このpivot_longer()関数の使い方、いまだに覚えられなくて、毎回Google検索で他のサイトを見ながら実行しています。今回は、R で pivot_longer() を使用する方法 – 統計学 (statorials.org)を見ました。ありがとうございます。

pivot_longer(データフレーム, cols = c(-残す変数1, -残す変数2, -残す変数3)), names_to = "変換する変数が入る新しい列名", values_to = "データが入る新しい列名")

ですが、いつも cols, names_to, values_to をどうしたらいいかわからなくなってしまうんですよね。

次は、inner_join()関数で2つのデータを統合します。

menseki / kensu を計算して、1立地当りの面積を算出しましょう。mutate()関数を使います。

このデータフレームは、全国のデータと47都道府県のデータが入っているので、

全国だけのデータフレーム、都道府県だけのデータフレームに分けます。filter()関数を使います。

これでデータ分析のためのデータフレームができました。

今回は以上です。

次回は、

www.crosshyou.info

です。