Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の建築物リフォーム・リニューアル調査のデータ分析1 - Rにデータを読み込ませる。

UnsplashMarius Ciocirlanが撮影した写真 

今回は、都道府県別の建築物リフォーム・リニューアル調査のデータを分析してみようと思います。

はじめに政府統計の総合窓口(e-Stat)からデータをCSVファイル形式でダウンロードします。

このようなCSVファイルです。11行目には、私が変数名を挿入しました。

今回は、県民1人当たり所得との関係もみてみようと思いますので、同じく政府統計の総合窓口から、県民1人当たりの国民所得のデータもダウンロードしておきました。

それでは、RにこれらのCSVファイルのデータを読み込ませます。

その前にtidyverseパッケージを読み込んでおきます。

CSVファイルのデータは、read_csv()関数で読み込みます。

まず、リフォーム・リニューアル調査のデータを読み込みました。

続いて、1人当たり県民所得のデータも読み込ませました。

glimpse()関数で正しくデータが読み込まれているか確認しましょう。

うまく読み込まれていますね。

こんどは、inner_join()関数を使って、reformとshotokuを合体させます。

共通している変数は、yearcode, year, prefcode, prefです。

こうして新しく作成した、dfという名前のデータフレームをよく見ると、code, unitは必要のない変数、yearcodeは始めの4文字だけあればいい、prefcodeは1000で割ったほうがスッキリする、year, prefはファクター型にしたほうがいい、と感じます。

そのようにdfを整えましょう。

select()関数で変数を指定して、mutate()関数で変数を整えています。

summary()関数で、dfというデータフレームの基本統計量を確認します。

yearcodeは調査年の数値型のデータです。最小値が2016、最大値が2018、平均値と中央値が2017ですから、このdfというデータフレームは、2016年、2017年、2018年の3年間のデータがあることがわかります。

yearは調査年のファクター型のデータです。3つの年度とも47個の観測数なので、3つの年度とも47都道府県のデータが揃っていることがわかります。

prefcodeは都道府県コード数値型のデータです。北海道が1で沖縄が47なので、小さい値は北日本、大きい値は九州という感じになります。

prefcodeは都道府県名のファクター型のデータです。3つの観測数ですね。これは2016年、2017年、2018年のデータがあることを意味しています。

totalは数値型のデータで、トータルのリフォーム・リニューアルの受注額です。単位は1億円です。

一番小さい値は312億円、一番は大きい値は2兆6963億円です。

houseは住宅のリフォーム・リニューアルの受注額です。一番小さい値は78億円、一番大きい値は1兆0706億円です。

nonhouseは住宅以外のリフォーム・リニューアルの受注額です。一番小さい値は235億円、一番大きい値は1兆6257億円です。住宅以外の受注額のほうが多いのですね。

shoku17は平成17年基準の一人当たりの県民所得です。単位は1千円です。すべてNAなので、2016, 2017, 2018年にはこのデータは無いことがわかります。

shtoku23は平成23年基準の一人当たりの県民所得です。一番小さい値は231万3千円、一番大きい値は541万5千円です。小さいところと大きいところでは2倍以上の開きがあります。平均値は295万8千円です。

今回は以上です。

次回は、

www.crosshyou.info

です。