Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の長屋建住宅数のデータの分析１ - Rのread_csv()関数でCSVファイルを読み込み、skim()関数で様子を確認

データ分析

Generated by Bing Image Creator: rice field, blue sky, little flower

今回は、都道府県別の長屋建住宅数のデータを分析してみようと思います。

政府統計の総合窓口、e-statのウェブサイトからデータを取得します。

地域のところをクリックします。

データ表示をクリックします。

47都道府県を選択します。

長屋建住宅数を選択します。コントロール変数として、総人口と県内総生産額も選択しました。

このようなCSVファイルをダウンロードできました。

これをRに読み込ませて分析します。

はじめに、tidyverseパッケージの読み込みをしておきます。

read_csv()関数でCSVファイルを読み込みます。

na.omit()関数を使って、NAの行を削除しました。

glimpse()関数を使って、読み込んだファイルのデータを確認します。

文字化けせずに読み込まれました。

year_codeはyearと同じなので必要なし、pref_codeはprefと同じなので必要なし、yearとprefは文字列ですので、この2つはファクター型に変更します。

skimrパッケージのskim()関数でそれぞれの変数の様子を確認します。

出力された結果を上から順にみてみます。

Data Summaryのパートで、データフレームの名前はdf、行数は141行、列数は7列あることがわかります。

Column type frequencyのところで、ファクター型の変数が2つ、数値型の変数が5つとわかります。

Group variablesはNoneなので、グループ化されている変数は無いとわかります。

variable type: factor のところで、year と pref がファクター型の変数で、２つともNAはなし、オーダーファクター型の変数ではないことがわかります。yearは３つの値、prefは47の値とわかります。yearが3つということは、3年分のデータがあるということです。

variable type: numericのところで数値型の変数の様子がわかります。population, gdp, total, mokuzou, not_mokuzouの5つともNAはありません。p0が最小値のところです。5つとも正の値なので、対数変換したほうがいいかもしれないです。

histの列がヒストグラムの外観になっていますが、どれも左端に分布が集中しています。やはり、対数変換したほうがいいようです。

今回は以上です。

次回は、

www.crosshyou.info

です。

ランキング参加中