crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

都道府県別の1人当りの県民所得と従業者人数別事業所割合の分析1 - R言語でCSVファイルのデータを読み込む。

今回は、都道府県別の1人当りの県民所得と従業者人数別事業所割合のデータを調べようと思います。

政府統計の総合窓口、e-statからCSVファイルを取得しました。

データの種類

取得したデータは上の図のとおりです。

CSVファイルは以下のようになります。

CSVファイルの画像

このCSVファイルを、R言語のread.csv関数で読み込みます。

のちのちの操作で使うので、tidyverseパッケージを読み込んでおきます。

tidyverseパッケージ

read.csv関数でCSVファイルを読み込みます。

read.csv関数でCSVファイルを読み込む

skip = 8 としているので9行目から読み込みます。

na.strings = c("***", "-", "X")としているので、***, -, X はNAとして読み込みます。

str関数でデータがうまく読み込めたか確認します。

str関数でデータの構造を確認

変数もおかしくなってないし、文字列の列は文字列として、数値の列は数値として読み込まれています。

変数名は、

変数名一覧表

です。

na.omit関数でNAの行を削除しましょう。

na.omit関数

yearを文字列からファクターに変更しておきましょう。mutate関数の中でas.factor関数を使います。

mutate関数とas.factor関数

summary関数でデータフレーム, dfのサマリーを見てみましょう。

summary関数

調査年は2009、2011、2014の3か年ですね。

1人当りの県民所得の最低値は195万8千円、最高値は527万9千円、従業者数が1~4人の事業所割合は最低値が54.54%, 最低値が66.84%、300人以上の事業所割合は最低値が0.08%, 最高値が47%です。

今回は以上です。