都道府県別の共働き世帯割合のデータの分析１ - R言語のread_csv()関数でCSVファイルのデータを読み込む。

f:id:cross_hyou:20211128084239j:plain

今回は都道府県別の共働き世帯割合のデータを分析してみようと思います。

データは、政府統計の総合窓口(www.e-stat.go.jp)から取得します。

まず、地域を選択します。

f:id:cross_hyou:20211128084907p:plain

データを選択します。

f:id:cross_hyou:20211128085450p:plain

共働き世帯割合の他に関連性のありそうなデータを選択しました。

f:id:cross_hyou:20211128090330p:plain

こんな感じのCSVファイルをダウンロードできますので、これをRに読み込んで分析します。9行目に変数名を挿入しています。

まず、tidyverseパッケージを読み込み、それから、read_csv()関数でCSVファイルのデータを読み込みます。

f:id:cross_hyou:20211128091013p:plain

read_csv()関数でファイルを読み込みます。

f:id:cross_hyou:20211128091235p:plain

ここで各変数が何を表しているかを確認しておきます。

year: 調査年

code: 都道府県コード

pref: 都道府県名

consr: 人口集中地区面積比率(%)

consn: 人口集中地区人口密度(人/1km2)

ggdp17: 県内総生産額対前年増加率(平成17年基準)(%)

ggdp23: 県内総生産額対前年増加率(平成23年基準(%)

r1: 第1次産業就業者比率(%)

r2: 第2次産業就業者比率(%)

unem: 失業率(%)

tomo: 共働き世帯割合(%)

です。

興味のある変数は、tomo: 共働き世帯割合(%)ですので、このデータが無い行は削除します。

filter()関数とis.na()関数を使います。

f:id:cross_hyou:20211128092514p:plain

summary()関数で新しく作ったデータフレーム、dfのサマリーを見てみましょう。

f:id:cross_hyou:20211128092646p:plain

NAのあるデータは、consn: 人口集中地区人口密度(人/平方km)、ggdp17: 県内総生産額対前年増加率(平成17年基準)(%)、ggdp23: 県内総生産額対前年増加率(平成23年基準)(%)の３つです。

tomo: 共働き世帯割合(%)をみると、最小値は17.74%、最大値が54.94%、平均値は33.10%、中央値は32.27%です。ヒストグラムと箱ひげ図を描いてみましょう。

ヒストグラムはhist()関数で、箱ひげ図はboxplot()関数で描いてみます。

f:id:cross_hyou:20211128094828p:plain

f:id:cross_hyou:20211128094839p:plain

boxplot()関数には、add = TRUEでヒストグラムに重ねるようにして、horizontal = TRUEで横向きにしています。少し右側が広い裾野の分布ですね。

今回は以上です。

次回は

です。

Rで何かをしたり、読書をするブログ