Photo by Riccardo Chiarini on Unsplash
今回は都道府県別の共働き世帯割合のデータを分析してみようと思います。
データは、政府統計の総合窓口(www.e-stat.go.jp)から取得します。
まず、地域を選択します。
データを選択します。
共働き世帯割合の他に関連性のありそうなデータを選択しました。
こんな感じのCSVファイルをダウンロードできますので、これをRに読み込んで分析します。9行目に変数名を挿入しています。
まず、tidyverseパッケージを読み込み、それから、read_csv()関数でCSVファイルのデータを読み込みます。
read_csv()関数でファイルを読み込みます。
ここで各変数が何を表しているかを確認しておきます。
year: 調査年
code: 都道府県コード
pref: 都道府県名
consr: 人口集中地区面積比率(%)
consn: 人口集中地区人口密度(人/1km2)
ggdp17: 県内総生産額対前年増加率(平成17年基準)(%)
ggdp23: 県内総生産額対前年増加率(平成23年基準(%)
r1: 第1次産業就業者比率(%)
r2: 第2次産業就業者比率(%)
unem: 失業率(%)
tomo: 共働き世帯割合(%)
です。
興味のある変数は、tomo: 共働き世帯割合(%)ですので、このデータが無い行は削除します。
filter()関数とis.na()関数を使います。
summary()関数で新しく作ったデータフレーム、dfのサマリーを見てみましょう。
NAのあるデータは、consn: 人口集中地区人口密度(人/平方km)、ggdp17: 県内総生産額対前年増加率(平成17年基準)(%)、ggdp23: 県内総生産額対前年増加率(平成23年基準)(%)の3つです。
tomo: 共働き世帯割合(%)をみると、最小値は17.74%、最大値が54.94%、平均値は33.10%、中央値は32.27%です。ヒストグラムと箱ひげ図を描いてみましょう。
ヒストグラムはhist()関数で、箱ひげ図はboxplot()関数で描いてみます。
boxplot()関数には、add = TRUEでヒストグラムに重ねるようにして、horizontal = TRUEで横向きにしています。少し右側が広い裾野の分布ですね。
今回は以上です。
次回は
です。