今回は、都道府県別の生活保護被保護実世帯数データを分析してみようと思います。
データは、政府統計の総合窓口e-Statから取得します。
まず、47都道府県を選択し、
総人口、可住地面積、県内総生産額と生活保護被保護実世帯数の4つのデータを選択します。
CSVファイルはこんな感じです。9行目に変数名を追加しています。
これをR言語のread.csv関数で読込みます。
str関数でデータフレームの構造を確認しました。うまく読込んでいます。
na.omit関数でNAのある行を削除しましょう。
Prefのところの数を見ると10とありますから、10年間分のデータがあるようですね。
yearのファクタ水準を整理します。
2006年度から2015年度までの10年間のデータがあるのですね。
このデータで私の興味のあることは、生活保護被保護実世帯数が人口、可住地面積、県内総生産額の3つの変数と関連しているかどうか、生活保護被保護実世帯数の増加(減少)がこれらの3つの変数と関連しているかどうか、の2点を確認したいと思います。
まずは、各変数の10年間の平均値を計算してみましょう。
tapply関数で作成できます。生活保護被保護実世帯数をグラフにしてみましょう。
上方の外れ値がたくさんありますね。
小さい順に表示してみましょう。
東京都よりも大阪府のほうが数が多いことがわかります。一番すくないのは福井県です。
今回は以上です。