Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の生活保護被保護実世帯数データの分析1 - R言語でCSVファイルのデータを読み込む。大阪府が一番多い。福井県が一番少ない。

今回は、都道府県別の生活保護被保護実世帯数データを分析してみようと思います。

データは、政府統計の総合窓口e-Statから取得します。

f:id:cross_hyou:20200109191037p:plain

まず、47都道府県を選択し、

f:id:cross_hyou:20200109191110p:plain

総人口、可住地面積、県内総生産額と生活保護被保護実世帯数の4つのデータを選択します。

f:id:cross_hyou:20200109191203p:plain

CSVファイルはこんな感じです。9行目に変数名を追加しています。

これをR言語のread.csv関数で読込みます。

f:id:cross_hyou:20200109191836p:plain

str関数でデータフレームの構造を確認しました。うまく読込んでいます。

na.omit関数でNAのある行を削除しましょう。

f:id:cross_hyou:20200109192109p:plain

Prefのところの数を見ると10とありますから、10年間分のデータがあるようですね。

yearのファクタ水準を整理します。

f:id:cross_hyou:20200109192517p:plain

2006年度から2015年度までの10年間のデータがあるのですね。

このデータで私の興味のあることは、生活保護被保護実世帯数が人口、可住地面積、県内総生産額の3つの変数と関連しているかどうか、生活保護被保護実世帯数の増加(減少)がこれらの3つの変数と関連しているかどうか、の2点を確認したいと思います。

まずは、各変数の10年間の平均値を計算してみましょう。

f:id:cross_hyou:20200109193317p:plain

tapply関数で作成できます。生活保護被保護実世帯数をグラフにしてみましょう。

f:id:cross_hyou:20200109193553p:plain

f:id:cross_hyou:20200109193640p:plain

上方の外れ値がたくさんありますね。

小さい順に表示してみましょう。

f:id:cross_hyou:20200109193902p:plain

東京都よりも大阪府のほうが数が多いことがわかります。一番すくないのは福井県です。

今回は以上です。