今回は都道府県別の新規求職申込件数のデータを分析してみたいと思います。
データは、政府統計の総合窓口、www.e-stat.go.jpから取得します。
新規求職申込件数(一般)とは,労働市場年報にいう一般職業紹介(常用労働及び臨時・季節労働)の「新規求職申込件数」をさす。これは,期間中に公共職業安定所で新たに受け付けた求職申込みの件数で,新規学卒者及びパートタイムの件数はここには含まれない。というものです。
47都道府県を選択して、
被説明変数が新規求職申込件数、説明変数として総人口(男)、総人口(女)、県内総生産額を選びました。
CSVファイルはこんな感じです。9行目に変数名を追加しました。このファイルをR言語のread.csv関数で読込みます。
NAの行をna.omit関数で削除します。
男性と女性の比率も加えます。
MFRの値が1以下ということは、男性のほうが女性よりも少ないということですね。
Yearのファクタ水準を整理します。
2006年度から2015年度までの10年間のデータがあることがわかります。
summary関数で基本統計量を求めます。
Jobが新規求職申込件数です。最低値は2万2707件、最大値は58万9375件です。中央値は7万2437件、平均値は10万5148件です。
グラフにしてみましょう。
まず、上のように、小さい順グラフ、ヒストグラム、箱ひげ図をいちどに作る関数を定義しました。これを使います。
大きい値のほうに外れ値が多くあることがわかります。
MFR(男性/女性)もグラフにしてみましょう。
こちらは外れ値は無いですね。
年度別の申込件数をグラフにしてみます。
外れ値があるので少しわかりにくいですが、2009年度が一番中央値が高いようです。
人口や県内総生産額はこのブログで何回もデータを使っていてわかっていますが東京や神奈川など人口の多い都道府県と鳥取や島根などの少ない都道府県の差が激しいので、人口で割ったデータも作ります。
最小値が20件で最大値が84件ですね。3つのグラフを描いてみます。
まだ外れ値はありますが、ヒストグラムの形はだいぶ左右対称の山型にちかくなりました。
一人当りの県内総生産額も作成します。
100を掛けていますので、単位は万です。最小値は252万円、最大値は832万円です。
こんどは数値データ同士の相関係数を見てみます。cor関数です。
pJob, 人口1000人当りの新規求職申込件数は全ての変数に対してマイナスの相関ですね。人口や県内総生産額が小さいほど、男女比が小さいほど、一人当りの県内総生産額が小さいほど、件数は多くなる、ということです。
pairs関数で散布図も描きます。
今回は以上です。