UnsplashのMarkus Spiskeが撮影した写真
上のブログ記事の続きです。
前回は、保護観察統計のデータをRに読み込ませるところまでやりました。
今回は、もう少し分析っぽいことをやりましょう。
まず、データの見た目を整えます。
typeの値が1号観察_計、2号観察_計などとなっていたのを、str_sub()関数を使って1号、2号、3号、4号としました。さらに、as.factor()関数を使って変数の型をファクター型に変換しました。
次に、locationの値が、さいたま保護観察所、北海道委員会管内と地名以外の文字が入っているので、str_replace()関数で""と置換、つまり削除して、as.factor()関数でファクター型にしました。どの都道府県も100個の観測値があることがわかります。
それでは、分析っぽいことをやっていきます。
まずは、タイプ別の基本統計量をみます。group_by()関数、summarize()関数、min()関数、mean()関数、median()関数、max()関数、sd()関数を使います。
平均値でみると、1号が644人で一番多く、3号が299人、4号が88.6人、2号が82.6人となっています。
ここで、1号とか2号が何を意味しているか、確認しておきましょう。
保護観察(ほごかんさつ)とは? 意味や使い方 - コトバンク (kotobank.jp)
から抜粋します。
「家庭裁判所の決定により保護観察に付された者(1号観察)、
少年院を仮退院した者(2号観察)、
仮釈放された者(3号観察)、
刑の執行を猶予され保護観察に付された者(4号観察)」
だそうです。保護観察に付された人(1号)が一番人数が多いのですね。
次は、location別の統計値です。
全部は表示していません。後でグラフにして全体を表示します。
続いて、year別の基本統計量です。
これも全部は表示できていないので、あとでグラフにします。
ggplot2のパッケージでグラフにしていきます。
はじめは、タイプ別の平均値をggplot()関数とgeom_col()関数で棒グラフにしてみました。
次は、location別の平均値です。
大阪のほうが東京よりも多いんですね。東京のほうが、青少年人口は多いはずですから、大阪は保護観察の人が多いんですね。
次はyear別です。
年を経るごとに人数は減っていることがわかります。
これは、保護観察になるような事件を起こす人が減ったのか、保護観察になる基準が緩くなってきているのか、そもそも青少年の人口が減ってきているのか、どうなんでしょうかね。
今回は以上です。
次回は、
です。
初めから読むには、
です。