crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

都道府県別の保護統計調査のデータの分析2 - Rのgroup_by(), summarize()などを使用して基本統計量をタイプ別、場所別、年別に算出する。

UnsplashMarkus Spiskeが撮影した写真 

www.crosshyou.info

上のブログ記事の続きです。

前回は、保護観察統計のデータをRに読み込ませるところまでやりました。

今回は、もう少し分析っぽいことをやりましょう。

まず、データの見た目を整えます。

typeの値が1号観察_計、2号観察_計などとなっていたのを、str_sub()関数を使って1号、2号、3号、4号としました。さらに、as.factor()関数を使って変数の型をファクター型に変換しました。

次に、locationの値が、さいたま保護観察所、北海道委員会管内と地名以外の文字が入っているので、str_replace()関数で""と置換、つまり削除して、as.factor()関数でファクター型にしました。どの都道府県も100個の観測値があることがわかります。

それでは、分析っぽいことをやっていきます。

まずは、タイプ別の基本統計量をみます。group_by()関数、summarize()関数、min()関数、mean()関数、median()関数、max()関数、sd()関数を使います。

平均値でみると、1号が644人で一番多く、3号が299人、4号が88.6人、2号が82.6人となっています。

ここで、1号とか2号が何を意味しているか、確認しておきましょう。

保護観察(ほごかんさつ)とは? 意味や使い方 - コトバンク (kotobank.jp)

から抜粋します。

「家庭裁判所の決定により保護観察に付された者(1号観察)、

少年院を仮退院した者(2号観察)、

仮釈放された者(3号観察)、

刑の執行を猶予され保護観察に付された者(4号観察)」

だそうです。保護観察に付された人(1号)が一番人数が多いのですね。

次は、location別の統計値です。

全部は表示していません。後でグラフにして全体を表示します。

続いて、year別の基本統計量です。

これも全部は表示できていないので、あとでグラフにします。

ggplot2のパッケージでグラフにしていきます。

はじめは、タイプ別の平均値をggplot()関数とgeom_col()関数で棒グラフにしてみました。

次は、location別の平均値です。

大阪のほうが東京よりも多いんですね。東京のほうが、青少年人口は多いはずですから、大阪は保護観察の人が多いんですね。

次はyear別です。

年を経るごとに人数は減っていることがわかります。

これは、保護観察になるような事件を起こす人が減ったのか、保護観察になる基準が緩くなってきているのか、そもそも青少年の人口が減ってきているのか、どうなんでしょうかね。

今回は以上です。

次回は、

www.crosshyou.info

です。

 

初めから読むには、

www.crosshyou.info

です。