の続きです。
今回はgroup_by関数とsummarize関数で産業別、年代別の平均値などを算出したいと思います。
データセットはこういうものでした。
早速、group_by関数とsummarize関数を使って、借入金利子率の産業別の平均値を算出してみます。
group_by関数で産業別にデータをまとめて、select関数で産業と借入金利子率だけを選択し、summarize関数で借入金利子率の平均を計算し、arrange関数で値の小さい順に表示しました。不動産業が一番、利子率が低く、運輸業が高いとわかります。
年代別ではどうでしょうか?
利子率は年代が新しくなるほど低くなっています。このことを全産業だけの利子率のグラフを作成して確認してみましょう。
filter関数でdata3という全産業だけのデータセットを作り、ggplot関数のgeom_line関数でグラフにしました。ご覧のとおり、借入金利子率は長期的に低下傾向であることがわかります。
いちおう、全ての産業で利子率が低下傾向なのかをグラフにして確認しておきましょう。
ggplot関数のgeom_line関数で折れ線グラフを描き、facet_wrap関数で産業別に表示しています。すべての産業で利子率の低下傾向が確認できました。
今回は以上です。
次回は
です。