crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

貯蓄動向調査の分析3 - R言語のdplyrパッケージの練習

 

www.crosshyou.info

 の続きです。

今回は、R言語のdplyrパッケージの関数の練習をしてみようと思います。

まずは、library関数でtidyverseパッケージを呼び込みます。

f:id:cross_hyou:20181108184706j:plain

どのような変数があるか確認しましょう。str関数です。

f:id:cross_hyou:20181108184826j:plain

dplyrパッケージの5つの主要な関数、

filter関数:値から観測値を選ぶ

arrange関数:行を並び替える

select関数:名前で変数を選ぶ

mutate関数:既存の変数を操作して新しい変数を作る

summarize関数:多数の値から単一の統計値を作る

を試していこうと思います。

その前にデータフレームになっているdataをtibbleに変換します。as_tibble関数です。

f:id:cross_hyou:20181108185509j:plain

このようにデータフレームがtibbleになりました。A tibble: 84 x 49 とあるので、このデータセットが84行で49列だとわかります。

では、filter関数からいきましょう。

f:id:cross_hyou:20181108190237j:plain

世帯タイプが勤労者世帯、世帯人員数が4.0人以上のデータです。9レコードありました。昭和42年よりも昔ですね。

arrange関数をやってみます。

f:id:cross_hyou:20181108190725j:plain

平成10年が一番ですね。平成12年、13年よりも多いです。

select関数を試してみます。

f:id:cross_hyou:20181108191014j:plain

昭和34年の年間収入が43万2千円です。これが昭和43年には倍以上の107万8千円になっています。高度成長期ですね。

mutate関数で、貯蓄 / 年間収入を計算してみましょう。

その前に、世帯タイプ、年次、年間収入、貯蓄、負債だけのデータセットを作成しましょう。filter関数で!is.na(世帯タイプ)などとしてNAのないきれいなデータセットを作ります。

f:id:cross_hyou:20181108191835j:plain

このsml_dataというデータセットで貯蓄 / 年間収入を計算しましょう。

f:id:cross_hyou:20181108193311j:plain

昭和38年、41年、42年、43年は貯蓄率が100%を越えています。

summarize関数はgroup_by関数と一緒に使うといいようです。

f:id:cross_hyou:20181108193406j:plain

勤労者世帯は115%、全世帯は145%が平均値ですね。

今回はここまです。

 次回は

 

www.crosshyou.info

 

です。