の続きです。
今回は、R言語のdplyrパッケージの関数の練習をしてみようと思います。
まずは、library関数でtidyverseパッケージを呼び込みます。
どのような変数があるか確認しましょう。str関数です。
dplyrパッケージの5つの主要な関数、
filter関数:値から観測値を選ぶ
arrange関数:行を並び替える
select関数:名前で変数を選ぶ
mutate関数:既存の変数を操作して新しい変数を作る
summarize関数:多数の値から単一の統計値を作る
を試していこうと思います。
その前にデータフレームになっているdataをtibbleに変換します。as_tibble関数です。
このようにデータフレームがtibbleになりました。A tibble: 84 x 49 とあるので、このデータセットが84行で49列だとわかります。
では、filter関数からいきましょう。
世帯タイプが勤労者世帯、世帯人員数が4.0人以上のデータです。9レコードありました。昭和42年よりも昔ですね。
arrange関数をやってみます。
平成10年が一番ですね。平成12年、13年よりも多いです。
select関数を試してみます。
昭和34年の年間収入が43万2千円です。これが昭和43年には倍以上の107万8千円になっています。高度成長期ですね。
mutate関数で、貯蓄 / 年間収入を計算してみましょう。
その前に、世帯タイプ、年次、年間収入、貯蓄、負債だけのデータセットを作成しましょう。filter関数で!is.na(世帯タイプ)などとしてNAのないきれいなデータセットを作ります。
このsml_dataというデータセットで貯蓄 / 年間収入を計算しましょう。
昭和38年、41年、42年、43年は貯蓄率が100%を越えています。
summarize関数はgroup_by関数と一緒に使うといいようです。
勤労者世帯は115%、全世帯は145%が平均値ですね。
今回はここまです。
次回は
です。