Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の宿泊旅行統計調査の分析3 - 新しいデータフレームをR言語のdata.frame関数で作る

 

www.crosshyou.info

 の続きです。

今回は2018年と2020年を比較してどれだけ伸びているか、2018年と2020年の平均値、観光メインとビジネスメインの従業員数の比率を計算して、これらを新しいデータフレームにまとめてみようと思います。

まず、2018年だけのデータフレーム、2019年だけのデータフレームを作ります。

データフレームのサブスクリプツ

次に、order関数を使って、都道府県名を順番に並べるためのインデックスを作ります。

order関数

 

この作成したindex2020, index2018を使って伸び率や平均値を作ります。

データフレームの列の計算

こうして、7つの新しい変数ができました。
Total_chg: Totalの伸びの倍率

Tour_chg: Tourの伸びの倍率

Biz_chg: Bizの伸びの倍率

Total_avg: Totalの平均値

Tour_avg: Tourの平均値

Biz_avg: Bizの平均値

Tour_Biz_Ratio: Tour_avgとBiz_avgの比率

この7つの変数と都道府県名を合わせて新しいデータフレーム、ndfを作ります。

data.frame関数で作ります。

data.frame関数

str関数で構造を確認します。

str関数でデータの構造を確認

うまくできたようです。

summary関数でサマリーを見てみましょう。

summary関数

Tour_Biz_Ratioを見ると、平均は3.0, 中央値が2.5です。観光目的の宿泊施設の従業員数のほうが多いことがわかりますが、最小値が0.7なのでビジネス目的の宿泊施設の従業員数が多い都道府県があることもわかります。

今回は以上です。