の続きです。
summary関数でデータの要約を見てみます。
issueの最大値が67万1634って大きすぎのような気がします。
arrange関数でissueを大きい順に並び替えてみましょう。
あ。CSVファイルを作る際に削除していたと思っていた年間トータルのデータが残っていました。これは削除します。
もう一度summary関数で見てみます。
issueの最大値が6万9727となりました。
もう一度、arrange関数でissueの大きい順に表示してみます。
一番多いのは2017年8月の東京都で、6万9727冊の発行です。
substr関数を使って、yearからmonth(月)を作ります。
yearを年だけにします。これもsubstr関数を使います。
substr(文字列, 開始文字位置、終了文字位置)という構文です。
substr(dat$year, 2, 5) ということは、yearの2文字目から5文字目を抜き出しなさい、ということです。d201712 とあったら、2017となります。
年ごとの平均値をグラフにしてみます。
2014年が少ないです。
グラフにしないで、数値を確認しましょう。あ、平均値じゃなくて合計にします。
2010年が一番多くて、418万5073冊の発行です。2014年は321万0844冊の発行です。
月ごとの平均値をグラフにしてみます。
8月の発行が一番多いのですね。夏休みに海外旅行に行く人が多いからかな?
一番少ないのは11月のようです。
今回は以上です。
次回は
です。
第1回目は
です。