Photo by Simon Maage on Unsplash
の続きです。
このように、name_codeに対応して、sinryou_kenpoのようにそれを表す名前を付与したCSVファイルを作成しました。
これをRに読み込みます。
このデータフレームを前回作成してあるdata_fullsと結合させます。
inner_join()関数で結合しました。
arrange()関数を使って価格の高い順に表示してみます。
一番高いのは、car_gaisha, つまり輸入自動車でした。600万円越えの価格のものは外車だったのですね。
一番安いのは何でしょうか?
一番安いのは電話の通話料でした。8.93円とあります。
品目別の平均価格を見てみます。
tapply()関数で品目別の平均価格を算出して、sort()関数で並び替えてから、barplot()関数でグラフにしました。
自動車の次に高いのはピアノですね。
どれが価格の変動が激しいのか、変動係数(CV)を品目別の算出してみます。
変動係数は、標準偏差 / 平均値なので、まず、function()関数で変動係数を計算するカスタム関数を作ってから、tapply(), sort(), barplot()関数で同じように棒グラフにしています。
par(mai = c(0.5, 1.8, 0.5, 0.5))はグラフの余白を調整するものです。
国語の参考書が変動が激しく、封書や電話配線が安定していることがわかります。
時間軸別の平均価格をグラフにしてみます。
average <- の行で時間軸別の平均価格(対数変換)を算出しています。
yyyymmdd <- の行で時間軸のラベルを作成しています。
そして、plot()関数でグラフにしました。
2010年頃が価格が落ち込んでいるのと、突出して価格が高くなっている月があることが伺えます。
年別、月別の平均価格も見てみます。
1行目はstr_sub()関数でtime_codeのはじめの4文字だけを抜き出しています。
2行目は、tapply()関数でyearごとの平均値を算出しています。
3行目は、table()関数とname()関数でyearを各年一つだけにしています。
そしてplot()関数でグラフにしました。2010年が落ち込んで、そこから回復しています。
同じように月別の平均価格を見てみます。
5,6,7月が価格が低い時期ですね。11月、12月は高いです。
平均価格で安いときは41万4500円ぐらい、高いときは41万7500円ぐらいと3000円ぐらいの違いです。
今回は以上です。
次回は
です。
初めから読むには、
です。