の続きです。
前回は2013年から2019年の2月だけのデータしかCSVファイルにしませんでしたが、その後、地道な作業をして(本当はR言語でプログラムを組んで簡単にファイルを東証のウェブから取り込みたかった。)、2013年1月から2019年2月までの各月のデータをまとめました。
そのstr関数とsummary関数の結果がこちらです。
前回と違うのは、Monthという変数が追加されたことと、当然ですが観測(Observations)の数が大幅に増えたことです。
これだけ観測の数が増えると、どこから手をつけたらいいかわからなくなりますので、まずは、全体(Levelで言うと1、Typeで言うとTotal)だけで分析してみましょう。
まずは、Totalだけのデータフレームを作成しましょう。
上のようになりました。LevelとTypeの変数はもういらないので、削除しましょう。
Levelが3番目、Typeが4番目の変数なので、df1[ , c(-3, -4)] としてその列を削除しています。
まずは、aggregate関数とmean関数でYearごとの平均値をみてみましょう。
Number(会社数), Income, NetAssetは年をおうごとに増加しています。PERは低下しています。PBRはどちらでもないって感じでしょうか?
cor関数で相関係数のマトリックスを作成します。
Yearとの相関を見ると、Number, Income, NetAssetは高い正の相関、PERは負の相関、PBRはあまり相関が無いことがわかります。
plot関数でX軸をYear, Y軸をPERのグラフを描いてみましょう。
やはり年をおうごとにPERは低下しています。Yearをfactor関数でファクタにして箱ひげ図にしてみてみましょう。
こんどはY軸をPBRにして同じように散布図と箱ひげ図を作ってみましょう。
par(mfrow = c(1, 2))というコマンドで一つのグラフ画面に2つのグラフを入れます。
PBRはこのように年々低下しているようには見えませんね。
今回は以上です。
次回は
です。
以下は今回のコードです。
# str関数でデータ構造の確認
str(df)
# summary関数で基本統計量
summary(df)
# Totalだけのデータフレームを作成
df1 <- df[df$Type == "Total", ]
str(df1)
summary(df1)
# LevelとTypeを削除
df1 <- df1[ , c(-3, -4)]
str(df1)
summary(df1)
# Yearごとの平均値
aggregate(df1[ , c(3:7)], list(Year = df1$Year), mean)
# cor関数で相関係数マトリックス
round(cor(df1), 2)
# X軸がYear, Y軸がPERのグラフ
plot(df1$Year, df1$PER)
# Yearをファクタにしたグラフ
plot(factor(df1$Year), df1$PER)
# Y軸をPBRに変更
par(mfrow = c(1, 2))
plot(df1$Year, df1$PBR)
plot(factor(df1$Year), df1$PBR)