(Bing Image Creator で生成: プロンプト: Landscape photography, flowering Peony flowers, wide blue sky and white clouds)
の続きです。
前回は、東証株価指数の前月と当月の比率をグラフにしました。
こんな感じでかなり予測は難しそうです。そこで方針を転換して、東証株価指数そのものをターゲット変数することから始めてみようと思います。
そこで、Topixという変数名を tpxchgに変更して、Le9という名前の変数が東証株価指数なので、これを tpxという名前に変更します。
分析しやすいように、tpxを一番左に、tpxchgをその隣にします。
とりあえず、tpxのグラフを描きます。
1989年の株価バブルがはじけて、ようやく同じ水準になった感じですね。
このデータセットはたくさん変数があります。東証株価指数と一番相関の高い変数を見つけて、それとの回帰分析からはじめたいと思います。
まず、変数の数を確認します。
35個の変数がありますね。なので、34個の相関係数を計算します。
この34個の相関係数を格納する箱をつくります。
次に、forループで34個の相関係数を計算します。
この soukanをプロットしてみます。
一番相関の高い変数は、0.8を超えていますね。
それが何か確認しましょう。
tpxと一番、相関係数の高い変数は、Lg5でした。
これは何かというと、遅行系列の法人税収入【億円】でした。法人税の収入が多いということは、企業の儲けが大きいということです。企業の儲けが大きいということは、株価も高いでしょうから納得の結果ですね。
試しに Lg5をグラフにしてみます。
確かに東証株価指数のグラフと似たようなかたちですね。
ということで、次回はこの Lg5: 法人税収入との回帰分析をしてみます。
今回は以上です。
次回は
です。
はじめから読むには、
です。
今回のコードは以下になります。
#
# Topixの名前をtpxchgにして、Le9をtpxにする
df <- df |>
rename(tpxchg = Topix) |>
rename(tpx = Le9)
df
#
# tpxを一番左、tpxchgを2番目にする
df <- df |>
relocate(tpx, tpxchg)
df
#
# tpxのグラフ
ggplot(df, aes(x = time, y = tpx)) +
geom_line()
#
# dfの変数の数
dim(df)
#
# tpxと他の変数の相関を調べたい
# 相関係数を入れる箱を作る
soukan <- numeric(34)
#
# for loop で相関を計算して、soukanに格納
for (i in 2:35) {
soukan[i - 1] <- cor(df$tpx, as.numeric(dfi), use = "complete.obs")
}
#
# soukanのプロット
plot(soukan)
#
# 一番相関の高いのは?
colnames(df)[which.max(soukan) + 1]
cor(df$tpx, df$Lg5, use = "complete.obs")
#
# Lg5のグラフ
ggplot(df, aes(x = time, y = Lg5)) +
geom_line()
#