の続きです。
今回は、連続変数と連続変数の関係性を見てみます。具体的には、R言語のggplot関数のgeom_point関数で散布図を作成してみます。
試しに自己資本比率と労働装備率の散布図を作成してみます。
産業別や年代別を考慮していないと上図のような散布図になります。
color = 産業 というコマンドを追加してみます。
業種によって傾向が違うことがわかります。
shape = 産業 としてみましょう。
あ、これは失敗でした。The shape palette can be deal with a maximum 6 descret valueとあります。産業は9種類あるので全産業、電気業、不動産業が散布図に描かれていません。
facet_wrap(~ 産業, nrow = 2) というコマンドを追加してみます。facetって宝石の切り口の面という意味らしいです。
電気業、不動産業、ガス熱水道業は縦長で、その他は横長って感じですね。
geom_point関数ではなくて、geom_smooth関数を使うとどうなるでしょうか?color = 産業 と合わせてやってみましょう。
お、なんかかっこいいですね。geom_point関数も追加して、個々の点も表示しましょう。
これと同じようにcolor = 年代 でやってみましょう。
color = 産業 のグラフと color = 年代 のグラフを見比べると、産業のグラフのほうがまとまっている、というか、自己資本と労働装備率の関係性は年代よりも産業の影響が大きいとわかります。
今回は以上です。