www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

産業別会社の財務営業比率の分析7 - R言語で2つの変数の関係性を見る(連続変数と連続変数)

 

www.crosshyou.info

 の続きです。

今回は、連続変数と連続変数の関係性を見てみます。具体的には、R言語のggplot関数のgeom_point関数で散布図を作成してみます。

試しに自己資本比率と労働装備率の散布図を作成してみます。

f:id:cross_hyou:20181124130645j:plain

f:id:cross_hyou:20181124130656j:plain

産業別や年代別を考慮していないと上図のような散布図になります。

color = 産業 というコマンドを追加してみます。

f:id:cross_hyou:20181124131103j:plain

f:id:cross_hyou:20181124131113j:plain

業種によって傾向が違うことがわかります。

shape = 産業 としてみましょう。

f:id:cross_hyou:20181124131430j:plain

f:id:cross_hyou:20181124131440j:plain

あ、これは失敗でした。The shape palette can be deal with a maximum 6 descret valueとあります。産業は9種類あるので全産業、電気業、不動産業が散布図に描かれていません。

facet_wrap(~ 産業, nrow = 2) というコマンドを追加してみます。facetって宝石の切り口の面という意味らしいです。

f:id:cross_hyou:20181124132148j:plain

f:id:cross_hyou:20181124132204j:plain

電気業、不動産業、ガス熱水道業は縦長で、その他は横長って感じですね。

geom_point関数ではなくて、geom_smooth関数を使うとどうなるでしょうか?color = 産業 と合わせてやってみましょう。

f:id:cross_hyou:20181124132953j:plain

f:id:cross_hyou:20181124133004j:plain

お、なんかかっこいいですね。geom_point関数も追加して、個々の点も表示しましょう。

f:id:cross_hyou:20181124133322j:plain

f:id:cross_hyou:20181124133643j:plain

これと同じようにcolor = 年代 でやってみましょう。

f:id:cross_hyou:20181124133957j:plain

f:id:cross_hyou:20181124133925j:plain

color = 産業 のグラフと color = 年代 のグラフを見比べると、産業のグラフのほうがまとまっている、というか、自己資本と労働装備率の関係性は年代よりも産業の影響が大きいとわかります。

今回は以上です。