今回からは、産業別会社の財務営業比率のデータを分析したいと思います。
データ元は、
の6-14 産業別会社の財務営業比率(エクセル:116KB)です。
こういうファイルです。
これをR言語に読込ませるために、以下のようなCSVファイルにしました。
このCSVファイルをread.csv関数でR言語に読込みます。
summary関数で最小値、第1分位値、中央値、平均値、第3分位値、最大値を表示しました。カテゴリ変数は産業だけで残りの変数は数値データです。
総資本回転率と有形固定資本回転率は回、
信用供与率から付加価値率までの変数はパーセント、
従業員1人当たり付加価値額と労働装備率は万円、
設備投資効率はパーセントです。
どの産業が一番自己資本比率が高いか?
どの西暦、年代が一番付加価値率が高いか?
どの産業とどの産業が似ているのか?
などを調べていきたいと思います。
作成したdataはデータフレームなので、tibble形式のデータに変換しようと思います。
そのために、tidyverseパッケージをlibrary関数で呼び出します。
as_tibble関数でtibbleに変換します。
# A tibble: 306 x 28 とありますから、306行28変数のデータセットだとわかります。
summary関数では標準偏差はわからないので、apply関数とsd関数で標準偏差を取得しておきましょう。
data[ , -1] とすることによって、dataの1列目の「産業」を除外して標準偏差を計算しています。
それぞれの変数の単位が違いますから、「標準偏差 / 平均値」で計算される「変動係数」を計算しましょう。
sort関数で小さい順に表示してみましょう。
内部留保率は平均値がマイナスなのでしょう、変動係数もマイナスです。そしてダントツに変動係数の絶対値が大きいですから、一番バラツキのある変数だとわかります。西暦、年代は無視すると、減価償却率が一番変動の小さい安定した変数だとわかります。
今回は以上です。
次回は
です。