Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

産業別会社の財務営業比率の分析1 - R言語で基本統計量を取得する

今回からは、産業別会社の財務営業比率のデータを分析したいと思います。

データ元は、

www.stat.go.jp

f:id:cross_hyou:20181112201159j:plain

の6-14 産業別会社の財務営業比率(エクセル:116KB)です。

f:id:cross_hyou:20181112201333j:plain

こういうファイルです。

これをR言語に読込ませるために、以下のようなCSVファイルにしました。

f:id:cross_hyou:20181112201842j:plain

このCSVファイルをread.csv関数でR言語に読込みます。

f:id:cross_hyou:20181112204038j:plain

summary関数で最小値、第1分位値、中央値、平均値、第3分位値、最大値を表示しました。カテゴリ変数は産業だけで残りの変数は数値データです。

当座比率から売上高経常利益率までの変数はパーセント、

総資本回転率と有形固定資本回転率は回、

棚卸資産回転期間売掛金回転期間、買掛金回転期間は月、

信用供与率から付加価値率までの変数はパーセント、

従業員1人当たり付加価値額と労働装備率は万円、

設備投資効率はパーセントです。

どの産業が一番自己資本比率が高いか?

どの西暦、年代が一番付加価値率が高いか?

どの産業とどの産業が似ているのか?

などを調べていきたいと思います。

作成したdataはデータフレームなので、tibble形式のデータに変換しようと思います。

そのために、tidyverseパッケージをlibrary関数で呼び出します。

f:id:cross_hyou:20181112203625j:plain

as_tibble関数でtibbleに変換します。

f:id:cross_hyou:20181112204151j:plain

# A tibble: 306 x 28 とありますから、306行28変数のデータセットだとわかります。

summary関数では標準偏差はわからないので、apply関数とsd関数で標準偏差を取得しておきましょう。

f:id:cross_hyou:20181112205026j:plain

data[ , -1] とすることによって、dataの1列目の「産業」を除外して標準偏差を計算しています。

それぞれの変数の単位が違いますから、「標準偏差 / 平均値」で計算される「変動係数」を計算しましょう。

f:id:cross_hyou:20181112210456j:plain

sort関数で小さい順に表示してみましょう。

f:id:cross_hyou:20181112210834j:plain

内部留保率は平均値がマイナスなのでしょう、変動係数もマイナスです。そしてダントツに変動係数の絶対値が大きいですから、一番バラツキのある変数だとわかります。西暦、年代は無視すると、減価償却率が一番変動の小さい安定した変数だとわかります。

今回は以上です。

 次回は

 

www.crosshyou.info

 です。