いままでは、Excelを使って分析をしていましたが、ここからはR言語を使って分析をしていきたいと思います。
使うデータは2016年度の法人企業統計年報のデータです。
データのファイルをCSV形式で保存して、read.csvコマンドでRに読み込ませました。
CSVファイルはこんな感じです。
これを、read.csvコマンドでRに読み込ませます。
Houjin2016 <- read.csv("Houjin2016.csv", header = TRUE)
読み込ませたデータを、headコマンドで、データを出力すると、こんな感じです。
変数名を説明すると、Indus_Codeは業種コード、Popuが母集団(企業数)、Sousi_Keijiが総資本経常利益率、Uria_Keijiが売上高経常利益率、Soushi_Kaiteが総資本回転率、Kiboが規模で、KL1が10億円以上、KL2が1億円以上10億円未満、KL3が5000万円以上1億円未満、KL4が2000万円以上5000万円未満、KL5が1000万円以上2000万円未満という意味です。SeHiは製造業か、非製造業か、ですね。
まずは、summaryコマンドで平均値などを表示してみましょう。
summaryコマンドでは、量的変数(Popuなど)は最小値、第1分位、平均値、中央値、第3分位、最大値を出力します。質的変数(Kiboなど)はそれぞれのカテゴリの度数を出力します。
標準偏差は出力されないので、別途sdコマンドで出力します。