www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

鉱工業出荷内訳表の分析5 - 輸出と国内の比率を計算し、基本統計量を計算する。(summary関数, apply関数とsd関数)

今回は、鉱工業出荷内訳表のデータから輸出と国内の比率を計算して、その比率の基本統計量を算出してみようと思います。出荷内訳、輸出と国内の内訳ですから、その比率が重要かな?と思います。

まずは、csvファイルに保存してあるデータをread.csv関数で読込み、head関数で始めの2行を表示してみます。

f:id:cross_hyou:20180811151747j:plain

f:id:cross_hyou:20180811151802j:plain

このようにデータが格納されています。輸出の列は、5,8,11,14,17,20,23,26,29,32,35,38,41,44,47,50番目の列ですね。

そして国内の列は、6,9,12,15,18,21,24,27,30,33,36,39,42,45,48,51ですね。

まずは、輸出だけ、国内だけのデータフレームを作りましょう。

f:id:cross_hyou:20180811152505j:plain

同じように、国内だけのデータフレームを作りましょう。

f:id:cross_hyou:20180811152801j:plain

輸出 / 国内 を計算します。

f:id:cross_hyou:20180811153032j:plain

ほんとうに正しく比率が計算されているかチェックしてみましょう。鉄鋼業の1行目は0.7864711です。鉄鋼業.輸出は96.5で、国内が122.7ですから、96.5 / 122.7を計算してみると、0.7864710676となりますので合っていますね。このデータフレームの列名を付け直しましょう。

f:id:cross_hyou:20180811153741j:plain

colnames属性に新しい列名を入れました。それでは、summary関数で基本統計量を算出しましょう。

f:id:cross_hyou:20180811154108j:plain

列名の名前もすっきりしましたね。比率の最小値は、石油の0.5660です。そして最大値は電気機の1,5760です。輸出 / 国内 の比率ですから、石油は輸出するよりも国内のほうが多いでしょうし、電気機は輸出が多いでしょうからこの結果は納得感があります。

標準偏差も計算しましょう。apply関数とsd関数です。

f:id:cross_hyou:20180811154639j:plain

標準偏差の一番大きいのは、情報通の0.19094568です。一番小さいのは鉱工業の0.05909062です。