今回は、鉱工業出荷内訳表のデータから輸出と国内の比率を計算して、その比率の基本統計量を算出してみようと思います。出荷内訳、輸出と国内の内訳ですから、その比率が重要かな?と思います。
まずは、csvファイルに保存してあるデータをread.csv関数で読込み、head関数で始めの2行を表示してみます。
このようにデータが格納されています。輸出の列は、5,8,11,14,17,20,23,26,29,32,35,38,41,44,47,50番目の列ですね。
そして国内の列は、6,9,12,15,18,21,24,27,30,33,36,39,42,45,48,51ですね。
まずは、輸出だけ、国内だけのデータフレームを作りましょう。
同じように、国内だけのデータフレームを作りましょう。
輸出 / 国内 を計算します。
ほんとうに正しく比率が計算されているかチェックしてみましょう。鉄鋼業の1行目は0.7864711です。鉄鋼業.輸出は96.5で、国内が122.7ですから、96.5 / 122.7を計算してみると、0.7864710676となりますので合っていますね。このデータフレームの列名を付け直しましょう。
colnames属性に新しい列名を入れました。それでは、summary関数で基本統計量を算出しましょう。
列名の名前もすっきりしましたね。比率の最小値は、石油の0.5660です。そして最大値は電気機の1,5760です。輸出 / 国内 の比率ですから、石油は輸出するよりも国内のほうが多いでしょうし、電気機は輸出が多いでしょうからこの結果は納得感があります。
標準偏差も計算しましょう。apply関数とsd関数です。
標準偏差の一番大きいのは、情報通の0.19094568です。一番小さいのは鉱工業の0.05909062です。