前回は、鉱工業出荷内訳表のデータを使って、輸出 / 国内の比率の傾向を調べました。2015年以降は輸出のほうが多くなっていることがわかりました。
今回は、月によって、輸出 / 国内 の比率に傾向があるかどうかを調べたいと思います。
まずは、read.csv関数でデータを読込み、summary関数でデータの要約を表示します。
こんな感じです。
次に、輸出だけ、国内だけ、のデータフレームを作成します。
データフレーム[ , c(必要な列1, 必要な列2, ...)]というように、データフレームと[ ]で必要な列を指定して、輸出だけ、国内だけのデータフレームを作成しています。作成したデータフレームを割り算すると、輸出 / 国内 の比率になります。
head(データフレーム, 表示行数)で、初めの2行だけを表示しています。
列名が、鉱工業.輸出のように、.輸出がついていますので、新しく列名を付け直します。
summary関数で要約します。
比率の最小値は、石油が記録した0.5660で、最大値は情報通の1.6620ですね。
cut関数で1未満を国内超、1より大きいを輸出超とファクタに変換します。
こうして作成したファクタのデータ群ともとのデータフレームの年、月のデータを結合させます。cbind関数を使います。
年と月が数値データとして取り込まれていますので、factor関数を使って、ファクタに変換します。
このように、ファクタに変換されました。
月と各業種のクロス表を作成します。table関数を使います。
こうして、作成したクロス表を合計します。単純に足し算するとOKです。
1月と2月は輸出超が多い感じですが、有意な違いといえるのかな?カイ自乗検定で確かめてみましょう。
帰無仮説:月と輸出超・国内超の度数は関連がない。
対立仮設:月と輸出超・国内超の度数は関連がある。
です。
p-vakue = 0.801 > 0.05 ですから、帰無仮説は棄却されません。
月によって、輸出超・国内超の度数に違いはないようです。