今回は、鉱工業集荷内訳表のデータを加工した、輸出 / 国内 の比率を1.0より大きいなら輸出超、1.0以下なら国内超という2つのファクタに変換して、クロス表分析をしたいと思います。このブログの名前がCross_Hyouなのに最近、全然クロス表分析をしていませんでしたからね。
まずは、前回までのおさらいで、データを 輸出 / 国内 の比率にするところまでをやります。
# 鉱工業出荷内訳表データの読込み
内訳表 <- read.csv("shukka.csv")
# 輸出だけのデータ
輸出だけ <- 内訳表[ , c(5,8,11,14,17,20,23,26,29,32,35,38,41,44,47,50)]
# 国内だけのデータ
国内だけ <- 内訳表[ , c(6,9,12,15,18,21,24,27,30,33,36,39,42,45,48,51)]
# 輸出 / 国内
比率 <- 輸出だけ / 国内だけ
# 比率のデータフレームの列名の変更
colnames(比率) <- c("鉱工業","鉄鋼業","非鉄金","金属製","はん用","電子部","電気機","情報通", "輸送機","窯業","化学工","化学除","石油","プラス","パルプ","繊維工")
これで、「比率」という名前のデータフレームができました。
ためしに、鉱工業の比率のデータを表示してみます。
このような数値データをファクタに変換するには、cut関数を使います。
まず、kubun <- c(0,1,2)というコマンドで、区分を表すベクトルを指定してから、cut関数を使います。labels=で2つのファクタに名前をつけます。ちゃんと2つのファクタになっているか、確認してみます。
はい、うまくいきました。cut関数では、~より大きく~以下、というように区切られますので、一番初めのデータの1.000000は国内超に区分されます。
この調子で残りの業種もファクタに変換します。
こうして作成したファクタのデータを一番はじめの内訳表のデータのデータ番号、年、月と合体させます。cbind関数です。
summary関数で表示すると、年と月は数値データなので、平均値等が表示されています。これをfactor関数でファクタに変換します。
このように年、月の度数が表示されています。数値データがファクタに変わりました。
それでは、年 と鉱工業ファクタのクロス表を作ります。table関数です。
おお~~2015年以降は全て、輸出超ですね。こんな感じでクロス表ができます。
全ての業種のクロス表を作ります。
こうして、全てのクロス表を作ったら、合計します。
2008年、2009年、2012年などは国内超が多く、2015年以降は輸出超が多いですね。では、この年によって、国内超、輸出超の比率が違うのは統計的に有意かどうかをカイ自乗検定で確認します。chisq.test関数です。
p-value < 2.2e-16 < 0.05ですから、年と国内超、輸出超の度数は関連があることがわかります。調整済み残差を表示します。
絶対値が1.96以上の部分は有意な違いがる部分です。こうしてみると、2010年、2013年、2014年は有意な差ではないですが、それ以外の年は国内超、輸出超のどちらかに偏っていて、それは有意な偏りであることがわかります。2015年からは輸出超が続いています。ここ数年の鉱工業生産の好調さは、輸出の恩恵ということですね。