の続きです。
今回は事業所当りの木質バイオマス使用量を計算することからはじめましょう。
全国の事業所の合計が1343事業所、全国の使用量合計が888万0772トンなので、1事業所当り6612トンの木質バイオマスを使用している計算になります。
各都道府県ごとの値も計算しましょう。
茨城の事業所は1事業所当り7万4988トンも使用しています。
少ないところはどこでしょうか?
東京都がダントツで少ないですね。1事業所当り48トンです。
事業所当り使用量の各都道府県の値がどのように分布しているか、ヒストグラムで確認します。hist関数を使います。
1事業所当り2万トン以上使用する、規模の大きな都道府県が5つありますね。のこりは2万トン以下、大半は1万トン以下です。
plot関数とdensity関数で確率密度グラフで表示してみます。
小さい順に並べてグラフを書いてみましょう。
上位の4つ、茨城、神奈川、千葉、佐賀が外れ値っぽいですよね。boxplot関数で箱ひげ図を作成してみます。
外れ値を表す丸い図形が4つありますので、やっぱり茨城、神奈川、千葉、佐賀は外れ値ですね。
この4件とその他の43都道府県で事業所の構成比率や使用する材料の構成比率に違いがあるでしょうか?
まずは、4件だけのデータフレームを作りましょう。fourという名前にしましょう。
subset関数で作ります。
この4件は木質ペレットは使用していないですね。
残りの43都道府県のデータフレームも作りましょう。othersという名前にします。
このように、茨城県、神奈川県、千葉県、佐賀県が除外されているのが確認できます。
それでは4件の事業所の構成比をみてみましょう。colSums関数で3列目から5列目の合計値を計算します。
発電機が8、ボイラーが9、両方が4となりました。
その他の都道府県はどうでしょうか?
圧倒的にボイラーが多いですね、ボイラーの事業所は規模が小さいのでしょう。
両グループの事業所構成比率に統計的に有意な違いがあるかをカイ自乗検定で確認します。
まずは、そのためのマトリックスを作成します。matrix関数を使います。
colnames関数で列名を付与して、rownames関数で行名を付与しました。
カイ自乗検定はchisq.test関数です。
p-value = 5.42e-10 < 0.05 ですから、統計的に4県とその他では事業所の構成比率に差があるといえます。それでは、どの部分が有意に違っているでしょうか?
chisq.test関数の結果を変数に格納して、$residualsでどの部分が有意なのかわかります。絶対値で1.96以上だと有意な違いとみます。こうしてみると、4県は発電機と両方が有意に多く、ボイラーが有意に少ないことがわかります。
同じように使用する材料の種類についても分析してみましょう。
使用量の合計値をcolSums関数で6列目から10列目を合計します。
数値が大きくて違いがわかりにくいですね。パーセント表示にしてみましょう。
prop.table関数を使います。
木質ペレットを使うかどうかと木粉の使用に差がある感じですね。それではカイ自乗検定をしてみましょう。
まずはマトリックスを作成します。
chisq.test関数でカイ自乗検定を実行します。
p-value < 2.2e-16 < 0.05ですから4県とその他の件の使用する材料の比率に違いがあると言えます。
どの部分が有意に違うのかを見てみましょう。
すべての材料で有意に違いがありますね。4県を基準にして言うと、4県は木材チップ、木粉、その他が多く、木質ペレット、薪が少ないということです。
今回は以上です。