www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

木質バイオマスエネルギー利用動向調査の分析３ - R言語で茨城、神奈川、千葉、佐賀とその他の都道府県の違いを確認する

データ分析

www.crosshyou.info

の続きです。

今回は事業所当りの木質バイオマス使用量を計算することからはじめましょう。

f:id:cross_hyou:20181215114257j:plain

全国の事業所の合計が1343事業所、全国の使用量合計が888万0772トンなので、1事業所当り6612トンの木質バイオマスを使用している計算になります。

各都道府県ごとの値も計算しましょう。

f:id:cross_hyou:20181215114829j:plain

茨城の事業所は1事業所当り7万4988トンも使用しています。

少ないところはどこでしょうか？

f:id:cross_hyou:20181215115058j:plain

東京都がダントツで少ないですね。1事業所当り48トンです。

事業所当り使用量の各都道府県の値がどのように分布しているか、ヒストグラムで確認します。hist関数を使います。

f:id:cross_hyou:20181215115625j:plain

f:id:cross_hyou:20181215115635j:plain

1事業所当り2万トン以上使用する、規模の大きな都道府県が5つありますね。のこりは2万トン以下、大半は1万トン以下です。

plot関数とdensity関数で確率密度グラフで表示してみます。

f:id:cross_hyou:20181215120053j:plain

f:id:cross_hyou:20181215120107j:plain

小さい順に並べてグラフを書いてみましょう。

f:id:cross_hyou:20181215120609j:plain

f:id:cross_hyou:20181215120555j:plain

上位の4つ、茨城、神奈川、千葉、佐賀が外れ値っぽいですよね。boxplot関数で箱ひげ図を作成してみます。

f:id:cross_hyou:20181215121003j:plain

f:id:cross_hyou:20181215120911j:plain

外れ値を表す丸い図形が4つありますので、やっぱり茨城、神奈川、千葉、佐賀は外れ値ですね。

この4件とその他の43都道府県で事業所の構成比率や使用する材料の構成比率に違いがあるでしょうか？

まずは、4件だけのデータフレームを作りましょう。fourという名前にしましょう。

subset関数で作ります。

f:id:cross_hyou:20181215122514j:plain

この4件は木質ペレットは使用していないですね。

残りの43都道府県のデータフレームも作りましょう。othersという名前にします。

f:id:cross_hyou:20181215123410j:plain

このように、茨城県、神奈川県、千葉県、佐賀県が除外されているのが確認できます。

それでは4件の事業所の構成比をみてみましょう。colSums関数で3列目から5列目の合計値を計算します。

f:id:cross_hyou:20181215123937j:plain

発電機が8、ボイラーが9、両方が4となりました。

その他の都道府県はどうでしょうか？

f:id:cross_hyou:20181215124152j:plain

圧倒的にボイラーが多いですね、ボイラーの事業所は規模が小さいのでしょう。

両グループの事業所構成比率に統計的に有意な違いがあるかをカイ自乗検定で確認します。

まずは、そのためのマトリックスを作成します。matrix関数を使います。

f:id:cross_hyou:20181215124859j:plain

colnames関数で列名を付与して、rownames関数で行名を付与しました。

カイ自乗検定はchisq.test関数です。

f:id:cross_hyou:20181215125217j:plain

p-value = 5.42e-10 < 0.05 ですから、統計的に4県とその他では事業所の構成比率に差があるといえます。それでは、どの部分が有意に違っているでしょうか？

f:id:cross_hyou:20181215125945j:plain

chisq.test関数の結果を変数に格納して、$residualsでどの部分が有意なのかわかります。絶対値で1.96以上だと有意な違いとみます。こうしてみると、4県は発電機と両方が有意に多く、ボイラーが有意に少ないことがわかります。

同じように使用する材料の種類についても分析してみましょう。

使用量の合計値をcolSums関数で6列目から10列目を合計します。

f:id:cross_hyou:20181215130742j:plain

数値が大きくて違いがわかりにくいですね。パーセント表示にしてみましょう。

prop.table関数を使います。

f:id:cross_hyou:20181215131041j:plain

木質ペレットを使うかどうかと木粉の使用に差がある感じですね。それではカイ自乗検定をしてみましょう。

まずはマトリックスを作成します。

f:id:cross_hyou:20181215131904j:plain

chisq.test関数でカイ自乗検定を実行します。

f:id:cross_hyou:20181215131935j:plain

p-value < 2.2e-16 < 0.05ですから4県とその他の件の使用する材料の比率に違いがあると言えます。

どの部分が有意に違うのかを見てみましょう。

f:id:cross_hyou:20181215132047j:plain

すべての材料で有意に違いがありますね。4県を基準にして言うと、4県は木材チップ、木粉、その他が多く、木質ペレット、薪が少ないということです。

今回は以上です。