今回からは、木質バイオマスエネルギー利用動向調査のデータをつかってR言語でのデータ分析の練習をしていきたいと思います。
政府統計の総合窓口(e-Stat)からデータを取得しました。
「本調査は、毎年、木質バイオマスのエネルギー利用動向を把握するため、木質バイオマスをエネルギー利用している事業所の概要、利用した設備の動向、公的補助の活用状況、利用した木質バイオマス量等の調査を行い、その動向について、全国、都道府県別に提供しています。」とのことです。
いくつかファイルがありましたが、使用したファイルは、2016年のデータです。
この都道府県別集計表の「木質バイオマスエネルギー利用機器の所有形態別事業所数」と「木質バイオマスの利用料」です。
この2つのファイルを合体させて以下のようなファイルにしました。
都道府県別に、事業所数、発電機のある事業所数、ボイラーのある事業所数、両方あり事業所数、木材チップ使用量、木質ペレット使用量、薪使用量、木粉使用量、その他の使用量です。使用量はトン単位です。
それではこのファイルをread.csv関数で読込みましょう。全国の行が余計なので、この行は削除してしまいましょう。
read.csv関数でCSVファイルのデータをR言語に読込み、df[-1, ]として最初の行、すなわち全国の行を削除しています。rownames関数で北海道の行が1になるように設定して、head関数ではじめの6行を表所しています。北海道の行が1となっていることがわかります。そして、summary関数で最小値、最大値、中央値、平均値などの基本的な統計量を算出しています。
summary関数では標準偏差が算出されませんので、apply関数とsd関数を組み合わせて各変数の標準偏差を出します。
同じようにapply関数とmean関数を組み合わせて各変数の平均値を出します。
こうして標準偏差と平均値が算出できましたから、変動係数(標準偏差 / 平均値)を計算してみます。
データのバラツキが小さいのは事業所総数と木材チップです。そしてデータのバラツキが大きいのは木質ペレットです。
事業所総数のヒストグラムをhist関数で作成します。
150以上の事業種のある都道府県がありますね。大きい順のデータを並び替えみましょう。
北海道が149か所、岩手が99か所、高知が79か所、宮崎が62か所、秋田県が55か所、岐阜県が52か所となっています。
事業所数が少ないところはどこでしょうか?東京かな?
沖縄が1か所、佐賀が2か所、神奈川が3か所、東京が4か所、千葉が5か所、大阪が6か所となっています。
使用量についても調べてみましょう。
もともとのデータは各原料データのみで総使用量が無いので、作成しましょう。rowSums関数で木材チップ(6列目)からその他(10列目)の値を合計します。
はい、こんな感じです。それでは総使用量で並び替えてみましょう。
北海道が一番ではないんですね。茨城が1番で82万4872トンです。福島、静岡、北海道、宮崎、秋田と続きます。
小さい順ではどうでしょうか?
東京がダントツで小さいですね。195トンしか使用していないです。埼玉、山梨、長崎、和歌山、香川と続きます。
総使用量の平均値や標準偏差、変動係数も算出しておきましょう。さきほどと同じくapply関数とsd関数、mean関数を使います。
総使用量の平均値は18万8952トンで変動係数は0.06です。
次は、hist関数でヒストグラムを作図します。
一番小さいレンジが一番度数が多いですね。
事業所総数と総使用量の散布図をplot関数で作成しましょう。
プラスの相関がありそうですね。cor関数で相関係数を算出します。
0.4097ですね。
今回は以上です。
次回は
です。