Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

木質バイオマスエネルギー利用動向調査の分析1 - R言語で基本統計量など。

今回からは、木質バイオマスエネルギー利用動向調査のデータをつかってR言語でのデータ分析の練習をしていきたいと思います。

政府統計の総合窓口(e-Stat)からデータを取得しました。

「本調査は、毎年、木質バイオマスのエネルギー利用動向を把握するため、木質バイオマスをエネルギー利用している事業所の概要、利用した設備の動向、公的補助の活用状況、利用した木質バイオマス量等の調査を行い、その動向について、全国、都道府県別に提供しています。」とのことです。

f:id:cross_hyou:20181212193129j:plain

いくつかファイルがありましたが、使用したファイルは、2016年のデータです。

f:id:cross_hyou:20181212193254j:plain

この都道府県別集計表の「木質バイオマスエネルギー利用機器の所有形態別事業所数」と「木質バイオマスの利用料」です。

この2つのファイルを合体させて以下のようなファイルにしました。

f:id:cross_hyou:20181212193542j:plain

都道府県別に、事業所数、発電機のある事業所数、ボイラーのある事業所数、両方あり事業所数、木材チップ使用量、木質ペレット使用量、薪使用量、木粉使用量、その他の使用量です。使用量はトン単位です。

それではこのファイルをread.csv関数で読込みましょう。全国の行が余計なので、この行は削除してしまいましょう。

f:id:cross_hyou:20181212195225j:plain

read.csv関数でCSVファイルのデータをR言語に読込み、df[-1, ]として最初の行、すなわち全国の行を削除しています。rownames関数で北海道の行が1になるように設定して、head関数ではじめの6行を表所しています。北海道の行が1となっていることがわかります。そして、summary関数で最小値、最大値、中央値、平均値などの基本的な統計量を算出しています。

summary関数では標準偏差が算出されませんので、apply関数とsd関数を組み合わせて各変数の標準偏差を出します。

f:id:cross_hyou:20181212200108j:plain

同じようにapply関数とmean関数を組み合わせて各変数の平均値を出します。

f:id:cross_hyou:20181212200555j:plain

 

こうして標準偏差と平均値が算出できましたから、変動係数(標準偏差 / 平均値)を計算してみます。

f:id:cross_hyou:20181212200959j:plain

データのバラツキが小さいのは事業所総数と木材チップです。そしてデータのバラツキが大きいのは木質ペレットです。

事業所総数のヒストグラムをhist関数で作成します。

f:id:cross_hyou:20181212202032j:plain

f:id:cross_hyou:20181212201915j:plain

 

150以上の事業種のある都道府県がありますね。大きい順のデータを並び替えみましょう。

f:id:cross_hyou:20181212202358j:plain

北海道が149か所、岩手が99か所、高知が79か所、宮崎が62か所、秋田県が55か所、岐阜県が52か所となっています。

事業所数が少ないところはどこでしょうか?東京かな?

f:id:cross_hyou:20181212203728j:plain

 

沖縄が1か所、佐賀が2か所、神奈川が3か所、東京が4か所、千葉が5か所、大阪が6か所となっています。

使用量についても調べてみましょう。

もともとのデータは各原料データのみで総使用量が無いので、作成しましょう。rowSums関数で木材チップ(6列目)からその他(10列目)の値を合計します。

f:id:cross_hyou:20181212205053j:plain

はい、こんな感じです。それでは総使用量で並び替えてみましょう。

f:id:cross_hyou:20181212205606j:plain

北海道が一番ではないんですね。茨城が1番で82万4872トンです。福島、静岡、北海道、宮崎、秋田と続きます。

小さい順ではどうでしょうか?

f:id:cross_hyou:20181212205908j:plain

東京がダントツで小さいですね。195トンしか使用していないです。埼玉、山梨、長崎、和歌山、香川と続きます。

総使用量の平均値や標準偏差、変動係数も算出しておきましょう。さきほどと同じくapply関数とsd関数、mean関数を使います。

f:id:cross_hyou:20181212210248j:plain

総使用量の平均値は18万8952トンで変動係数は0.06です。

次は、hist関数でヒストグラムを作図します。

f:id:cross_hyou:20181212210804j:plain

f:id:cross_hyou:20181212210833j:plain

一番小さいレンジが一番度数が多いですね。

事業所総数と総使用量の散布図をplot関数で作成しましょう。

f:id:cross_hyou:20181212211103j:plain

f:id:cross_hyou:20181212211119j:plain

プラスの相関がありそうですね。cor関数で相関係数を算出します。

f:id:cross_hyou:20181212211322j:plain

 

0.4097ですね。

今回は以上です。

 次回は

 

www.crosshyou.info

 

です。