Photo by Martina Mainetti on Unsplash
の続きです。
前回は工業用水量のデータをはじめ総人口や県内総生産額などのデータが対数正規分布になっていることを確認しました。
まず、codeだけではどれがどの都道府県なのかわからないので、あらかじめ用意してある、
このCSVファイルを読み込んで、データフレームdfと結合させます。
innder_join()関数で結合させます。
うまく結合しているのか、確認しましょう。
うまく結合しています。
ここで新しく追加された変数を説明しておきます。
east: 東日本なら1、西日本なら0のダミー変数
big6: 東京都、大阪府、神奈川県、愛知県、千葉県、埼玉県なら1、その他は0のダミー変数
nosea: 海が無い県は1、海が有る県は0のダミー変数
です。
na.omit()関数でNAのある行を除外します。
yearを見ると一番古い調査年は2001年で一番新しい調査年は2014年です。
2014年のデータで、工業用水量が一番多い都道府県はどこなのか、みてみましょう。
filter()関数で2014年だけにして、select()関数でprefとwaterだけを選択して、arrange()関数とdesc()関数をつかってwaterの大きい順に表示します。
千葉県が一番ですね。1834万6027m3/日です。どれだけの量なのか全く想像つかないですが。
2番が山口県、3番が愛知県、4番が兵庫県、5番が岡山県と続きます。
反対に少ないところはどこでしょうか?
奈良県が一番少ないです。5万3275m3/日です。千葉県のおよそ340分の1の量です。
山梨県が2番目に少なく、以下、鳥取県、長崎県、山形県と続いています。
製造業付加価値額(百万円)当りの工業用水量の(m3/日)を計算してみます。
これも対数正規分布しているようですね。
対数変換した変数も作っておきます。
それでは、製造業付加価値額(百万円)当りの工業用水量(m3/日)の値ではどこの都道府県が多いのか、みてみましょう。
山口県が1番ですね。製造業付加価値額(百万円)当り、9.05m3/日の工業用水量を使います。2番が千葉県で、3番が大分県です。
沖縄県は絶対量では少ないほうにランクインしていましたが、製造業付加価値額当りの工業用水量では上位にランクインしています。
それでは、少ないほうもみてみましょう。
一番少ないのは奈良県です。2番目は山梨県、3番目が東京都、4番目が京都、5番目が奈良県です。
奈良県は絶対量でも1番少なかったですね。奈良県の他に長野県、埼玉県、群馬県、栃木県など海無し県が入っています。
海の無い県はやっぱり水を大量に使う工業はできないですよね。
これは次回に検証します。
今回は以上です。
次回は、
です。
初めから読むには、
です。