www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の経済構造実態調査のデータの分析5 - R言語のaov()関数でANOVA分析

UnsplashAlex Personが撮影した写真 

www.crosshyou.info

の続きです。

前回行ったクラスタリングの結果をデータフレーム、dfにくっつけます。

まず、dfがどんなものだったか、str()関数で確認します。

これにクラスタリングの結果をくっつけたいので、まず、tidyverseパッケージを読み込みます。

inner_join()関数をつかってくっつけます。

str()関数で確認します。

一番下にgroupが追加されていることがわかります。

dfが変数が多くて大変なので、少し変数を絞ります。pref: 都道府県名、group: クラスタリングの結果、industry: 産業分類、value: 売上高(百万円単位), pc_val: 一人当たりの売上高(百万円単位), p_male304050: 30代、40代、50代の男性の比率 だけのデータフレームを作成します。

groupは整数型になったいますが、これはファクター型に変換します。

tidyverseパッケージを読み込んでいますので、mutate()関数を使ってみましょう。

summary()関数でdf_smallを表示しました。groupがファクター型に変換されていることがわかります。

group_by()関数とsummarise()関数でgroupごとのvalue, pc_val, p_male304050の平均値を見てみます。

group4がどの値も一番大きいです。そして、1, 2, 3の順番ですね。

どのgroupがどの都道府県だったか、おさらいしておきましょう。

group1は愛知県、宮城県、大阪府でした。

groupごとの平均値が統計的に有意に異なるか、ANOVA分析をしてみます。

aov()関数とsummary()で実行できます。

p値が2e-16よりも小さいの、valueはgroupごとに有意な差があります。

pc_valはどうでしょうか?

p値が2.49e-05となっていますので、pc_valもgroupごとに有意な差があります。

p_male304050はどうでしょうか?

p値が2e-16よりも小さいので、p_male304050もgroupごとに有意な差があります。

今回は以上です。

 

次回は、

www.crosshyou.info

です。

 

はじめから読むには、

www.crosshyou.info

です。

読書記録 - 「東京国税局査察部」 立石勝規 著 岩波新書

1999年に出版された本なので、東京国税局査察部が現在もこの本に書かれているようなものなのかはわかりませんが、1999年当時を思い出すことができました。

金丸信の脱税や、山一證券の自主廃業などを思い出すことができました。

日本株式会社の地下室には、産業界、政界、官僚がつながっていて表に出せない汚いものは地下室に溜まっていくという比喩は上手いと思いました。

 

都道府県別の経済構造実態調査のデータの分析4 - R言語でhierarchial clusteringとk-means clusteringを実行する。

UnsplashSebastian Unrauが撮影した写真 

www.crosshyou.info

前回はデータフレームを大きい順、小さい順に並び替えました。東京都や大阪府などが値が大きくて、奈良県などが値が小さかったです。

そこで今回は、R言語でクラスタリングを実行してみたいと思います。

まずは、hierarchial(階層的)クラスタリングを実行してみます。

dist()関数を使って、各都道府県の距離を算出します。

hclust()関数でクラスタリングを実行します。

plot()関数で結果の樹状図を描きます。

Tokyoが左上にポツンとあります。東京都は他の府道県とは大きく異なることを示唆しています。

この樹状図をもとに、4つのグループに分けてみましょう。

イメージは上のような4つのグループです。cutree関数でグループ分けできます。

Tokyoは4に、Aichi, Miyagi, Osakaは1に分類されています。

散布図でグループ分けの成果を見てみましょう。

まず、sdとcvの散布図です。

同じグループ同士で固まっているのがわかります。

meanとcvの散布図を描いてみます。

同じように4つのグループ分けがうまく動いています。

meanとmaxの散布図はどうでしょうか?

こちらもきれいにグループ分けできていますね。

meanとmedianを見てみましょう。

これも同じようですね。

こんどは、k-means clusteringを実行しましょう。k-means clusteringはあらかじめ何個のグループに分けるかを指定する必要があります。今回はhierarchial clusteringで4つに分けてみましたので、k-meansでも4つにわけてみます。

結果をみてみます。$cluster でわかります。

散布図で表示してみましょう。hierarchial clusteringの散布図と並べて表示してみます。

hierarchialではAichi, Miyagi, Osakaだったグループにk-meansではHiroshima, Fukuokaが加わっていることがわかります。Aichi, Miyagi, Osaka, Hiroshima, Fukuokaだと各地域の中心府県という感じでなかなかいい感じにクラスタリングできていますね。

meanとsdの散布図もみてみます。

どちらの方法でもきれいにグループ分けできていることがわかりますね。

今回は以上です。

 

次回は、

www.crosshyou.info

です。

 

初めから読むには、

www.crosshyou.info

です。

都道府県別の経済構造実態調査のデータの分析3 - R言語でデータフレームを大きい順・小さい順に並び替える。

UnsplashBoris Smokrovicが撮影した写真 

www.crosshyou.info

の続きです。

前回は都道府県ごとの統計値のデータフレーム、(stat_prefと名前をつけた)、を作成しました。今回はこのデータフレームを並び替えてどういう都道府県が値が大きいのかを調べてみます。

median, 中央値の大きい順に並び替えてみます。order()関数とrev()関数を使います。

東京都、大阪府、神奈川県、愛知県と人口が多く、経済活動が活発なところが上位ですね。

plot()関数とtext()関数をつかってグラフにしてみます。

こうしてグラフにしてみると、東京都がダントツだとわかります。

こんどは、medianの小さい順に見てみます。

奈良県、秋田県、徳島県、和歌山県などが一人当たりの売上高の中央値が小さいです。

これもグラフにしてみましょうかね。

今回はコードを1行、1行に書いて、コメントも入れてみました。本当はggplot2パッケージでグラフを描くほうが簡単だと思いますが、敢えて原始的な方法で作図しています。手作り感があって楽しいです。

奈良県は値が小さいですね。

こんどは mean の大きいところを見てみます。今回見ている統計値は、産業別の一人当たり売上高を都道府県別に平均値や中央値を計算したものです。

東京都、大阪府、愛知県、宮城県が上位でした。

反対に、meanの小さいところはどこでしょうか?

奈良県、滋賀県、埼玉県、沖縄県が小さいところです。

max, 最大値の大きいところはどこでしょうか?

東京都、大阪府、愛知県、宮城県が大きいです。東京都の10.304は東京都のある産業セクターは一人当たりの売上高が1030万4千円ということです。ある、産業というのは selling, 卸売・小売のセクターですね。

maxのちいさいところを見てみます。

奈良県、滋賀県、沖縄県、千葉県がちいさいところです。

sd, 標準偏差の大きなところはどこでしょうか?

東京都、大阪府、愛知県、宮城県がsd, 標準偏差が大きいです。

小さいところはどこでしょうか?

奈良県、滋賀県、沖縄県、千葉県が小さいです。

変動係数の大きなところを見てみましょう。

愛知県、群馬県、宮城県、大阪府が変動係数が大きいです。産業セクター別の一人当たりの売上高のバラツキ度合いが大きいということですね。

小さいところはどこでしょうか?

神奈川県、沖縄県、千葉県、三重県が小さいです。

今回はデータフレームを大きい順、小さい順に並び替えてみました。

今回は以上です。

 

次回は、

www.crosshyou.info

です。

 

初めから読むには、

www.crosshyou.info

です。

都道府県別の経済構造実態調査のデータの分析2 - R言語の tapply() 関数で産業別、都道府県別の統計値を算出する。

UnsplashMarek Piwnickiが撮影した写真 

www.crosshyou.info

の続きです。

前回はCSVファイルにあるデータをR言語に読み込ませ、分析用のデータフレームを作成するところまで進みました。

まず、hist()関数でvalue: 売上高(百万円単位)の分布をみてみましょう。

左に分布がかたまってしまっています。

summary()関数でvalueの最小値や最大値などをみてみます。

最小値が0で最大値が143兆4432億15百万円です。

あまりにもデータにバラツキがありますので、一人当たりの売上高を計算して、そのヒストグラムを見てみます。

一人当たりの売上高にしても、左に分布が偏っていますね。

このpc_valのサマリーも見てみましょう。

最小値は0、最大値は1030万円、平均値は35万円、中央値は9万6千円です。平均値と中央値がかなり違います。

industry: 産業種類ごとのpc_valを見てみます。plot()関数を使います。

selling : 卸売、小売のセクターが突出しています。

selling を除外してグラフを描いてみます。

hospi : 医療、福祉が一人当たりの売上高が高いのですね。

tapply関数でindustryごとの最小値や平均値などを確認します。

tapply()関数で計算したindustryごとの結果をcbind()関数でまとめて一つのオブジェクトにしています。ound()関数で小数点以下第3位までを出力しました。

。sd : 標準偏差 / mean : 平均値 = cv : 変動係数も計算しましょう。

データ処理をしやすいように、as.data.frame()関数でデータフレーム型にstat_indのオブジェクトを変換してからcvを計算しました。order()関数とrev()関数をつかってcvの大きい順に表示してみました。miningt : 鉱業のセクターが一番バラツキがありますね。

今度は、都道府県ごとのpc_valをみてみます。

ちょっとわかりにくいかもしれませんが、Tokyoが一番バラツキがあり値が大きいですね。

industryと同じように、都道府県ごとの最小値などを計算しましょう。

cv : 変動係数も計算しておきます。

変動係数が大きいところは、愛知県や群馬県、小さいところは神奈川県や沖縄県でした。

今回は以上です。

今回は、1人当たりの売上高を計算して、産業種類別と都道府県別の1人当たり売上高を計算してみました。

 

次回は、

www.crosshyou.info

です。

 

初めから読むには、

www.crosshyou.info

です。

都道府県別の経済構造実態調査のデータの分析1 - R言語にCSVファイルのデータを読み込む。

UnsplashAaron Burdenが撮影した写真 

今回は都道府県別の経済構造実態調査のデータを分析してみようと思います。

まず、政府統計の総合窓口(e-stat.go.jp)からデータをダウンロードします。

経済構造実態調査は、我が国の製造業及びサービス産業における企業等の経済活動状況を明らかにし、国民経済計算の精度向上に資するとともに、企業等に関する施策の基礎資料を得ることを目的としているそうです。

2019年と2020年に調査をしています。

2020年のほうをクリックしてみます。

集計1と集計2があるようです。集計1をクリックしてみます。

データベースは1つだけのようです。クリックしてみます。

このようなデータでした。全国を除いてデータをダウンロードします。

このようなCSVファイルでした。

これを、不要な列を削除して、ヘッダーを英語に変更して、

このようにしました。

これと、昔から持っている都道府県別の人口データのCSVファイル、

を組み合わせて分析しようと思います。

まず、CSVファイルを読み込みます。

df_rawがちゃんと読み込まれたか、str()関数で確認します。

industryの変数名がおかしいので訂正します。

jinkouのデータフレームもstr()関数で確認します。

こちらは大丈夫のようです。

このdf_rawとjinkouを合体させます。まず。jinkouは2019年が最新なので、jinkouを2019年のデータだけにしてから、df_rawのarea_codeとjinkouのcodeを鍵にして合体させます。

are_codeとyearはもういらないので削除しておきます。

industryとprefをファクター型に変換しておきます。

これでやっと分析のためのデータフレームが整いました。

今回は以上です。

 

読書記録 - 「日本のコメ問題 - 5つの転換点と迫りくる最大の危機」 小川真如 著 中公新書

コメ問題と田んぼ問題がごちゃまぜになっていることが問題のようです。

今世紀中、この本では2052年ごろに、日本の農地が余る状態、つまり、全部の農地で作物を作ると日本人が必要とする以上の量の作物ができてしまう状態になるそうです。

著者はそれをP転換点と言い、余ってしまう土地の面積のことをX 領域と呼んでいます。

今のうちから、このX領域をどのように有効活用するかを議論しておかないと、現在のコメ・田んぼ問題と同じようにグダグダな状態になってしまうと訴えています。

このX領域の面積を全部太陽光発電に使えば、日本で使っている電力を全て賄えるだけの発電量になるということなので、原発反対派の私としては、それがいいかなと思いました。