www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

経済センサスの事業所に関する集計データの分析2 - R言語で男女比率が変化したかを検定する

 

www.crosshyou.info

 の続きです。

今回は2012年と2016年で男女比率が変化したかどうかをR言語で調べてみたいと思います。

まず、2012年の男女比率を見てみましょう。

まず、計算に必要なデータを抽出します。

f:id:cross_hyou:20181210215459j:plain

 

計算してみましょう。

f:id:cross_hyou:20181210220034j:plain

 

男女比率の高い順に並び替えましょう。order関数を使います。

f:id:cross_hyou:20181210220251j:plain

 

中京、関東、宇都宮都市圏が男女比率が高い、すなわち男性従業者数が多く、熊本、松山、鹿児島都市圏が男女比率が低い、すなわち女性従業者数が多いことがわかります。

同じようなことを2016年のデータでもやってみましょう。今回はsubset関数で2016年のデータフレームを作成します。

f:id:cross_hyou:20181210221253j:plain

 

男女比率を同じように作成して大きい順に並び替えます

f:id:cross_hyou:20181210221634j:plain

男女比率が高いのは、中京、宇都宮、関東です。低いのは鹿児島、松山、熊本です。

それでは2012年と2016年の変化幅を計算してみます。

f:id:cross_hyou:20181210222523j:plain

 

松山都市圏だけが男女比率が増加しています。13地域が男女比率は減少、1地域が増加です。この割合は統計的に有意でしょうか?増加・減少が50%50%の確率で起こるとして13増加:1減少になる確率はどのくらいでしょうか?dbinom関数で計算してみましょう。

f:id:cross_hyou:20181210223448j:plain

半々の確率で増加または減少になるとき、13増加、1減少になる確率はわずか0.0008544922です。半々の確率ではない、ということですね。

それぞれの年の男性従業者、女性従業者の合計値を算出してみます。

f:id:cross_hyou:20181210224201j:plain

 

2012年の男性従業者数合計は、2253万8237人、女性従業者合計は1707万8321人です。

2016年の男性従業員数合計は、2281万4375人、女性従業者合計は1799万8390任です。

久しぶりにクロス表を作ってカイ二乗検定をしてみましょう。

f:id:cross_hyou:20181210224926j:plain

 

prop.table関数で比率で表示しました。2012年は女性比率は43.1%で、2016年は44.1%と1%増加しています。たかが1%、されど1%、果たしてこのクロス表で2012年と216年の男女比率に違いはあるでしょうか?chisq.test関数を使います。

f:id:cross_hyou:20181210225405j:plain

 

p-value < 2.2e-16 < 0.05 ですから、年によって男女比率に違いがある、ということです。2016年のほうが女性従業者比率が高くなったということです。

今回は以上です。

 次回は

 

www.crosshyou.info

 

です。

経済センサスの事業所に関する集計データの分析1 - R言語で基本統計量を取得する

今回は経済センサスのデータをR言語を使って分析したいと思います。

e-Stat(政府統計の総合窓口)から

f:id:cross_hyou:20181210184512j:plain

2016年のこのデータと

f:id:cross_hyou:20181210184543j:plain

 

2012年のこのデータをダウンロードして、

f:id:cross_hyou:20181210184610j:plain

もとのデータベースには2000以上の地域がありましたが、札幌大都市圏などの大都市圏、都市圏の14地域だけにしました。CSVファイルには大都市圏、都市圏を省略しています。これをread.csv関数でR言語にデータを読み込み、head関数で始めの6行を、summary関数で基本統計量を算出します。

f:id:cross_hyou:20181210185258j:plain

 

変数をひとつひとつ確認していきましょう。

時間軸は2012年と2014年の2値をとります。データ数はそれぞれ14なので、地域は14地域あるとわかります。

地域は宇都宮2、岡山2、、、とそれぞれの地域で2あります。2012年と2014年の2つの時間軸ですからね。

事業所数は最小値は2万9499、最大値は139万2179です。平均値は25万4173で中央値は9万0360です。平均値と中央値が大きく違っていますから分布は正規分布ではないことが予想されます。

総従業者数は最小値は29万1125、最大値は1766万0921です。平均値は288万4969、中央値は95万2315です。総従業者数も平均値と中央値がかなり違っています。

男性従業員者数は最小値は15万0937、最大値は998万1179です。平均値は161万9736、中央値は53万2170です。これも平均値と中央値が大きく違いますね。

女性従業員数は最小値は13万8791、最大値は757万8746です。平均値は125万2740で中央値は41万5985です。これも平均値と中央値が大きくはなれています。

面積事業所数、これは1平方キロメートル当りの事業所数です。最小値は12.20で最大値は102.30です。平均値は30.01で中央値は18.15です。これも値の分布には偏りがあるようですね。

面積従業者数、これは1平方キロメートル当りの従業者数です。最小値は115.2で最大値は1313.6です。平均値は330.3で中央値は189.8です。やっぱりこれも値の分布には偏りがあるようですね。

summary関数は便利ですが、標準偏差が算出されないので、sd関数で算出します。すべての変数を一度に計算したいので、apply関数と組み合わせます。

f:id:cross_hyou:20181210193124j:plain

round関数で分かりやすく小数点以下2桁表示にしました。

変動係数(標準偏差 / 平均値)も計算しておきましょう。

f:id:cross_hyou:20181210193845j:plain

 

apply関数とmean関数で各変数の平均値を出しておきます。そして、先ほど計算してあった標準偏差を平均値でわります。

f:id:cross_hyou:20181210194809j:plain

 

こうしていると、男性従業者数が一番変動が大きく、面積事業所数が一番変動が小さいことがわかります。

男女の比率は2012年と2016年で変化があるのか、2012年と2016年で各変数はどのように変動しているのか、大都市圏と中小都市圏では違いがあるか?などについて調べてみたいと思います。

今回は以上です。

 次回は

 

www.crosshyou.info

 

です。

読書記録 - 「正義とは何か 現代政治哲学の6つの視点」 神島裕子著 中公新書

 

正義とは何か-現代政治哲学の6つの視点 (中公新書)

正義とは何か-現代政治哲学の6つの視点 (中公新書)

 

 現代正義論においては、「正しい社会のあり方」に関して、複数の構想が競合している。

リベラリズム、リバタリア二ズム、コミュニタリアニズムフェミニズム、コスモポリタニズム、ナショナリズムなど。

正直にいうと、よくわかりませんでした。

終章に「人間の脳には、生まれつき正義のアルゴリズムが実装されているわけではありません。」と著者は書いています。そしてその少しあとに「人間には感受性と共感能力と理解力があるからこそ、不正を感じ、正義を欲するのではないでしょうか。」とあります。私は、感受性、共感能力、理解力こそが正義のアルゴリズムの種だと思いました。

World Bank DataBankのG7とBRICのGDPなどの分析6 - G7とBRICでGDP成長率に違いがあるかどうか?

 

www.crosshyou.info

 の続きです。

今回はR言語でG7のGDP成長率の平均や中央値とBRICのGDP成長率の平均や中央値に統計学的に有意な差があるかどうかを検定してみたいと思います。

まずは、G7のGDP成長率のヒストグラムを描いてみます。hist関数を使います。

f:id:cross_hyou:20181208135054j:plain

f:id:cross_hyou:20181208135108j:plain

 

同じようにBRICのGDP成長率も描いてみましょう。

f:id:cross_hyou:20181208135434j:plain

f:id:cross_hyou:20181208135448j:plain

わかりやすく、一つの画面でヒストグラムを描いてみましょう。

f:id:cross_hyou:20181208140310j:plain

 

f:id:cross_hyou:20181208140322j:plain

 

BRICのほうが高い成長率っぽいですよね。summary関数で平均値などを算出します。

f:id:cross_hyou:20181208140608j:plain

 

G7の平均値は1.66%でBRICの平均値は4.93%です。

G7の中央値は1.79%でBRICの中央値は5.91%です。

それでは、G7とBRICのGDP成長率の平均値に差があるかないか、検定します。t検定です。R言語ではt.test関数です。

f:id:cross_hyou:20181208141010j:plain

 

p-value = 5.021e-09 < 0.05 ですから、G7のGDP成長率とBRICのGDP成長率の平均は有意な違いがあることがわかりました。

ウィルコクソン=マン・ホイットニー検定でG7とBRICのGDP成長率の分布位置に違いがあるかどうかを検定しましょう。wilcox.test関数を使います。

f:id:cross_hyou:20181208141455j:plain

 

p-value = 3.341e-15 ですから、G7のGDP成長率とBRICのGDP成長率の分布位置には違いがあることがわかりました。

今回は以上です。

 

World Bank DataBankのG7とBRICのGDPなどの分析5 - R言語で失業率とGDP成長率の相関関係を見る

 

www.crosshyou.info

 の続きです。

今回は、World Bank DataBankのG7とBRICの失業率データとGDPデータの相関をみてみたいと思います。

まずは、全体のGDPデータと失業率データの基本統計量をsummary関数で表示します。

f:id:cross_hyou:20181206120136j:plain

 

これがGDP成長率(GDPG)の基本統計量です。最小値は-14.531%、最大値は19.300%、平均値は3.454%、中央値は3.141%で、NAが25個あります。

f:id:cross_hyou:20181206120358j:plain

 

これが失業率(UER)の基本統計量です。最小値は2.090%、最大値は13.530%、平均値は6.720%、中央値は6.916%で、NAが253個あります。NAが多いですね。

あ、そうだ、データの個数をlength関数で確認しておきましょう。

f:id:cross_hyou:20181206120640j:plain

 

f:id:cross_hyou:20181206120759j:plain

 

両方とも同じ数(あたりまえですが)で550個です。失業率はNAが253個なので半分近くNAなのですね。。少し気になります。
Region, Country, Year, Decade, GDPG, UERだけのデータフレームを作成して、NAの行を削除してしまいましょう。

まずは、カテゴリ変数とGDP成長率と失業率だけのデータフレームを作ります。

f:id:cross_hyou:20181206121513j:plain

このあとにna.omit関数でNAのある行を削除します。

f:id:cross_hyou:20181206121849j:plain

 

Decadeに注目すると、60年代、70年代、80年代が0になっています。つまりこのデータは90年代からだとわかります。国別のデータ個数をtable関数でみておきましょう。

f:id:cross_hyou:20181206122136j:plain

 

全部同じ個数ですね、27年間分のGDP成長率と失業率がある、ということです。

それでは、二つの変数の散布図をggplot関数のgeom_point関数で作図しましょう。

あらかじめ、library(tidyverse)としてggplot2パッケージを呼び出しておきます。

f:id:cross_hyou:20181206122524j:plain

 

f:id:cross_hyou:20181206122539j:plain

 

あんまり相関はない感じですね。cor関数で相関係数を計算してみます。

f:id:cross_hyou:20181206122754j:plain

 

マイナス相関なのですね。

G7とBRICで色分けした散布図を描いてみます。color = Regionと加えます。

f:id:cross_hyou:20181206123048j:plain

 

f:id:cross_hyou:20181206123128j:plain

 

青い点、G7のほうがGDP成長率が狭い範囲に集中している感じですね。

geom_smooth関数も追加してみます。

f:id:cross_hyou:20181206123651j:plain

 

f:id:cross_hyou:20181206123716j:plain

 

全体のプロットにフィットするようなラインが追加されました。このラインが全体的に右下がりなので相関係数がマイナスなのでしょうね。

geom_smooth関数にもcolor = Regionを適用してみましょう。

f:id:cross_hyou:20181206124108j:plain

 

f:id:cross_hyou:20181206124122j:plain

なんとなく、かっこいいグラフですね。こういうグラフが簡単にできてしまうのがR言語のいいところですね。

color = Decadeにしてみましょう。

f:id:cross_hyou:20181206124600j:plain

 

f:id:cross_hyou:20181206124632j:plain

 

ラインが3本になって網掛部分か重なりあってわかりにくいので、se = FALSEを加えます。

f:id:cross_hyou:20181206125022j:plain

 

f:id:cross_hyou:20181206125034j:plain

 

3本のラインの形がわかりやすくなりましたね。

最後に国別でみてみましょう。国は11か国あるのでfacet_wrap関数を使いましょう。

f:id:cross_hyou:20181206130100j:plain

f:id:cross_hyou:20181206130114j:plain



今回は以上です。

 次回は

 

www.crosshyou.info

 

です。

 

 

World Bank DataBankのG7とBRICのGDPなどの分析4 - R言語でGDP成長率データの時系列を描く

 

www.crosshyou.info

 の続きです。

今回はR言語GDP成長率データの時系列を描いてみます。

まずは、各国全部の平均値を計算してみたいと思います。

各国全部の平均値ってどう計算したらいいですかね。。。

とりあえず、各国だけのデータ・フレームを作ってみましょうか。

f:id:cross_hyou:20181204121244j:plain

 

このように、data[data$Country == "JPN", ]とすると、JPNだけのデータフレームになります。

同じようにして、残りの10か国もやってみます。

米国です。

f:id:cross_hyou:20181204121549j:plain

 

ドイツです。

f:id:cross_hyou:20181204121735j:plain

 

英国です。

f:id:cross_hyou:20181204122007j:plain

 

フランスです。

f:id:cross_hyou:20181204122140j:plain

 

イタリアです。

f:id:cross_hyou:20181204122349j:plain

 

カナダです。

f:id:cross_hyou:20181204122531j:plain

 

ブラジルです。

f:id:cross_hyou:20181204122702j:plain

 

ロシアです。

f:id:cross_hyou:20181204122828j:plain

 

インドです。

f:id:cross_hyou:20181204123011j:plain

 

中国です。

f:id:cross_hyou:20181204123159j:plain

こうして11か国それぞれのデータ・フレームができました。

こんどは、これらをもとに各変数のデータ・フレームを作成します。cbind関数ですね。

GDP成長率(GDPG)です。

f:id:cross_hyou:20181204124430j:plain

これで準備は整いました。rowMeans関数で各行(つまり各年)の平均値を計算し、これをplot関数でグラフにします。

f:id:cross_hyou:20181204125746j:plain

f:id:cross_hyou:20181204125654j:plain

昔のほうがGDP成長率は全般に高かったのですね。

各国のGDP成長率はfor関数を使って一気に描いちゃいましょう。

f:id:cross_hyou:20181204130906j:plain

 

f:id:cross_hyou:20181204130918j:plain

 

今回は以上です。

 次回は

 

www.crosshyou.info

 

です。

World Bank DataBankのG7とBRICのGDPなどの分析3 - R言語で各データのヒストグラムを描く

 

www.crosshyou.info

 の続きです。今回は各変数のヒストグラムを描いてみようと思います。

R言語ヒストグラムを描くには、hist関数が一番簡単です。

GDP成長率(GDPG)のヒストグラムはこちらです。

f:id:cross_hyou:20181203121742j:plain

 

f:id:cross_hyou:20181203121755j:plain

山型の分布ですね。

 

インフレ率(IFR)はこちらです。

f:id:cross_hyou:20181203121946j:plain

 

f:id:cross_hyou:20181203121957j:plain

大きな外れ値があるために、ヒストグラムの階級が500になっています。これでは大部分が0から500に入ってしまい分布がよくわからないので、ちょっと工夫します。

f:id:cross_hyou:20181203122815j:plain

f:id:cross_hyou:20181203122828j:plain



data$IFR[data$IFR > -10 & data$IFR < 20] とインフレ率のデータの範囲を-10より大きく20未満にしてからヒストグラムを描きました。外れ値は無視してヒストグラムを書いた、ということですね。こうすると、0以下の頻度が少なくて、デフレは例外的な現象だとわかりますね。

失業率(UER)はこうなりました。

f:id:cross_hyou:20181203123203j:plain

 

f:id:cross_hyou:20181203123214j:plain

 

4~5の区間と8~9の区間に山があるような感じです。

 

経常収支の対GDP比(%)(CAB)はこうなりました。

f:id:cross_hyou:20181203123509j:plain

 

f:id:cross_hyou:20181203123521j:plain

 

預金金利(DIR)のヒストグラムです。

f:id:cross_hyou:20181203130720j:plain

f:id:cross_hyou:20181203130734j:plain

預金金利も大きな外れ値がありますね。20%以下だけでやってみましょう。

f:id:cross_hyou:20181203130959j:plain

f:id:cross_hyou:20181203131012j:plain

これでわかりやすいヒストグラムになりましたね。

 

労働年齢比率(ADR)はこうなりました。

f:id:cross_hyou:20181203123732j:plain

f:id:cross_hyou:20181203123658j:plain

以上、全体の各変数のヒストグラムでした。

次は、G7とBRICで分類したヒストグラムを描いてみましょう。これはggplot関数のgeom_histogram関数とfacet_wrap関数でやってみます。

まず、ggplot関数を使えるように、tidyverseのパッケージを読み込みます。

f:id:cross_hyou:20181203124139j:plain

 

それではggplot関数、geom_histogram関数、facet_wrap関数を使って、G7とBRICに分割したヒストグラムを描いてみましょう。

GDP成長率(GDPG)です。

f:id:cross_hyou:20181203124720j:plain

f:id:cross_hyou:20181203124744j:plain

 

BRICのほうがバラツキが多いですね。

次はインフレ率です。-10から20の範囲でやりましょう。

f:id:cross_hyou:20181203125741j:plain



 

data %>%

 filter(IFR > -10 & IFR < 20) %>%

としてインフレ率を-10から20に絞り込んでから、ggplot関数を使っています。

そしてできたヒストグラムがこちらです。

f:id:cross_hyou:20181203125512j:plain

 

BRICのほうがインフレ率のバラツキが大きい感じですね。

失業率はどうでしょうか?

f:id:cross_hyou:20181203125938j:plain

 

f:id:cross_hyou:20181203125951j:plain

 

G7のほうがバラツキが大きい感じでしょうか?

経常収支の対GDP比(%)(CAB)はこうなりました。

f:id:cross_hyou:20181203130252j:plain

 

f:id:cross_hyou:20181203130304j:plain

 

BRICのほうがバラツキが多いようです。

預金金利(DIR)を見てみましょう。

f:id:cross_hyou:20181203131316j:plain

 

f:id:cross_hyou:20181203131327j:plain

 

最後は労働年齢比率(ADR)です。

f:id:cross_hyou:20181203131525j:plain

 

f:id:cross_hyou:20181203131540j:plain

 

BRICのほうがバラツキが大きいですね。

今回は以上です。今回はhist関数、ggplot関数、geom_histogram関数、facet_wrap関数とfilter関数を使いました。

 次回は

 

www.crosshyou.info

 

です。