www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の生活習慣病による死亡者数のデータ分析1 - R言語のread.csv関数でCSVファイルのデータを読み込む。

今回は、都道府県別の生活習慣病による死者数のデータを分析してみたいと思います。

データは、政府統計の総合窓口、e-stat.go.jpから取得しました。

www.e-stat.go.jp

取得したデータは、

f:id:cross_hyou:20200312193742p:plain

総人口(人), 生活習慣病による死亡者数(人), 可住地面積1km2当り人口密度(人), 1人当り県民所得(平成23年基準)(千円)です。

CSVファイルはこんな感じです。

f:id:cross_hyou:20200312194029p:plain

read.csv関数でデータを読込みます。

f:id:cross_hyou:20200312195055p:plain

read.csv関数でファイルを読込みます。skip = 8としているので、9行目からデータを読込みます。na.strings = c("***", "-", "X")としているので、***, -, X はNAになります。

stringsAsFactors = TRUEにしているので、文字列はファクターに変換しないで、文字列として取り込みます。

na.omit関数でNAのある行を削除します。

as.factor関数で、YearとPrefを文字列からファクターに変換します。

summary関数でデータのサマリを表示しました。

都道府県は10個ずつあるので、10年間のデータだとわかります。その他のデータも問題なく読み取れたようです。

まず、死亡者数を総人口で割って総人口あたりの死亡者数を計算してみます。

f:id:cross_hyou:20200312200409p:plain

1万をかけたので、人口1万人当りの生活習慣病による死亡者数です。

最小は35.24人、最大は80.63人、平均値は58.60人、中央値は58.50人です。都道府県によって、最小と最大で倍以上の違いがあります。

hist関数でデータの分布を見てみます。

f:id:cross_hyou:20200312201017p:plain

山型の分布ですね。

今回は以上です。

 

読書記録 - 「金融政策入門」 湯本雅士 著(岩波新書)

 

金融政策入門 (岩波新書)

金融政策入門 (岩波新書)

  • 作者:湯本 雅士
  • 発売日: 2013/10/19
  • メディア: 新書
 

 中央銀行の金融政策は難しい。

本文は力不足で半分も理解できなかったが、あとがきにある筆者の原則はなるほどと思った。忘れないように、簡単に書いてみる。

1.これまで持っている知識・先入観を捨てて、白紙の状態で臨む。

2.積み木の家を作るように、基礎の基礎から入念に築き上げていく。

3.細部に留意しつつ、しかも全体像(鳥観図)を見失わない。

4.因果関係の方向、すなわち、どちらが「因」でどちらが「果」であるかを見極める。

5.議論する前に言葉の定義を明確にしておく。

6.以下のような次元、ないしは視点の違いを常に意識しておく

a. 事前か事後か

b. 長期的か短期的か

c. マクロかミクロか

d. フローかストックか

e. 実物の世界か、名目の世界か

 

都道府県別の趣味・娯楽の平均時間のデータ分析6 - R言語で重回帰分析。人口伸び率が大きいほど、一人当り県内総生産額が大きいほど、趣味・娯楽の時間は長い。

 

www.crosshyou.info

 の続きです。

今回は、趣味・娯楽時間の長さを性別、職業の有無に加えて、PopGr(人口伸び率)とGDPper(一人当り県民所得)の2変数も加えて重回帰分析をしてみようと思います。

まず、都道府県別のPopGrの2006年度と2011年度の平均値を作ります。

f:id:cross_hyou:20200311190049p:plain

福島県が人口減が一番大きく、東京都が人口増が一番多いです。

これを4回繰り返して、前回作成した、Minutes(趣味・娯楽の平均値)と同じ長さにします。rep関数です。

f:id:cross_hyou:20200311190432p:plain

同じ手順でGDPper(一人当り県民生産)も平均値を算出して、4回繰り返します。

f:id:cross_hyou:20200311190926p:plain

沖縄県が一番低く、東京都が一番多いです。

これで、説明変数が揃いました。Gender(男性か女性か), Job(有業者か無業者か), PopGravg(人口伸び率), GDPperavg(一人当り県民生産額)です。応答変数はMinutes(趣味・娯楽の時間)です。lm関数で重回帰分析をします。

f:id:cross_hyou:20200311191419p:plain

PopGravg:GDPperavg:Gendar:Jobはp値が0.25239と0.05よりも大きいので、削除してもよさそうです。

f:id:cross_hyou:20200311191753p:plain

anova関数でjm1とjm2を比較しています。p値が0.2524と0.05よりも大きいので、単純なjm2を採用します。

f:id:cross_hyou:20200311192000p:plain

PopGravg:GDPperavg:Jobを削除します。

f:id:cross_hyou:20200311192207p:plain

p値が0.8364なので、jm2とjm3には有意な違いはありません。単純なjm3を採用します。

f:id:cross_hyou:20200311192348p:plain

PopGravg:GDPperavg:Gendarを削除します。

f:id:cross_hyou:20200311192552p:plain

p値が0.814なので、jm3とjm4に有意な違いはありません。単純なほうのjm4を採用します。

f:id:cross_hyou:20200311192733p:plain

GDPperavg:Gendar:Jobは削除してもよさそうです。

f:id:cross_hyou:20200311192948p:plain

jm5をみてみましょう。

f:id:cross_hyou:20200311193104p:plain

PopGravg:Jobは削除してよさそうです。

f:id:cross_hyou:20200311193626p:plain

あれ~? p値が0ってなってますね。。PopGravg:Jobは削除してはいけなかったのかな?もう一度、jm5を見てみます。

f:id:cross_hyou:20200311193836p:plain

PopGravg:GDPperavgを削除してみます。

f:id:cross_hyou:20200311194026p:plain

よかった、p値が0.1944と0.05より大きくなりました。jm5とjm7に有意な違いはありません。単純なほうのjm7を採用します。

f:id:cross_hyou:20200311194217p:plain

GDPperavg:Jobを削除してみましょう

f:id:cross_hyou:20200311194417p:plain

jm8を採用します。

f:id:cross_hyou:20200311194521p:plain

PopGravg:Jobをこの段階で削除してみます。

f:id:cross_hyou:20200311194726p:plain

う~ん、やっぱりp値が0になってしまいますね。。。もう一度、jm8を見てみます。

f:id:cross_hyou:20200311194855p:plain

GDPperavg:Gendarを削除しましょう

f:id:cross_hyou:20200311195049p:plain

jm10をみてみましょう

f:id:cross_hyou:20200311195217p:plain

ここまでくると、削除できるのはPopGravg:Jobだけですね。。削除してみます。

f:id:cross_hyou:20200311195449p:plain

やっぱりp値が0というか表示すらされていないですね。。AIC関数で比較してみます。

f:id:cross_hyou:20200311195621p:plain

AICは同じですね。それでは説明変数の少ないjm11を採用しましょう。

f:id:cross_hyou:20200311195748p:plain

PopGravg:Gendaar:Jobを削除します。

f:id:cross_hyou:20200311200024p:plain

anova関数での比較はp値が0.05以下なので、jm11とjm12は有意な違いがあります。AIC関数で比較すると、jm11のほうがAICが低いので、jm11を採用します。

最終的にはjm11が重回帰モデルで得られたモデルです。

f:id:cross_hyou:20200311200300p:plain

となります。coef関数で各項目の係数を確認します。

f:id:cross_hyou:20200311200706p:plain

これはどういうことかというと、

男性・有業者の場合は

趣味・娯楽の時間 = 38.05 + 1.63 x PopGravg + 0.002 x GDPperavg + 33.46 - 15.77 + 7.49 x PopGravg - 20.50 - 7.94 x PopGravg です。整理すると、

趣味・娯楽の時間 = 35.24 + 1.18 x PopGr + 0.002 x GDPperavg です。人口の伸びが大きい都道府県ほど、一人当り県内生産の大きい都道府県ほど、男性・有業者の趣味・娯楽時間は長くなります。

 

男性・無業者の場合は

趣味娯楽の時間 = 38.05 + 1.63 x PopGravg + 0.002 x GDPperavg + 33.46 + 7.49 x PopGravg です。整理すると、

趣味・娯楽の時間 = 71.51 + 9.12 x PopGravg + 0.002 x GDPperavgです。人口の伸びが大きいほど、一人当り県内生産の大きい都道府県ほど、男性・無業者の趣味娯楽時間は長くなります。

 

女性・有業者の場合は

趣味・娯楽の時間 = 38.05 + 1.63 x PopGravg + 0.002 x GDPperavg -15.77 + 2.26 x PopGravgです。整理すると、

趣味・娯楽の時間 = 22.08 + 3.89 x PopGravg + 0.002 x GDPperavgです。人口の伸びが大きいほど、一人当り県内生産の大きい都道府県ほど、女性・有業者の趣味・娯楽時間は長くなります。

 

女性・無業者の場合は

趣味・娯楽の時間 = 38.05 + 1.63 x PopGravg + .002 x GDPperavgです。人口の伸びが大きい県ほど、一人当り県内生産の大きい都道府県ほど、女性・無業者の趣味・娯楽の時間は長くなります。

結論は、人口の伸び率が大きい県、一人当り県内総生産額の大きい県ほど趣味・娯楽の時間が長い、ということでした。

今回は以上です。

 

都道府県別の趣味・娯楽の平均時間のデータ分析5 - R言語の interaction.plot関数で性別と職業の有無の交互作用を見る。

 

www.crosshyou.info

 の続きです。

今回はANOVA分析です。

Minutes ~ Gendar + Job + Minutes:Job

というモデル式を分析します。aov関数を使います。

f:id:cross_hyou:20200307124920p:plain

Gendar, Jobそして、Gendar:Jobも統計的に有意なファクターだとわかりました。

summary.lm関数でも表示してみます。

f:id:cross_hyou:20200307125413p:plain

summary.lm関数の表示で、InterceptのEstimateの43.564は女性・無業者の趣味娯楽の時間ですね。この値に、GendarMaleの31.287を加えると男性・無業者の74.851分になります。

切片の43.564にJobYesの-16.425を加えると女性・有業者の27.13分になります。

切片の43.564にGendarMaleの31.287とJobYesの-16.425とGendarMale:JobYesの-17.553を加えると男性・有業者の40.87分になります。

interaction.plot関数でグラフ表示してみます。

f:id:cross_hyou:20200307130702p:plain

f:id:cross_hyou:20200307130714p:plain

点線、無業者の線のほうが傾きが大きいです。無業者のほうが性別によっての違いが大きいということですね。

JobをX軸にしたinteraction.plotもみてみましょう。

f:id:cross_hyou:20200307131702p:plain

f:id:cross_hyou:20200307131722p:plain

実線、男性の線のほうが傾きが大きいですね。男性のほうが有業か無業かの影響を大きく受けるということですね。

今回は以上です。

 

都道府県別の趣味・娯楽の平均時間のデータ分析4 - R言語のbarplot関数で、性別 x 仕事の有無 の棒グラフを作成する

 

www.crosshyou.info

 の続きです。

前回までの分析で、2006年度と2011年度では、趣味・娯楽の平均時間に有意な違いが無い、ということがわかりました。趣味・娯楽の平均時間は、男性か女性か、有業者か無業者かで違いがあることもわかりました。今回は性別と有業・無業のintaractionsを考慮してみます。

まずは、都道府県別に、2006年度の値と2011年度の値の平均値のデータを作ります。

f:id:cross_hyou:20200307120703p:plain

4つの変数に対して、tapply関数で都道府県別の平均値のベクトルを作成しました。

これを4つ合わせます。

f:id:cross_hyou:20200307121142p:plain

趣味・娯楽の時間の長さなので、変数名をMinutesにしました。平均値は46.61分です。

hist関数でヒストグラムを描いてみましょう。

f:id:cross_hyou:20200307121401p:plain

f:id:cross_hyou:20200307121412p:plain

2つの山がある形状のヒストグラムです。

男性・女性を表すベクトルを作成しましょう。MinutesはMaWo(男性・有業), MaFr(男性・無業), FeWo(女性・有業), FeFr(女性・無業)の順番で結合しましたから、始めの47 x2 = 94が男性、残りの94が女性です。

f:id:cross_hyou:20200307122539p:plain


有業者・無業者を表す変数(ベクトル)も作成します。有業者47個、無業者47個、有業者47個、無業者47個の順番です。

f:id:cross_hyou:20200307122601p:plain

これで、被説明変数Minutes, 説明変数GendarとJobが用意できました。

ここからは、Michael J. Crawley の Statistics: An Introduction using R を参考にして分析をしてみようと思います。 

 P168 のFactorial Experiments のところが参考になります。

まずは、barplot関数で棒グラフを描いてみます。

f:id:cross_hyou:20200307123223p:plain

f:id:cross_hyou:20200307123300p:plain

男性・無業者が一番長く、次は女性・無業者、3番目が男性・有業者、一番短いのは女性・有業者だとわかります。barplot関数をはずして数値でもみてみます。

f:id:cross_hyou:20200307123552p:plain

女性・無業者は43分、男性・無業者は74分、女性・有業者は27分、男性・有業者は40分ほどです。

今回は以上です。

 

読書記録 - 「入門 公共政策学 - 社会問題を解決する「新しい知」」秋吉貴雄 著 (中公新書)

 

 公共政策学は社会問題を解決するための学問で、政治学、法律学、経済学、社会学、心理学、環境科学、その他いろいろな学問を「社会問題を解決する」というフレーミングでまとめたものと言えそうだ。

ある社会問題をどのようにフレーミングするかによってアプローチの方法が違う。子どもの学力低下を家庭環境の問題とフレーミングするか、教師の指導技術の問題とフレーミングするか、教育プログラムの問題とフレーミングするかで取りうる解決方法が変わってくる。

ほとんどの社会問題はそれを解決することによって恩恵を受ける人もいれば、被害を被る人もいる相反性がある。

 

都道府県別の趣味・娯楽の平均時間のデータ分析3 - 趣味・娯楽時間は神奈川県民が一番長く、岩手県民が一番短い。

 

www.crosshyou.info

 の続きです。

前回の分析で、趣味・娯楽の時間は女性よりも男性が長い、有業者よりも無業者のほうが長いことがわかりました。

今回は2006年度と2011年度で違いがあるかどうかを調べます。

まずは、2006年度だけのデータ、20011年度だけのデータを作ります。

f:id:cross_hyou:20200305190432p:plain

2006年度の平均は、46.99分。2011年度の平均は、46.22分です。ほとんど変わらないですね。

boxplot関数で箱ひげ図を比べてみます。

f:id:cross_hyou:20200305190927p:plain

f:id:cross_hyou:20200305190947p:plain

ほとんど同じですね。

var.test関数でvariance(分散)に違いがあるかどうか調べます。

f:id:cross_hyou:20200305191143p:plain

p値は0.6811と0.05よりも大きいです。2006年度と2011年度で趣味・娯楽時間の平均値は統計的な有意な違いは無いということです。

分散が同じと言えますので、t.test検定で平均値に違いがあるかどうかを検定します。

f:id:cross_hyou:20200305191429p:plain

p値は0.6844と0.05よりも大きいので、2006年度と2011年度の平均値に統計的に有意な違いは無いことがわかりました。

今度は趣向を変えて、どの県が趣味娯楽の時間が長いのか調べましょう。

2006年度も2011年度もかわりはないようなので、2011年度だけでみてみます。

まずは、男性・有業者から見てみます。

f:id:cross_hyou:20200305192902p:plain

岩手県が一番短く33分、山梨県が一番長く50分です。

男性・無業者はどうでしょうか?

f:id:cross_hyou:20200305193116p:plain

広島県が一番短く58分です。北海道と岡山県が一番長く92分です。

女性の有業者はどうでしょうか?

f:id:cross_hyou:20200305193339p:plain

沖縄県、佐賀県、長崎県が一番短く20分、神奈川県が一番長く38分です。

女性の無業者はどうでしょうか?

f:id:cross_hyou:20200305193622p:plain

宮崎県が一番短く32分、岡山県が一番長く56分です。

今度は2006年度、2011年度、男性有業者、男性無業者、女性有業者、女性無業者全部を合わせて都道府県別の平均値を計算してみましょう。

まず、趣味娯楽全てをまとめた一つの大きなベクトルを作ります。

f:id:cross_hyou:20200305194323p:plain

次に都道府県を4回繰り返したベクトルをつくります。

f:id:cross_hyou:20200305194530p:plain

年度が2種類、趣味娯楽の時間が4種類ですから、一つの都道府県は8回繰り返しになります。

これで、tapply関数で都道府県別の趣味・娯楽の平均値を計算します。

f:id:cross_hyou:20200305194916p:plain

岩手県が一番短く39分、神奈川県が一番長く54分ですね。

今回は以上です。