crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

初婚年齢と住宅の広さのデータの分析 - 福島県が初婚年齢が一番低く、東京が高い。富山県が一番住宅が広く、東京が狭い。

今回は、初婚年齢と住宅の広さのデータを分析してみようと思います。

いつものように、政府統計の総合窓口、e-Statからデータを取得しました。

f:id:cross_hyou:20190619192404j:plain

地域は47都道府県を選択しました。

f:id:cross_hyou:20190619192427j:plain

夫の初婚年齢、妻の初婚年齢、住宅の広さの3つのデータを選択しました。

f:id:cross_hyou:20190619192514j:plain

こんな感じでデータをCVSファイルにダウンロードしました。これを、R言語のread.csv関数で読み込んで分析しようと思います。

f:id:cross_hyou:20190619192619j:plain

str関数でデータ構造を見ると、2021行ありますが、NAの行がたくさんあることがわかりますので、na.omit関数で削除します。

f:id:cross_hyou:20190619192846j:plain

summary関数で各変数のサマリーを表示しています。Prefのところの度数を見ると、各県とも8回登場していますので、8年間のデータだとわかります。Yearは1978年度から1983年度、1988年度と5年ごとにデータがあるようです。

それではまず、年度ごとの平均を見てみましょう。初婚年齢は年の経過とともに高くなっているのか、低くなっているのか、変わらないのか?tapply関数で年度ごとの平均値を求めます。平均値はmean関数ですね。

f:id:cross_hyou:20190619200614j:plain

はじめに、各変数から、それぞれ独立したベクトルを作成しました。こうしておけば、df1$Maleとしないで、Maleだけで分析できます。Yearに関しては、1979年度などデータの無い年度もファクタの水準として残っていますので、いったんas.character関数で文字列にして、それからさらにas.factor関数でファクタに戻しています。

夫の平均初婚年齢は、1978年度は27.4歳、2013年度は30.6歳と3歳ぐらい高年齢化しています。

妻はどうでしょうか?

f:id:cross_hyou:20190619194011j:plain

妻は、1978年度は24.9歳でしたが、2013年度は29.0歳に5歳ほど高年齢化しています。夫よりも高年齢化の幅は大きいですね。

住宅の広さはどうでしょうか?

f:id:cross_hyou:20190619194256j:plain

1978年度は91平方メートルでしたが、2013年度は108平方メートルと広くなっています。2割ぐらい増えていますね。

都道府県ごとのデータを見たいと思います。一番新しい、2013年度のデータでみてみましょう。

f:id:cross_hyou:20190619194847j:plain

まず、names関数でMale、Female、Hirosaに都道府県の名前属性をつけて、sort関数で小さい順に表示しました。福島県が29.8歳で一番若く、東京都が32.2歳で一番高いです。

妻はどうでしょうか?

f:id:cross_hyou:20190619195209j:plain

妻も福島県が一番若く、28.2歳で、東京都が一番高く30.4歳です。

住宅の広さはどうでしょうか?

f:id:cross_hyou:20190619195532j:plain

一番狭いのは東京都で64.5平方メートルです。一番広いのは富山県で152.2平方メートルです。

夫の初婚年齢と妻の初婚年齢の散布図をplot関数で表示します。

f:id:cross_hyou:20190619200113j:plain

f:id:cross_hyou:20190619195822j:plain

正の相関が見て取れる散布図ですね。

夫の年齢と住宅の広さはどうでしょうか?

f:id:cross_hyou:20190619200128j:plain

f:id:cross_hyou:20190619200139j:plain

全然関係なさそうですね。

年度別に色分けしてみましょう。

f:id:cross_hyou:20190619200804j:plain

年度で色分けしてもやっぱり関連性はなさそうですね。

夫と妻の年齢差を考えてみましょう。

f:id:cross_hyou:20190619201142j:plain

長崎県、沖縄県が一番年齢差が小さく、1.2歳です。千葉健、埼玉県、愛知県、岐阜県、長野県、秋田県が1.9歳で一番大きいです。

この年齢差と住宅の広さの散布図を見てみます。

f:id:cross_hyou:20190619201524j:plain

f:id:cross_hyou:20190619201534j:plain

これも関係性はよくわからないですね。

年齢差と年度のグラフを描いてみましょう。

f:id:cross_hyou:20190619202557j:plain

f:id:cross_hyou:20190619202533j:plain

年度はファクタなので、plot関数ではこのように年度ごとの箱ひげ図になります。1978、1983、1988と年齢差が拡大してから、それ以降は年齢差が縮小しています。

今回は以上です。

 

図書館数と図書館登録人数のデータの分析 - 神奈川は図書館少ない、山梨は多い。青森県は登録人数比率が低く、富山県は多い。

今回は、各都道府県の図書館の数と図書館登録人数を調べようと思います。

政府統計の総合窓口、e-Statからデータを取得します。

f:id:cross_hyou:20190615103848j:plain

総人口と図書館数と図書館登録者数です。

f:id:cross_hyou:20190615103922j:plain

エクセルにこのようにデータを取得しました。

read.csv関数でR言語にデータを読込み、分析します。

f:id:cross_hyou:20190615104833j:plain

事前のCSVファイルを眺めたのですが、図書館数と図書館登録人数は同じ年には調査されていないようで、年度データでは、どちらか一方しかありませんでした。

そこで、今回は、図書館数と図書館登録人数を別々に分析しようと思います。

まず、Year(年度), Pref(都道府県), Pop(人口), Kan(図書館数)のデータフレームを作って、na.omit関数でNAのデータを削除します。

f:id:cross_hyou:20190615105441j:plain

Yearを見ると、1975年度、1978年度、1981年度と3年ごとのデータのようです。

図書館登録人数のデータフレームを作ります。

f:id:cross_hyou:20190615105740j:plain

図書館登録人数は、2007年度、2010年度、2014年度の3回しかデータが無いですね。

一番新しい、204年度のデータだけにしてしまいます。

f:id:cross_hyou:20190615110203j:plain

図書館数は一番新しい年度は何年でしょうか?summary関数でみてみます。

f:id:cross_hyou:20190615110428j:plain

2015年度が一番新しいです。2015年だけのデータフレームを作ります。

f:id:cross_hyou:20190615110720j:plain

こうして作成した、df2015とdf2014をmerge関数で結合します。

f:id:cross_hyou:20190615111207j:plain

Pop.xが2015年の人口、Pop.yが2014年の人口です。colnames関数で名前を変更します。

f:id:cross_hyou:20190615111549j:plain

人口と図書館数の散布図を描いてみます。plot関数です。

f:id:cross_hyou:20190615111832j:plain

f:id:cross_hyou:20190615111844j:plain

人口が多いほど、図書館の数も多いです。

人口と図書館登録人数の散布図も描いてみます。

f:id:cross_hyou:20190615112431j:plain

f:id:cross_hyou:20190615112441j:plain

こちらも、人口が多いと図書館登録人数が多いですね。

まずは、人口当りの図書館数を計算して、どこの都道府県が図書館が多いか少ないかを調べましょう。

f:id:cross_hyou:20190615113202j:plain

KanPopという10万人当りの図書館数のベクトルを作成し、names関数でそのベクトルに都道府県の名前を付けて、sort関数で小さい順に表示しています。神奈川県は10万人当り0.9しか図書館ないですが、山梨県は6.6もあります。

 

次は、図書館登録人数 / 人口をやってみます。

f:id:cross_hyou:20190615113706j:plain

パーセンテージ表示です。青森県は人口の10%しか図書館登録がなく、富山県は人口の56%が図書館登録あります。都道府県によってこんなに違うのですね。

hist関数で人口10万人当りの図書館数、図書館登録人数比率のヒストグラムを描いてみます。

f:id:cross_hyou:20190615114313j:plain

f:id:cross_hyou:20190615114325j:plain

人口10万人当りの図書館数(KanPop)のほうが左右対称に近いですね。図書館登録人数比率(HitoPop)は左に山の頂点がよっています。

KanPopとHitoPopの散布図を描いてみます。

f:id:cross_hyou:20190615114700j:plain

f:id:cross_hyou:20190615114710j:plain

結構分散していますね。

今回は以上です。

 

都道府県別の平均気温と快晴日数と降雨日数のデータの分析 - 埼玉県が一番、快晴が多く、岡山県が一番、雨が少ない

今回は、都道府県別の平均気温と快晴日数と降雨日数のデータを分析してみようと思います。いつものように、政府統計の総合窓口(e-Stat)からデータを取得しました。

f:id:cross_hyou:20190613190811j:plain

こんな感じのデータをダウンロードしました。

これをR言語に読込ませて、分析します。まずは、read.csv関数です。

f:id:cross_hyou:20190613191621j:plain

サマリー関数でそれぞれの変数のサマリーを表示しました。OnodとAmeでNAが一つ、HareでNAが15個あります。これらの行をna.omit関数で削除します。

f:id:cross_hyou:20190613191919j:plain

2006行もあります。。1975年度からデータあるようですね。

年度ごとの平均値を出してみましょう。tapply関数です。

f:id:cross_hyou:20190613192241j:plain

だいたい、15℃前後でしょうか。ベクトルにしておきましょう。

f:id:cross_hyou:20190613192545j:plain

おんなじように、快晴日数と降雨日数も年度ごとの平均値をベクトル化しましょう。

f:id:cross_hyou:20190613192918j:plain

まずは、平均気温の推移をplot関数でみてみます。

f:id:cross_hyou:20190613193111j:plain

f:id:cross_hyou:20190613193121j:plain

年々、平均気温が上がっています。地球温暖化の影響なのでしょうか?

快晴日数はどうでしょうか?

f:id:cross_hyou:20190613193303j:plain

f:id:cross_hyou:20190613193316j:plain

快晴日数は年々減少しています。降水日数はどうかな?

f:id:cross_hyou:20190613193512j:plain

f:id:cross_hyou:20190613193522j:plain

降水日数は時系列的なトレンドはなさそうですね。

tapply関数を使って、都道府県ごとの平均気温、快晴日数、降水日数の平均値を算出しましょう。

f:id:cross_hyou:20190613194057j:plain

平均気温の順に並べてみます。sort関数です。

f:id:cross_hyou:20190613194223j:plain

北海道の平均気温は8.9℃、沖縄の平均気温は23℃です。

快晴日数も同じようにします。

f:id:cross_hyou:20190613194420j:plain

沖縄は平均して、9日しか快晴がありませんでした。埼玉は62日もありました。

降水日数はどうでしょうか?

f:id:cross_hyou:20190613194619j:plain

岡山が89日で一番少なく、石川が177日で一番多いです。

年度ごとの各平均値と都道府県ごとの平均気温の小数点以下の桁数をすっきりしましょう。

f:id:cross_hyou:20190613195121j:plain

こんな感じですね。

今回は、それぞれのデータのヒストグラムを見てみましょう。

hist関数です。まずは、平均気温から。

f:id:cross_hyou:20190613195619j:plain

年毎の平均気温のほうが、都道府県ごとの平均気温よりもバラツキは小さいですね。

次は快晴日数です。

f:id:cross_hyou:20190613195916j:plain

f:id:cross_hyou:20190613195927j:plain

こんな感じです。これはどっちがバラツキあるのかな?

変動係数を計算してみましょう。

f:id:cross_hyou:20190613200208j:plain

都道府県別のほうがバラツキありますね。

降水日数のヒストグラムです。

f:id:cross_hyou:20190613200439j:plain

f:id:cross_hyou:20190613200450j:plain

これは、都道府県別のほうがバラツキ大きいですね。

 

平均気温を被説明変数、説明変数を快晴日数と降水日数にして回帰分析をしてみましょう。lm関数ですね。

まずは、年度別のデータでやってみます。

f:id:cross_hyou:20190613200852j:plain

p-value = 0.004778なので有意なモデルです。が、各変数のp値は低くないですね。

YHAre:YAmeを削除してみます。

f:id:cross_hyou:20190613201102j:plain

p-value = 0.007077で有意です。切片とYHareの係数のp値が有意になりました。anova関数で、modelYとmodelY2を比較します。

f:id:cross_hyou:20190613201305j:plain

p値が0.07905なのでmodelYとmodelY2では大きな違いが無いです。よってmodelY2を採用します。modelY2からYAmeを削除したmodelY3を考えます。

f:id:cross_hyou:20190613201549j:plain

p-value = 0.002958なので有意です。anova関数でmodelY2とmodelY3を比較します。

f:id:cross_hyou:20190613201734j:plain

p値は0.28と有意ではない、つまりmodelY2とmodelY3では有意な違いは無い、ということですね。なので、単純なmodelY3を採用します。

summary画面を見ると、切片が16.13ですから、快晴の日がゼロだと平均気温は、16.13℃で、YHareの係数は、-0.03178とありますので、快晴の日が一日増えると気温は0.03℃下がるということです。

plot関数とabline関数で気温と快晴日数をグラフにしましょう。

f:id:cross_hyou:20190613204040j:plain

f:id:cross_hyou:20190613204055j:plain

今度は、都道府県別のデータでやってみましょう。

f:id:cross_hyou:20190613202145j:plain

p-value = 0.01207なので有意です。PHare:PAmeを削除したモデルを調べましょう。

f:id:cross_hyou:20190613202336j:plain

p-value = 0.01998で有意です。anova関数でmodelPとmodelP2に有意な違いがあるか調べます。

f:id:cross_hyou:20190613202512j:plain

p値は0.0768と有意な違いは無いので単純なmodelP2を採用します。さらに、PHareを除いたモデル、modelP3を調べましょう。

f:id:cross_hyou:20190613202734j:plain

p-value = 0.01194なので有意です。anova関数でmodelP2とmodelP3に違いがあるか調べましょう。

f:id:cross_hyou:20190613202917j:plain

p値が0.2116と有意な違いが無いことがわかりましたので、より単純なmodelP3を採用します。

切片の係数は、19.06なので、降水日数がゼロだと、都道府県の平均気温は19.06℃です。PAmeの係数が-0.03334なので、降水日数が1日増えるごとに平均気温が0.0334℃下がっていくということです。

これもplot関数とabline関数でグラフにしましょう。

f:id:cross_hyou:20190613204349j:plain

f:id:cross_hyou:20190613204359j:plain

今回は以上です。

 

男性役員数と女性役員数の比率の分析 - R言語のglm関数で比率データの回帰分析

今回は男性役員数と女性役員数の比率を分析しようと思います。

いつものように、データは政府統計の総合窓口(e-Stat)から取得しています。

f:id:cross_hyou:20190612194503j:plain

地域は、47都道府県です。

f:id:cross_hyou:20190612194546j:plain

データは、総人口、県内総生産額、役員数(男)、役員数(女)です。

f:id:cross_hyou:20190612194649j:plain

このようなCSVファイルに出力してread.csv関数でR言語に読込んで、分析します。

 

Statistics: An Introduction Using R

Statistics: An Introduction Using R

 

 こちらの本の14章、Proportion Dataを参考にしました。

まずは、str関数でデータ構造を確認しました。

f:id:cross_hyou:20190612195004j:plain

いつものように、NAの行がいっぱいなので、na.omit関数で削除します。

f:id:cross_hyou:20190612195209j:plain

なんとびっくり!観測が0になってしまいました。。。これではダメですね。

MaleとFemalがどのくらいあるか確認します。

もう一回、ファイルを読み直し、summary関数で確認します。

f:id:cross_hyou:20190612195758j:plain

データはありますね。。どうしましょうか。。。都道府県別の各データの平均値を算出して、そのデータで分析しましょう。aggregate関数ですね。

f:id:cross_hyou:20190612200626j:plain

これでできました。

参考書によると、比率データの分析では、まず、比率のベクトルを作って、散布図を描いています。やってみます。

f:id:cross_hyou:20190612201341j:plain

f:id:cross_hyou:20190612201353j:plain

f:id:cross_hyou:20190612201408j:plain

どうなんでしょうか。。。何か総人口と比率、総生産と比率に関係性はあるのでしょうか?総人口も総生産も対数をとって散布図を描いでみます。

f:id:cross_hyou:20190612201925j:plain

f:id:cross_hyou:20190612201905j:plain

f:id:cross_hyou:20190612201939j:plain

対数にすると、右肩上がりの関係のような気がします。

それではglm関数で分析しましょう。まず、比率データは、2つの変数を合わせたデータフレームを作る必要があるようです。cbind関数を使います。

f:id:cross_hyou:20190612202247j:plain

 

こうしてglm関数を使います。

まずは、総人口から。

f:id:cross_hyou:20190612202906j:plain

人口が多い都道府県ほど、男性比率は高いことがわかります。

次は生産額です。

f:id:cross_hyou:20190612203144j:plain

生産額が多いほど、男性比率は高いです。

そうだ、一人当りの生産額でもやってみましょう。

f:id:cross_hyou:20190612203604j:plain

PerProdが一人当り生産額ですが、p値は0.132なので関係ないようですね。

せっかくなので、どこの県が男性役員比率が高いか、低いかみてみましょう。

f:id:cross_hyou:20190612204509j:plain

沖縄、奈良、千葉が男性の役員比率が高いですね。

f:id:cross_hyou:20190612204707j:plain

徳島、栃木、熊本が男性の役員比率が低いです。

面白いことに南関東の埼玉、千葉、神奈川は男性役員比率が高く、北関東の栃木と群馬は男性役員比率が低いです。

今回は以上です。

消防機関の出動回数データの分析 - 沖縄県は出動回数の少ない県だ。

今回は消防機関の出動回数のデータを分析しようと思います。

消防機関の出動回数の定義は

f:id:cross_hyou:20190608154120j:plain

です。

www.e-stat.go.jpにありました。

 

政府統計の総合窓口(e-Stat)からデータを取得して、下のようなCSVファイルにしました。

f:id:cross_hyou:20190608144409j:plain

出動回数だけなく、人口と生産額のデータも同時に取得しています。

これを、R言語で読み込んで、分析をします。

まずは、read.csv関数でデータを読込みます。

f:id:cross_hyou:20190608145030j:plain

2021の観測と5つの変数です。Yearは年度、Prefは都道府県、Popは人口(人)、Prodは生産額(百万円)、そして、Goが消防機関の出動回数です。消防機関の出動回数って年間でどのくらいなんでしょうね。

まずは、NAの行をna.omit関数で削除して、summary関数で各変数の基本的な統計値を確認しましょう。

f:id:cross_hyou:20190608145552j:plain

Prefのところに注目すると、各都道府県は10個ずつあります。つまり、10年間のデータということですね。2006年度から2015年度ということですね。

人口(Pop)の最小値は57万3441人です。今朝のニュースで、2018年の日本全体の人口減少が44万人とありましたね。最小人口の県の人口が57万人ということは1年でこの県のほとんどの人口が減ってしまったということですね。そう考えると日本の人口減少ってすごいですね。

生産額(Prod)は数が大きすぎて実感がわかないですが、平均が11兆円ほどです。トヨタの売上高って30兆円ですよね。こう考えると、トヨタって凄いですね。

そして、消防機関の出動回数(Go)は、最小で9814回、最大で52万3487回です。1日当りに直してみます。

f:id:cross_hyou:20190608150452j:plain

1日当りになおすと、最小で27回、最大で1400回ほどです。

今回は、
1.消防機関の出動回数は年度で減少傾向なのか増加傾向なのか?

2.人口当りの出動回数の多い・少ない都道府県はどこか?

3.生産額当りの出動回数の多い・少ない都道府県はどこか?

4.出動回数を人口を生産額で回帰分析してみる。

の4点を調べてみようと思います。

 

まずは、年度ごとの出動回数の合計値を算出してみます。tapply関数ですね。

f:id:cross_hyou:20190608151122j:plain

2006年度は354万件で2015年度は373万件なので、微妙に増えている感じです。barplot関数で棒グラフにしてみます。

f:id:cross_hyou:20190608151505j:plain

f:id:cross_hyou:20190608151520j:plain

グラフで見ると変わらない感じですね。

各年度をZスコアに換算してみましょう。scale関数です。

f:id:cross_hyou:20190608152314j:plain

2015年度は平均値から1.33標準偏差大きいということですね。明らかに2015年度の出動回数は多かった、というレベルではないですね。

 

次は、人口当たりの出動回数を見てみましょう。

f:id:cross_hyou:20190608152903j:plain

order関数、rev関数、head関数を使って上位の都道府県を表示しました。2007年度の群馬県が一番です。0.082回です。1000人当り82回です。群馬の次は、北海道と岩手県が上位です。

少ないところはどこでしょうか?

f:id:cross_hyou:20190608153209j:plain

沖縄が上位を独占です。2010年度は、消防機関の出動回数は1000人当り8回しかありませんでした。群馬県の10分の1ですね。

 

生産額当りの出動件数も同様にやってみます。

f:id:cross_hyou:20190608153746j:plain

一番多かったのは2007年度の群馬県です。百万円当り0.02回、1億円当り2回です。

一番少ないのは沖縄県で、2010年度の沖縄県は、1億円あたり0.3回です。

10年間の平均値のデータフレームを作って、それでもう一度、多い順、少ない順を表示してみましょう。

まず、aggregate関数で10年間の平均値のデータフレームを作ります。

f:id:cross_hyou:20190608155343j:plain

GoPopの大きい順、小さい順を表示します。

f:id:cross_hyou:20190608155504j:plain

出動回数の多いのは岩手県、北海道、青森県、京都府、島根県、東京都です。少ないのは、沖縄県、佐賀県、徳島県、香川県、宮崎県、埼玉県です。

GoPord(生産額当りの出動回数)も同じようにみてみましょう。

f:id:cross_hyou:20190608155815j:plain

生産額当りの出動回数の多いのは岩手県、北海道、青森県、長崎県、島根県、秋田県でした。少ないのは沖縄県、徳島県、佐賀県、香川県、東京都、三重県でした。

沖縄県は消防機関の出動回数の少ない県といえますね。

それでは、次は、出動回数を人口と生産額で回帰分析してみましょう。

データフレームは、10年間の平均のdf2のほうを使いました。

まずは、出動回数(Go)と人口(Pop)、生産額の散布図をみてみましょうか?pairs関数を使います。

f:id:cross_hyou:20190608160758j:plain

f:id:cross_hyou:20190608160809j:plain

3段目の二つの散布図がY軸がGoの散布図です。Pop, Prodともに正の相関ですね。

Pop, Prod, Goの3つとも小さい値の観測と大きい値の観測の差が大きいので、3つとも対数をとりましょう。

f:id:cross_hyou:20190608161634j:plain
これでもう一度散布図を描いてみます。

f:id:cross_hyou:20190608161941j:plain

f:id:cross_hyou:20190608161953j:plain

こうして2つの散布図を見ると、人口のほうが生産額よりも出動回数に関係しているようです。

それでは、lm関数で回帰分析をしてみます。

まずは、人口(logPop)と生産額(logProd)の2乗項と交差項の入ったフルモデルを考えます。

f:id:cross_hyou:20190608162420j:plain

p-value = 0.001104と0.05以下なので、このモデルは有意です。が、どの変数の係数も有意ではないですね。。。こんなこともあるのですね。

まずは、交差項を削除したmodel2を考えます。

f:id:cross_hyou:20190608162741j:plain

p-value = 0.001025なので有意なモデルです。anova関数でmodelとmodel2を比較します。有意な違いが無ければ、説明変数の少ないmodel2を採用します。

f:id:cross_hyou:20190608163033j:plain

p値が0.1565なので0.05よりも大きいですから、modelとmodel2に有意な違いがあるとは言えません。なので、説明変数の少ないmodel2を採用します。さらにp値が一番大きかったlogGoPopの2乗項を削除したmodel3を考えましょう。

f:id:cross_hyou:20190608163355j:plain

p-value = 0.0003308なので有意なモデルです。anova関数でmodel2とmodel3を比較します。

f:id:cross_hyou:20190608163533j:plain

p値が0.8507なのでmodel2とmodel3には有意な違いはありません。よって変数の少ないmodel3を採用します。

model3からさらにlogGoProdの2乗項を削除したmodel4を考えましょう。

f:id:cross_hyou:20190608163835j:plain

p-value = 8.901e-05なので有意なモデルです。そしてこのmodel4で初めてすべての変数のp値が0.05以下で有意になりました。

logGoProdのほうがp値が大きいのでこっちを削除したmodel5を考えましょう。

f:id:cross_hyou:20190608164518j:plain

p-valueは0.0009946なので有意です。anova関数でmodel4とmodel5を比較しましょう。

f:id:cross_hyou:20190608164651j:plain

p値が0.005075と0.05よりも小さいので、model4とmodel5は有意に違う、ということです。model5は変数を削除しすぎということですね。

なので、model4が一番いい回帰モデルです。

もういちどサマリー画面を出します。

f:id:cross_hyou:20190608164911j:plain

logGoPopの係数の符号はプラスです。つまり、生産額が同じなら人口が多いほど出動回数は増えるということですね。

logGoProdの係数の符号はマイナスです。つまり、人口が同じなら生産額が多いほど出動回数は減るということですね。生産額が多いということはそれだけ災害に対する備えもしっかりしていて出動しなくても大丈夫なケースが多いということかな?

今回は以上です。

 

読書記録 - 「平成経済 衰退の本質」金子勝 著 岩波新書

 

平成経済 衰退の本質 (岩波新書)

平成経済 衰退の本質 (岩波新書)

 

 平成の30年は日本経済にとっては衰退していった30年だった。

政府・省庁・大企業が失敗や不正をしても責任を取らない無責任体質になってしまった。

ここから再び立ち直るためには、著者は6つのことを言っている。

1、社会基盤として透明で公正なルール

2、教育機会の平等

3、産業戦略とオープンプラットホーム

4、電力会社の発電と送電の分離

5、地域分散型ネットワーク型システムへの転換

6、時間をかけて財政金融の機能を回復

 

都道府県別の活動平均時間の分析 - 睡眠、身の回りの用事、食事の時間は女性のほうが長い。

今回は、政府統計の総合窓口から、都道府県別の1次活動の平均時間と県内総生産額のデータを分析してみます。

1次活動というのは、

www.e-stat.go.jpにありますが、睡眠、身の回りの用事、食事の時間です。

f:id:cross_hyou:20190605195024j:plain

こんな感じでデータをサイトから取得しました。R言語のread.csv関数で読み込み分析していきましょう。

f:id:cross_hyou:20190605195908j:plain

NAの行がたくさんあるので、na.omit関数でNAの行を削除してしまいましょう。

f:id:cross_hyou:20190605200148j:plain

はじめは、611 obsだったのが、94 obsとなってNAの行がなくなっています。

Yearのファクタ水準がそのままですので、as.charcter関数で文字型にしてから、as.factor関数でもう一度ファクタにします。

f:id:cross_hyou:20190605200554j:plain

Yearの水準が2つに減りました。2006年度と2011年度の2つですね。

summary関数で各変数の基本統計量をみてみましょう。

f:id:cross_hyou:20190605200903j:plain

Prodは県内生産額で単位は百万円です。最低は169億1800万円、最高は5251億0600万円、平均は916億5500万円です。1次活動平均時間は男性の平均は636分、女性の平均は645分です。

男性と女性で活動時間に違いはあるか?

2006年と20011年で活動時間に違いはあるか?

県内生産額と活動時間に関係はあるか?

の3点を調べてみようと思います。

まず、男性の活動時間と女性の活動時間の分散を比較します。var.test関数です。

f:id:cross_hyou:20190605204221j:plain

p-value = 0.04198と0.05よりも小さいので、男性の活動時間の分散と女性の活動時間の分散は違いがあります。

var関数でそれぞれの分散をみてみましょう。

f:id:cross_hyou:20190605204847j:plain

女性のほうがバラツキが小さいですね。

hist関数でヒストグラムを描いてみましょう。

f:id:cross_hyou:20190605205059j:plain

f:id:cross_hyou:20190605205116j:plain

ヒストグラムは、615から665まで5刻みですね。女性のヒストグラムも同じ刻みで描きましょう。

f:id:cross_hyou:20190605205511j:plain

f:id:cross_hyou:20190605205525j:plain

ヒストグラムを見ると、女性のほうが活動時間が長いですね。

Wilcox Rank-sum testで男性の1次活動時間と女性の1次活動時間に違いがあるかどうか調べてみます。

f:id:cross_hyou:20190605210034j:plain

p-value < 2.2e-16と0.05よりもはるかに小さい値ですので、男性の1次活動平均時間と女性の1次活動平均時間には有意な差がある、ということです。

次は、2006年度と2011年度で活動時間に違いがあるかどうかを調べます。

まずは、男性と女性の活動時間の平均値を計算しましょう。

f:id:cross_hyou:20190605210601j:plain

平均は641時間です。tapply関数を使って年度ごとの平均値を計算しましょう。

f:id:cross_hyou:20190605210804j:plain

2006年度は639分、2011年度は642分と3分の違いがあります。あんまり変わりはないですね。

var.test関数で分散に違いがあるか確認します。

f:id:cross_hyou:20190605211134j:plain

p-value = 0.4359と0.05よりも大きいので分散に違いは無いと言えます。

分散に違いは無いので、t.test関数で2006年の活動時間と2011年の活動時間の平均値を検定します。

f:id:cross_hyou:20190605211648j:plain

p-value = 3.991e-07と0.05よりも小さいので、2006年度と2011年度では違いがあるということです。たかが3分、されど3分、2011年度のほうが2006年度よりも1次活動の時間は伸びました。

県内生産額と1次活動時間に関係はあるでしょうか?plot関数で散布図を描いてみます。

f:id:cross_hyou:20190605212157j:plain

f:id:cross_hyou:20190605212214j:plain

県内生産額を対数にして散布図を描いでみましょう。

f:id:cross_hyou:20190605212529j:plain

f:id:cross_hyou:20190605212540j:plain

微妙に右肩上がりのような気がしますがどうでしょうか?

cor.test関数で相関関係があるかどうか検定してみましょう。

f:id:cross_hyou:20190605212828j:plain

p-vale = 0.04695と0.05より小さいので相関関係はあります。相関係数は0.2054706なので弱い正の相関です。

lm関数でモデルを作ってみましょう。

f:id:cross_hyou:20190605213532j:plain

p-value = 0.04583なので0.05よりも小さいのでモデルは有意です。しかし、切片項しか有意ではないです。2乗項をはずしてみましょう。

f:id:cross_hyou:20190605213851j:plain

p-value = 0.04695で0.05以下なので有意なモデルです。logProdの係数は、5.497でp値は0.047と0.05よりも小さいので有意です。

あ、年度を追加してみましょう。

f:id:cross_hyou:20190605214218j:plain

p-value = 0.01857と0.05よりも小さいので有意なモデルです。

logProdの係数、df$Year2011年度の係数のp値は両方とも0.05なので有意です。

県内生産額が大きいと1次活動の平均時間は長くなり、2006年と2011年を比較すると、2011年度のほうが平均時間は長いです。

まとめると、男性と女性では、女性のほうが1次活動の時間は長い、2006年度よりも2011年度のほうが活動時間は長い、県内生産額が大きいほうが活動時間は長い、とおおいうことでした。

今回は以上です。