crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

初婚年齢と住宅の広さのデータの分析 - 福島県が初婚年齢が一番低く、東京が高い。富山県が一番住宅が広く、東京が狭い。

今回は、初婚年齢と住宅の広さのデータを分析してみようと思います。

いつものように、政府統計の総合窓口、e-Statからデータを取得しました。

f:id:cross_hyou:20190619192404j:plain

地域は47都道府県を選択しました。

f:id:cross_hyou:20190619192427j:plain

夫の初婚年齢、妻の初婚年齢、住宅の広さの3つのデータを選択しました。

f:id:cross_hyou:20190619192514j:plain

こんな感じでデータをCVSファイルにダウンロードしました。これを、R言語のread.csv関数で読み込んで分析しようと思います。

f:id:cross_hyou:20190619192619j:plain

str関数でデータ構造を見ると、2021行ありますが、NAの行がたくさんあることがわかりますので、na.omit関数で削除します。

f:id:cross_hyou:20190619192846j:plain

summary関数で各変数のサマリーを表示しています。Prefのところの度数を見ると、各県とも8回登場していますので、8年間のデータだとわかります。Yearは1978年度から1983年度、1988年度と5年ごとにデータがあるようです。

それではまず、年度ごとの平均を見てみましょう。初婚年齢は年の経過とともに高くなっているのか、低くなっているのか、変わらないのか?tapply関数で年度ごとの平均値を求めます。平均値はmean関数ですね。

f:id:cross_hyou:20190619200614j:plain

はじめに、各変数から、それぞれ独立したベクトルを作成しました。こうしておけば、df1$Maleとしないで、Maleだけで分析できます。Yearに関しては、1979年度などデータの無い年度もファクタの水準として残っていますので、いったんas.character関数で文字列にして、それからさらにas.factor関数でファクタに戻しています。

夫の平均初婚年齢は、1978年度は27.4歳、2013年度は30.6歳と3歳ぐらい高年齢化しています。

妻はどうでしょうか?

f:id:cross_hyou:20190619194011j:plain

妻は、1978年度は24.9歳でしたが、2013年度は29.0歳に5歳ほど高年齢化しています。夫よりも高年齢化の幅は大きいですね。

住宅の広さはどうでしょうか?

f:id:cross_hyou:20190619194256j:plain

1978年度は91平方メートルでしたが、2013年度は108平方メートルと広くなっています。2割ぐらい増えていますね。

都道府県ごとのデータを見たいと思います。一番新しい、2013年度のデータでみてみましょう。

f:id:cross_hyou:20190619194847j:plain

まず、names関数でMale、Female、Hirosaに都道府県の名前属性をつけて、sort関数で小さい順に表示しました。福島県が29.8歳で一番若く、東京都が32.2歳で一番高いです。

妻はどうでしょうか?

f:id:cross_hyou:20190619195209j:plain

妻も福島県が一番若く、28.2歳で、東京都が一番高く30.4歳です。

住宅の広さはどうでしょうか?

f:id:cross_hyou:20190619195532j:plain

一番狭いのは東京都で64.5平方メートルです。一番広いのは富山県で152.2平方メートルです。

夫の初婚年齢と妻の初婚年齢の散布図をplot関数で表示します。

f:id:cross_hyou:20190619200113j:plain

f:id:cross_hyou:20190619195822j:plain

正の相関が見て取れる散布図ですね。

夫の年齢と住宅の広さはどうでしょうか?

f:id:cross_hyou:20190619200128j:plain

f:id:cross_hyou:20190619200139j:plain

全然関係なさそうですね。

年度別に色分けしてみましょう。

f:id:cross_hyou:20190619200804j:plain

年度で色分けしてもやっぱり関連性はなさそうですね。

夫と妻の年齢差を考えてみましょう。

f:id:cross_hyou:20190619201142j:plain

長崎県、沖縄県が一番年齢差が小さく、1.2歳です。千葉健、埼玉県、愛知県、岐阜県、長野県、秋田県が1.9歳で一番大きいです。

この年齢差と住宅の広さの散布図を見てみます。

f:id:cross_hyou:20190619201524j:plain

f:id:cross_hyou:20190619201534j:plain

これも関係性はよくわからないですね。

年齢差と年度のグラフを描いてみましょう。

f:id:cross_hyou:20190619202557j:plain

f:id:cross_hyou:20190619202533j:plain

年度はファクタなので、plot関数ではこのように年度ごとの箱ひげ図になります。1978、1983、1988と年齢差が拡大してから、それ以降は年齢差が縮小しています。

今回は以上です。