今回は、初婚年齢と住宅の広さのデータを分析してみようと思います。
いつものように、政府統計の総合窓口、e-Statからデータを取得しました。
地域は47都道府県を選択しました。
夫の初婚年齢、妻の初婚年齢、住宅の広さの3つのデータを選択しました。
こんな感じでデータをCVSファイルにダウンロードしました。これを、R言語のread.csv関数で読み込んで分析しようと思います。
str関数でデータ構造を見ると、2021行ありますが、NAの行がたくさんあることがわかりますので、na.omit関数で削除します。
summary関数で各変数のサマリーを表示しています。Prefのところの度数を見ると、各県とも8回登場していますので、8年間のデータだとわかります。Yearは1978年度から1983年度、1988年度と5年ごとにデータがあるようです。
それではまず、年度ごとの平均を見てみましょう。初婚年齢は年の経過とともに高くなっているのか、低くなっているのか、変わらないのか?tapply関数で年度ごとの平均値を求めます。平均値はmean関数ですね。
はじめに、各変数から、それぞれ独立したベクトルを作成しました。こうしておけば、df1$Maleとしないで、Maleだけで分析できます。Yearに関しては、1979年度などデータの無い年度もファクタの水準として残っていますので、いったんas.character関数で文字列にして、それからさらにas.factor関数でファクタに戻しています。
夫の平均初婚年齢は、1978年度は27.4歳、2013年度は30.6歳と3歳ぐらい高年齢化しています。
妻はどうでしょうか?
妻は、1978年度は24.9歳でしたが、2013年度は29.0歳に5歳ほど高年齢化しています。夫よりも高年齢化の幅は大きいですね。
住宅の広さはどうでしょうか?
1978年度は91平方メートルでしたが、2013年度は108平方メートルと広くなっています。2割ぐらい増えていますね。
都道府県ごとのデータを見たいと思います。一番新しい、2013年度のデータでみてみましょう。
まず、names関数でMale、Female、Hirosaに都道府県の名前属性をつけて、sort関数で小さい順に表示しました。福島県が29.8歳で一番若く、東京都が32.2歳で一番高いです。
妻はどうでしょうか?
妻も福島県が一番若く、28.2歳で、東京都が一番高く30.4歳です。
住宅の広さはどうでしょうか?
一番狭いのは東京都で64.5平方メートルです。一番広いのは富山県で152.2平方メートルです。
夫の初婚年齢と妻の初婚年齢の散布図をplot関数で表示します。
正の相関が見て取れる散布図ですね。
夫の年齢と住宅の広さはどうでしょうか?
全然関係なさそうですね。
年度別に色分けしてみましょう。
年度で色分けしてもやっぱり関連性はなさそうですね。
夫と妻の年齢差を考えてみましょう。
長崎県、沖縄県が一番年齢差が小さく、1.2歳です。千葉健、埼玉県、愛知県、岐阜県、長野県、秋田県が1.9歳で一番大きいです。
この年齢差と住宅の広さの散布図を見てみます。
これも関係性はよくわからないですね。
年齢差と年度のグラフを描いてみましょう。
年度はファクタなので、plot関数ではこのように年度ごとの箱ひげ図になります。1978、1983、1988と年齢差が拡大してから、それ以降は年齢差が縮小しています。
今回は以上です。