Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の交際・付き合いの平均時間のデータの分析1 - Rにデータを読み込む

今回からしばらくは、都道府県別の交際・つきあいの時間のデータを分析してみたいと思います。

政府統計の総合窓口(www.e-stat.go.jp)からデータをダウンロードします。

ダウンロードしたデータは以下になります。

交際・付き合いに関係のありそうな変数として、平均気温、日照時間、県内総生産額と、人口密度を算出したいので、人口と可住地面積のデータを一緒に取得します。

こんな感じのCSVファイルになります。

これをRで分析しよう、ということです。

https://github.com/sato-nobu/CSV_files/blob/main/tsukiai.csv

ここにCSVファイルをアップロードしておきましたので、興味ある人はダウンロードできます。

まず、tidyverseパッケージを読み込みしておきます。

read_csv()関数で読み込みます。8行目からが読み込みたいデータですので、skip = 7 を加えます。

glimpse()関数でデータの様子を見てみましょう。

NAがいっぱいありますね。NAが無い調査年があるかどうか確認します。

あ、ありましたね。それでは、NAの無い調査年だけのデータフレームにして分析しましょう。

yearとprefはファクター型にします。

summary()関数で各変数の統計サマリーをみます。

year:調査年は2001年度、2006年度、2011年度の3つです。

pref:都道府県は47都道府県ですね。

pop:総人口は最小値は58万6千人、最大値は1319万8千人です。

male:男性の人口は最小値は28万人、最大値は652万4千人です。

female:女性の人口は最小値は30万6千人、最大値は667万4千です。女性のほうが男性よりも多いですね。

area:可住地面積は最小値は8万5053ha、最大値は222万0723haです。

temp:平均気温は最小値は8.0℃、最大値は24.0℃です。平均気温が8℃は北海道だと思いますが、かなり寒いんですね。

sun:日照時間は最小値は1465時間、最大値は2362時間です。

gdp:県内総生産額は最小値は1兆7581億93百万円、最大値は99兆9126億70百万円です。最大値は東京都でしょうね。最小のところより50倍以上の規模ですね。

hour_m:男性の交際・付き合いの平均時間です。最小値は14分、最大値は43分です。最小と最大で3倍も差があります。平均値は21.26分

hour_f:女性の交際・付き合いの平均時間です。最小値は13分、最大値は36分です。平均値は23分です。

最小値、最大値は男性のほうが大きいですが、平均値は女性のほうが大きいです。

今回は以上です。

次回は

www.crosshyou.info

です。

 

今回のコードは以下になります。

#
# tidyverseパッケージを読み込み
library(tidyverse)
#
# CSVファイルを読み込む
df_raw <- read_csv("tsukiai.csv",
                   skip = 7)
#
# データの様子
glimpse(df_raw)
#
# NAの無い調査年はあるか
df_raw |> na.omit()
#
# NAの無いデータフレームを作成
df <- na.omit(df_raw)
#
# yearとprefをファクター型に
df <- df |> 
  mutate(year = as.factor(year),
         pref = as.factor(pref))
#
# 各変数の統計サマリー
summary(df)
#

 

 

(冒頭の画像はBing Image Creatorで生成しました。プロンプトは、nature vast green grass field, close up of an Asiatic dayflower, blue sky and cumulonimbus clouds, Photoです。)