Photo by Boris Smokrovic on Unsplash
今回は都道府県別の婚姻件数と離婚件数を調べてみます。
政府統計の総合窓口(www.e-stat.go.jp)からデータを取得します。
まず、47都道府県を選択します。
婚姻件数・離婚件数の他に総人口、県内総生産額、中学校数、行楽行動者率を選択してみました。
このようなCSVファイルをダウンロードできました。10行目に変数名を追加しています。
これをR言語にアップロードします。
はじめにtidyverseパッケージをよみこんでおきます。
そうしたら、read_csv()関数でCSVファイルにあるデータをR言語に取り込みます。
読み込んだデータフレームをstr()関数とhead()関数で表示してみます。
str()関数では、year, prefの文字列型のデータが文字化けして出力されていますが、head()関数では問題なく表示されていますね。
year, prefがfilter()関数やggplot()関数のグラフで問題なく動けばいいのですが。。
ちょっと確認してみます。
filter()関数でも正常に動きますし、ggplot()のグラフでも問題なく表示されていますね。
このまま分析を続けます。
na.omit関数とnrow()関数で全部のデータがそろっている年度があるかどうかを調べます。
行の数が47ということは、1年だけ、全てのデータがそろっている年度があるのですね。
この年だけのデータフレームを作ってみます。
2001年度が全てのデータがそろっていたのですね。
ここで、データの確認をしておきます。
year_code: 調査年コード
year: 調査年
pref_code: 地域コード
pref: 地域
pop: 総人口(人)
mar: 婚姻件数(組)
div: 離婚件数(組)
gdp: 県内総生産額(平成17年基準・百万円単位)
sch: 中学校数(校)
lei: 行楽行動者率(15歳以上・%)
です。
今回は以上です。
次回は
です。