Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の婚姻件数と離婚件数のデータの分析1 - R言語にデータを取り込む。

f:id:cross_hyou:20211009081653j:plain

Photo by Boris Smokrovic on Unsplash 

今回は都道府県別の婚姻件数と離婚件数を調べてみます。

政府統計の総合窓口(www.e-stat.go.jp)からデータを取得します。

f:id:cross_hyou:20211009082655p:plain

まず、47都道府県を選択します。

f:id:cross_hyou:20211009083510p:plain

婚姻件数・離婚件数の他に総人口、県内総生産額、中学校数、行楽行動者率を選択してみました。

f:id:cross_hyou:20211009084309p:plain

このようなCSVファイルをダウンロードできました。10行目に変数名を追加しています。

これをR言語にアップロードします。

はじめにtidyverseパッケージをよみこんでおきます。

f:id:cross_hyou:20211009085121p:plain

そうしたら、read_csv()関数でCSVファイルにあるデータをR言語に取り込みます。

f:id:cross_hyou:20211009085504p:plain

読み込んだデータフレームをstr()関数とhead()関数で表示してみます。

f:id:cross_hyou:20211009085713p:plain

f:id:cross_hyou:20211009085858p:plain

str()関数では、year, prefの文字列型のデータが文字化けして出力されていますが、head()関数では問題なく表示されていますね。

year, prefがfilter()関数やggplot()関数のグラフで問題なく動けばいいのですが。。

ちょっと確認してみます。

f:id:cross_hyou:20211009090332p:plain

f:id:cross_hyou:20211009090635p:plain

f:id:cross_hyou:20211009090705p:plain

filter()関数でも正常に動きますし、ggplot()のグラフでも問題なく表示されていますね。

このまま分析を続けます。

na.omit関数とnrow()関数で全部のデータがそろっている年度があるかどうかを調べます。

f:id:cross_hyou:20211009091103p:plain

行の数が47ということは、1年だけ、全てのデータがそろっている年度があるのですね。

この年だけのデータフレームを作ってみます。

f:id:cross_hyou:20211009091459p:plain

2001年度が全てのデータがそろっていたのですね。

ここで、データの確認をしておきます。

year_code: 調査年コード

year: 調査年

pref_code: 地域コード

pref: 地域

pop: 総人口(人)

mar: 婚姻件数(組)

div: 離婚件数(組)

gdp: 県内総生産額(平成17年基準・百万円単位)

sch: 中学校数(校)

lei: 行楽行動者率(15歳以上・%)

です。

今回は以上です。

次回は

 

www.crosshyou.info

です。