www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の献血者数のデータの分析１ - R言語のread_csv()関数でデータを読み込む。

データ分析

f:id:cross_hyou:20210613172757j:plain

Photo by HalGatewood.com on Unsplash

今回は都道府県別の献血者数のデータを分析しようと思います。

まず、政府統計の総合窓口(www.e-stat.go.jp)からデータをダウンロードします。

f:id:cross_hyou:20210613172925p:plain

47の都道府県を選択し、

f:id:cross_hyou:20210613172950p:plain

総人口、県内総生産額、献血者数、ボランティア活動行動者率の4つのデータを選択しました。

f:id:cross_hyou:20210613173130p:plain

こんな感じのCSVファイルです。

早速これをR言語に読み込みましょう。

まず、tidyverseパッケージを読み込みます。

f:id:cross_hyou:20210613173636p:plain

read_csv()関数でCSVファイルを読み込みます。

f:id:cross_hyou:20210613173909p:plain

str関数でうまく読み込まれているかどうかを確認します。

f:id:cross_hyou:20210613174059p:plain

yearとprefが文字化けしています。

yearのほうは「年度」の部分が文字化けしています。これは始めの4文字だけを取り出せばいいですね。

str_sub()関数を使いましょう。

f:id:cross_hyou:20210613174639p:plain

うまく始めの4文字だけを取り出せました。

prefの文字化けはどうにもならないので、別に用意してあるファイルを読み込みます。

f:id:cross_hyou:20210613175136p:plain

こういうCSVファイルです。このファイルのcodeとデータフレーム:dfのcodeを一致させて英語のprefをdfに加えます。ewは東日本か西日本か、big6は東京都、埼玉県、千葉県、神奈川県、愛知県、大阪府だと1を取るダミー変数です。

まず、read_csv()関数でファイルを読み込みます。

f:id:cross_hyou:20210613175330p:plain

str()関数でうまく読み込まれているかどうか確認します。

f:id:cross_hyou:20210613175447p:plain

うまくいきました。

inner_join関数でdfとpref_codeを結合します。

f:id:cross_hyou:20210613175645p:plain

dfのほうのprefは文字化けしているから削除します。両方のデータフレームにcodeという変数があるので、codeを基準にしてpref_codeのデータをdfに結合しています。

na.omit()関数でNAのある行を削除してから、summary()関数でdfをみてみます。

f:id:cross_hyou:20210613175936p:plain

year, pref, ewをファクター型に変換してからstr()関数でみてみます。

f:id:cross_hyou:20210613180218p:plain

yearは2006年と2011年の２つの年があります。

prefはAichi, Akitaと英語になっています。

ewはeastとwestの2つの水準です。

これで分析の準備ができました。

今回は以上です。

次回は

www.crosshyou.info

です。