都道府県別の保護統計調査のデータの分析１ - Rでcsvファイルのデータを読み込み、tidyなデータフレームに修正する。

UnsplashのVishu Jooが撮影した写真

今回は、都道府県別の保護統計調査のデータを分析してみようと思います。

政府統計の総合窓口、e-statのウェブサイトからデータ取得します。

観察所別　開始人員累年比較　というデータをダウンロードしてみます。

このようなCSVファイルをダウンロードしました。

このファイルで、いらない列を削除して、変数名を追加しました。

このようにファイルを少し加工しました。13行目に変数名を加えています。

このCSVファイルをRに読み込みます。

まず、tidyverseパッケージを読み込んでおきます。

read_csv()関数でファイルを読み込みます。

glimpse()関数でデータを見てみます。

無事に読み込まれました。ただし、この形態だと分析するのに面倒なので、pivot_longer()でtidyなデータフレームに変換します。

head()関数でtidyなデータフレームに変換されているかみてみます。

typeとyearをファクター型に変換します。

summary()関数でdfの基本統計量をみてみます。

typeは1号観察から4号観察まであることがわかります。数は全部1175と揃っています。

locationのLengthが4700なので、このデータフレームは、4700の観測があることがわかります。

yearはY1997, Y1998とあって、みな188です。

numは人数です。最小値は1人、最大値は4075人です。

今回は以上です。

次回は、

です。