今回は、都道府県別の旅行・行楽の年間行動者率のデータを調べてみようと思います。
データは政府統計の総合窓口(www.e-stat.go.jp)から取得しました。
47の都道府県を選択し、
15歳以上の旅行・行楽の年間行動者率と海外旅行の年間行動者率を選択します。
ダウンロードしたCSVファイルはこのようなものです。
これをR言語で読み込みます。とりあえず、tidyverseパッケージを読み込んでおきます。
read_csv関数でCSVファイルを読み込みます。
skip= 8 としているので、9行目からデータを読み込みます。
na = のところで***, X, - をNAとして処理します。
locale = のところで、encodeをUTF-8に指定しています。
str関数でデータが読み込まれたかどうか確認します。
問題なく読み込まれたようです。
NAの行を削除したり、yearを数値にしたりして分析用のデータフレームにします。
na.omit関数でNAの行を削除し、str_remove関数で「年度」の文字を削除し、parse_number関数で数値型にしました。
str関数で確認してみます。
yearのデータがnumに代わって2001, 2001となっていることがわかります。
summary関数をつかってデータの概要を見てみます。
yearを見ると、最小値が1986で最大値が2001です。20年以上前のデータなのですね。
travelのところ見ると、最小値は56.20最大値は87.60です。
foreignは最小値は1.60で最大値は19.50です。
今回は以上です。
次回は
です。