今日は、都道府県別の交通・通信費データの分析をします。
いつものように、政府統計の総合窓口、e-Statのサイトからデータをダウンロードします。
地域は47都道府県を選択します。
データは総人口と交通・通信費です。
Excelにはこのような感じでデータがダウンロードされます。
先日作成しておいた、このような東日本と西日本を分類するファイルも読込みます。
R言語のread.csvファイルで読込み、merge関数でファイルを統合し、na.omit関数でNAの行を削除して、str関数とsummary関数でデータフレームがどんなだか見てみましょう。
Prefの数を見ると、33なので、33年間のデータがあります。
まず、tablel関数でYearが何年から何年なのかみてみます。
1975年から2007年までですね。度数が0のファクター水準がありますので、as.character関数とas.factor関数で度数が0の水準を削除します。
まずは、東日本と西日本で交通・通信費に差があるかみてみます。plot関数で箱ひげ図を描いてみます。
東日本のほうが少し平均値が高いです。数字で確認します。tapply関数です。
西日本の1世帯あたり1か月の交通・通信費の平均は、1975年から2007年までの平均で、2万6418円です。東日本は2万8552円です。t.test関数でこの2つに有意な違いがあるのか調べてみます。
p-value = 6.603e-06と0.05より小さいので、西日本と東日本で交通・通信費は違いがあると言えます。東日本のほうが交通・通信費を多く使っています。
人口との散布図を描いでみます。plot関数です。
あんまり関係はなさそうです。
年度と交通・通信費の関係をみましょう。
これはもう、一目で関係あるとわかりますね。年々、交通・通信費は増加しています。
年度を数値データに変換して通信費を年度と東西日本で回帰分析してみます。
まずは、年度がいまはファクターなので、数値型に変えます。
as.character関数でファクターを文字列に変換
substr関数で文字列のはじめの4文字(1975など)だけを取得
as.numeric関数で1975などが文字列になっているのを数値型に変換しました。
lm関数で回帰分析をしましょう。
p-value < 2.2e-16なのでモデルは有意です。Adjusted R-squaredは0.7191です。
モデル式は
西日本のときは、
Com = -1538000 + 785.8 * Y
東日本のときは、
Com = -1538000 + 785.8 * Y - 154300 + 78.58 *Y
= -1692300 + 864.38 * Y
です。西日本は1年で786円上昇、東日本は1年で864円上昇しています。
散布図と回帰直線を重ねましょう。plot関数とabline関数です。
今回は以上です。