www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別・東日本・西日本別の交通・通信費データの分析 - 東日本の世帯のほうが西日本より交通・通信費が高い

今日は、都道府県別の交通・通信費データの分析をします。

いつものように、政府統計の総合窓口、e-Statのサイトからデータをダウンロードします。

f:id:cross_hyou:20190706153304j:plain

地域は47都道府県を選択します。

f:id:cross_hyou:20190706153327j:plain

データは総人口と交通・通信費です。

f:id:cross_hyou:20190706153355j:plain

Excelにはこのような感じでデータがダウンロードされます。

f:id:cross_hyou:20190706153614j:plain

先日作成しておいた、このような東日本と西日本を分類するファイルも読込みます。

R言語のread.csvファイルで読込み、merge関数でファイルを統合し、na.omit関数でNAの行を削除して、str関数とsummary関数でデータフレームがどんなだか見てみましょう。

f:id:cross_hyou:20190706154624j:plain

Prefの数を見ると、33なので、33年間のデータがあります。

まず、tablel関数でYearが何年から何年なのかみてみます。

f:id:cross_hyou:20190706160035j:plain

1975年から2007年までですね。度数が0のファクター水準がありますので、as.character関数とas.factor関数で度数が0の水準を削除します。

f:id:cross_hyou:20190706160323j:plain

まずは、東日本と西日本で交通・通信費に差があるかみてみます。plot関数で箱ひげ図を描いてみます。

f:id:cross_hyou:20190706160523j:plain

f:id:cross_hyou:20190706160533j:plain

東日本のほうが少し平均値が高いです。数字で確認します。tapply関数です。

f:id:cross_hyou:20190706160707j:plain

西日本の1世帯あたり1か月の交通・通信費の平均は、1975年から2007年までの平均で、2万6418円です。東日本は2万8552円です。t.test関数でこの2つに有意な違いがあるのか調べてみます。

f:id:cross_hyou:20190706161009j:plain

p-value = 6.603e-06と0.05より小さいので、西日本と東日本で交通・通信費は違いがあると言えます。東日本のほうが交通・通信費を多く使っています。

人口との散布図を描いでみます。plot関数です。

f:id:cross_hyou:20190706161343j:plain

f:id:cross_hyou:20190706161356j:plain

あんまり関係はなさそうです。

年度と交通・通信費の関係をみましょう。

f:id:cross_hyou:20190706161546j:plain

f:id:cross_hyou:20190706161558j:plain

これはもう、一目で関係あるとわかりますね。年々、交通・通信費は増加しています。

年度を数値データに変換して通信費を年度と東西日本で回帰分析してみます。

まずは、年度がいまはファクターなので、数値型に変えます。

f:id:cross_hyou:20190706162027j:plain

as.character関数でファクターを文字列に変換

substr関数で文字列のはじめの4文字(1975など)だけを取得

as.numeric関数で1975などが文字列になっているのを数値型に変換しました。

lm関数で回帰分析をしましょう。

f:id:cross_hyou:20190706162418j:plain

p-value < 2.2e-16なのでモデルは有意です。Adjusted R-squaredは0.7191です。

モデル式は

西日本のときは、

Com = -1538000 + 785.8 * Y

東日本のときは、

Com = -1538000 + 785.8 * Y - 154300 + 78.58 *Y

         = -1692300 + 864.38 * Y

です。西日本は1年で786円上昇、東日本は1年で864円上昇しています。

散布図と回帰直線を重ねましょう。plot関数とabline関数です。

f:id:cross_hyou:20190706165119j:plain

f:id:cross_hyou:20190706165129j:plain

今回は以上です。