政府統計の総合窓口、e-statのウェブページから、県別の県内総生産額と交通事故発生件数のデータを取得しました。
こんな感じのデータです。このデータをR言語を使って分析してみようと思います。
まず、read.csv関数でデータをR言語の読込みます。
str関数でデータ構造を確認すると、2021の観測で5つの変数があります。ただ、Skipは何も入っていないので後で削除します。
head関数ではじめの数行を表示しました。Yearが年度、Prefが都道府県、Prodが県内総生産額、Acciが交通事故件数です。
まず、Skipを削除します。
subset関数でSkipを削除し、summary関数で各変数のサマリーを表示しました。ProdにNAが1551個もあります。これらをna.omitで削除しましょう。
NAが削除されました。Prefを見ると、各県は10回ありますので、10年間のデータだとわかりますね。
ProdとAcciの散布図を描いてみます。plot関数です。
生産額が大きいほど、交通事故件数が多い傾向があるようです。あたりまえと言ったらあたりまえですね。
ProdとAcciの変動係数を計算してみます。
生産額のほうがバラツキが大きいですね。
交通事故件数 / 県内生産額 を計算して、生産額当りの交通事故件数を調べてみましょう。
hist関数でヒストグラムを描きました。山型の分布です。
分子の単位は百万円なので、百万円当り0.001件というレベルですね。
もう少しわかりやすくいうと、1千万円当り0.01件、1億円当り0.1件、10億円当り1件ということですね。
平均値、標準偏差、変動係数を計算します。
交通事故は、県内総生産額10億円当たり1.57件ですね。
変動係数は0.386で県内総生産額、交通事故件数よりもバラツキは小さいです。
今回は以上です。
次回は、
です。