Photo by Christoph von Gellhorn on Unsplash
の続きです。
こんどか東日本と西日本の献血者率をみてみます。
0が西日本なので、西日本のほうが少し高いです。
geom_density()関数で密度分布グラフをみてみます。
西日本のほうが献血者率が高いほうに集中していますね。
t.test()関数でt検定をしましょう。
p-valueが0.02547です。5%水準で西日本と東日本の献血者率には違いがあります。
big6(東京都、千葉県、埼玉県、神奈川県、愛知県、大阪府)と非big6でも比較してみます。
今回はtapply()関数ではなくて、group_by()関数とsumarise()関数を使ってみました。
big6は3.83%、非big6は4.10%です。
この違いは統計的に有意なのかどうか、t検定します。
p-valueは0.101です。5%水準では有意ではないです。10%水準で有意というところでしょうか。
いままでのをまとめると、
2006年と2011年は有意に違い、2011年のほうが献血者率が高い。
東日本と西日本は有意に違い、西日本のほうが献血者率が高い。
big6と非big6では有意に違うとは言えず、非big6のほうが献血者率が高い。
ということです。
次は数値データと献血者率の関係をみていきましょう。
まず、人口当たりの県内総生産額を計算します。
人口当たりの県内総生産額は、最小値は2.500、これは250万円ということです。
最大値は786万5千円、平均値は365万5千円、中央値は359万3千円です。
人口と県内総生産額を対数変換した値も計算します。
なぜ対数変換するかというと、そのほうが分布の形が左右対称に近くなるからです。
hist()関数でヒストグラムを描いてみます。
このように、右側の対数変換したほうのヒストグラムのほうが左右対称に近いですね。
今回は以上です。
次回は
です。
はじめから読むには、
です。