今回も定期健康診断結果のデータを分析しようと思います。
前回の分析で、有所見率の一番高い業種は、石炭鉱業で、一番低い業種は鉄道等でした。そこで今回はこの2つの業種の有所見率の差は統計的に有意なものなのかどうかを検定してみたいと思います。
まずは、データをread.csv関数で読込み、head関数ではじめの6行を表示してみます。
業種が石炭鉱業と鉄道等だけを表示してみましょう。subset関数を使ってみます。
subset(kenshin, 業種 == "石炭鉱業" | 業種 == "鉄道等")というコマンドですが、
subset(kenshin, で、kenshinというというデータフレームを対象にフィルターをかけますよ。という意味です。
続いて、業種 == "石炭鉱業" で業種の列のデータが、石炭鉱業の行をもってきなさい、ということです。
| は「または」ということです。&だと「かつ」になります。
そして、業種 == "鉄道等" で業種の列のデータが、鉄道等の行をもってきなさい、ということです。つまり、業種が石炭鉱業かまたは鉄道等の行をもってきなさい、というコマンドですね。
石炭鉱業は受信者数は29人、所見人数も29人で有所見率は100.0%です。
鉄道等は受信者数は142035人、所見人数は60264人で有所見率は42.4%です。
この2つのグループの有所見率の違いは統計的に有意な差なのかどうかをprop.test関数で検定したいと思います。
所見人数 <- c(29, 60264)
受信人数 <- c(29, 142035)
という2つのベクトルを作り、
porp.test(所見人数, 受信人数)とコマンド入力すると検定できます。
その結果がこちらです。
P-value = 1.171e-09 < 0.05 ですから石炭鉱業の有所見率と鉄道等の有所見率は有意な差ががあると検定できました。
prop 1 の 1.000~が石炭鉱業の有所見率で、
prop 2 の 0.4242~が鉄道等の有所見率ですね。