今回は定期健康診断結果のデータを大きい順、小さい順に並び替えて棒グラフにしてみます。データの分布をざっと確認しましょう。
まずは、read.csv関数でcsvファイルに保存してあるデータを読込み、head関数で最初の6行を表示して、summary関数でデータのサマリーを表示します。
では、事業場数の大きい順に並び替えましょう。order関数です。
kenshin[order(kenshin$事業場数, decreasing = TRUE), ] で事業場数の大きい順に並びえて、head関数で始めの6行を表示して大きい順に表示しています。小さい順に表示するには、decreasing = FALSEにしています。
商業、保健衛生、道路貨物などの事業場数が多く、石炭鉱業、土石採取、他の工業の事業場数が少ないことがわかります。
では、barplot関数で棒グラフにしてみましょう。
事業場数の分布は、上位3の業種が飛びぬけている感じですね。
コマンドは、
barplot(kenshin$事業場数[order(kenshin$事業場数, decreasing = TRUE)], main = "事業場")
です。
続いて、一事業所当人数をみてみましょう。
輸送機械、鉄鋼業、通信業は一事業所当の人数が多いですね。その反対に石炭鉱業、土石採取、農林業は人数が少ないです。
それでは、グラフにしてデータに分布を見ましょう。
こちらのデータのほうが、極端な値は無いですね。
次は、受信者数です。
保健衛生、他の事業、商業が受信者が多く、石炭鉱業、土石採取、他の鉱業の受信者が少ないです。棒グラフにして分布をみます。
事業場数と同じようなグラフの形状ですね。
続いて、所見人数です。
他の事業、保健衛生、商業が多く、石炭鉱業、土石採取、他の鉱業が少ないです。
棒グラフにして分布の様子をみましょう。
受信者数と同じような形状ですね。
最後は有所見率です。
石炭鉱業、土石採取、道路旅客が所見率が高く、鉄道等、輸送機械、他の運輸が所見率が低いです。同じ輸送交通でも、道路旅客は所見率が高く、鉄道は低いという結果です。
最後にグラフにしてみます。
有所見率が100%の石炭鉱業を除けば、比較的数値がまとまっていることがわかります。