
今回からしばらくは、都道府県別の定期健康診断結果報告のデータの分析をしてみます。データは、政府統計の総合窓口、e-stat から取得しました。

ダウンロードした CSV ファイルは下のようなものです。

12行目に変数名を挿入しました。
R でデータを分析しますので、最初に tidyverse パッケージの読み込みをします。

そうしたら、CSV ファイルを読み込みます。read_csv() 関数を使います。

glimpse() 関数でデータの確認をします。

year と pref は文字列型として読み込まれています。これをファクター型に変換します。

1実施事業場当たりの受信人数を計算します。

summary() 関数で各変数の統計値を見ましょう。

year は調査年度です。2015年、2016年、2017年の3年間のデータです。
pref は都道府県名です。調査年度が3年間なので、どの都道府県も3回登場します。
place は検診実施事業場数です。一番少ない県は497か所、一番多いところ、おそらく東京でしょうが、1万6048か所です。
jushin は受診者数【人】です。一番少ないところは4万4780人、一番多いところは238万5914人です。
shoken は所見ありの人数です。一番少ないところは2万2964人、一番多いところが125万2799人です。
shokenritsu は所見ありの人数の割合です。一番小さいところは48.9%、一番大きいところは65.0%です。
per_jushon は1事業所当たりの受診人数です。一番小さいところは87.63人、一番大きいところは151.69人です。
今回は以上です。
次回は
です。
今回のコードは以下になります。
#
# tidyverse パッケージの読み込み
library(tidyverse)
#
# CSV ファイルの読み込み
df_raw <- read_csv("teiki_kenkou_shindan.csv",
skip = 11)
#
# データの確認
glimpse(df_raw)
#
# year, pref をファクター型にする
df <- df_raw |>
mutate(
year = as.factor(year),
pref = as.factor(pref)
)
#
# 1事業場当たりの受信人数
df <- df |>
mutate(per_jushin = jushin / place)
#
# 各変数の統計値
summary(df)
#
(冒頭の画像は Bing Image Creator で生成しました。プロンプトは Natural landscape of a very large fall, blue sky, close up of white clover flowers, photo です。)