Photo by Dawid Zawiła on Unsplash
の続きです。
2018年のデータフレームと1975年のデータフレームを合体させましょう。
まず、上のようにして、df_1975、df_2019のそれぞれのデータフレームから必要な変数だけを抜き出しました。今回はpop: 人口と、anmassage_pop: 人口100万人当たりのあんま・マッサージ師数、harikyu_pop: 人口100万人当たりのはり・きゅう師数、judo_pop: 人口100万人当たりの柔道整復師数を選択しました。そして、それぞれの変数名を1975年なのか2018年なのかを区別できるように名前を書き替えました。
この2つの~~~~_tempデータフレームをinner_join()関数でprefを鍵にして結合します。
summary()関数でdf_7518を見てみましょう。
ちょうどよく、pop, anmassage_pop, harikyu_pop, judo_popの1975年と2018年が上下に並んでくれました。人口以外はあきらかに2018年のほうが数値が増えていますね。
人口について、分布を比較してみましょう。
上のヒストグラムが1975年の人口のヒストグラムで、下のヒストグラムが2018年のヒストグラムです。あまり変化はないですね。
t.test()関数でt検定してみます。
p値は0.005なので、両者の平均値は同じ、という帰無仮説を棄却します。
pop75の平均値は2,381,695人でpop18の平均値は2,690,277人ですので2018年のほうが人口の平均値は大きいのですね。
それぞれの変数の相関関係をみてみましょう。
pop75とpop18の相関係数は0.984でかなり高いです。popが絡んでいない中では、anmassage_pop75とharikyu_pop75が0.795で一番高いです。同じ年の組み合わせを除くとannmassage_pop75とanmassage_pop18が0.412で一番高いです。
散布図のマトリックスも作成してみましょう。
変数が多すぎてよくわからないです。
df_7518のサマリーを見返すと、judo_popが一番変化率が大きいようです。
judo_pop75の平均値は83.6で、judo_pop18の平均値は504.9と6倍くらいに増えています。
どの都道府県が柔道整復師数の数を増やしているのか見てみましょう。
大阪府が一番増えています。京都府、和歌山県と続いています。
あんま・マッサージ師の変化幅はどうでしょうか?
あんま・マッサージ師は減っているとkころもありますね。和歌山県、香川県などは減っています。神奈川県が一番多く増えていて、京都府、東京都と続きます。
はり・きゅう師はどうでしょうか?
はり・きゅう師も減少している都道府県があります。鳥取県と山口県です。
大阪府が一番増えて、2番目が京都府、3番目が神奈川県です。
今回は以上です。
次回は、
です。
初めから見るには、
です。