Photo by Jan Haerer on Unsplash
の続きです。
今回は各変数の基本的な記述統計量をみてみます。
最小値はmin()関数、最大値はmax関数、平均値はmean()関数、中央値はmedian()関数、標準変数はsd()関数、パーセンタイル値は、quantile()関数で求めることができます。
変動係数(CV)は標準偏差/平均値です。
一つ一つの関数を適用するのは面倒なので、関数を自作しましょう。
この自作関数を前回作成したdfに適用します。その際はsapply()関数で複数の変数に対していっぺんに適用します。
うまくできましたね。
per_shobuは1人当たり年間書籍・文房具販売額(千円)です。最小値は2万2300円ぐらい、最大値は7万2千100円ぐらい。平均値は3万1千円ぐらいです。変動係数は0.236ぐらいです。
shobuは年間書籍・文房具販売額(百万円)です。最小値は1.7392e+04です。e+04は0を4つつけます、ということだから小数点を4つ右に移動させます。17392百万円ですね。173億9200万円が最小値です。最大値は9162億3100万円です。平均値は971億3500百万円で、変動係数は1.48です。
popは人口です。最小値は60万4000人です。最大値は1270万4千人です。平均値は272万1千人、変動係数は0.96です。
mratioは15~64歳の男性の割合(%)です。最小値は62.6%、最大値は71.4%、平均値は65.9%、変動係数は0.032です。
fratioは15~64歳の女性の割合(%)です。最小値は56%、最大値は67.4%、平均値は61.7%、変動係数は0.046です。
incは1人当たり県民所得(千円)です。最小値は204万9000円、最大値は526万6千円、平均値は285万円、変動係数は0.176です。
eastは東日本なら1、西日本なら0のダミー変数です。平均値は0.51なので東日本と西日本は半々ぐらいということです。
big6は東京都、千葉県、埼玉県、神奈川県、愛知県、大阪府なら1、その他なら0のダミー変数です。平均値は6/47=12.8%です。
noseaは栃木県や埼玉県のように海なし県なら1、そうでないなら0のダミー変数です。平均値は17%ということで海の無い県は2割以下、ということです。栃木県、群馬県、埼玉県、山梨県、長野県、岐阜県、滋賀県、奈良県の8県が海なし県です。
今回は以上です。
次回は
です。
初めから読むには、
です。