今回は、就業構造基本調査のデータを分析したいと思います。
政府統計の総合窓口(e-Stat)から
平成29年の「男女、世帯主との続き柄・一般・単身世帯・配偶関係、年齢、就業状態・仕事の主従別人口(15歳以上) - 全国」のデータを使ってR言語での分析の練習をします。
ファイルをダウンロードすると、こんな形態でした。
こういうファイルです。R言語にはこのようなファイルを整理する関数も実装されていますが、私はまだそこまで勉強していないので、エクセル上でデータを整理して下記のようなCSVファイルを作成しました。
このCSVファイルをread.csv関数でR言語に読み込み、summary関数で基本統計量を算出します。
カテゴリ変数は、「男女」「続柄一般単身配関」「年齢」の3種類で、残りは連続変数ですべて人数を表す変数です。
「男女」は"総数", "男", "女"の3種類ですべて同じ144のデータがあります。
「続柄一般単身配関」はsummary関数で表示されているものの他にどんなものがあるでしょうか?table関数で確認しましょう。
まず、「続柄一般単身配関」という変数名は長ったらしいので「続柄など」に変更しました。そしてtable関数でどのような属性があるかをみています。うち単身者、その他の親族世帯員、死者離別、世帯主、世帯主の配偶者、総数、配偶者あり、非親族世帯員、未婚の9種類です。
つぎに「年齢」を同じようにtable関数で処理してみます。
15歳から5歳幅で85歳以上まであることがわかります。それぞれの年代で27データありますが、これは「男女」が3種類、「続柄など」が9種類ですから、3 x 9 で27データですね。「年齢」は16種類ですから全部で 3 x 9 x 16 = 432種類のカテゴリ変数の組合せがあるということです。
summary関数では最小値、第1分位値、中央値、平均値、第3分位値、最大値を表示しますが分散と標準偏差が算出されないので、var関数で分散を、sd関数で標準偏差を計算しましょう。apply関数で複数の変数をいっぺんに計算します。
apply(データ, 2, 関数)で列ごとに、apply(データ, 1, 関数)で行ごとに関数を適用します。data[ , c(-3:-1)]tして1列目、2列目、3列目を除いています。
こうして計算してみても、どれが一番データのばらつきがあるかわかりません。
標準偏差 / 平均値 で計算される変動係数を算出してみましょう。
一番データのバラツキが大きいのは「通学している者」で、一番バラツキの小さいのは「無業者」です。
今回はここまでです。
次回は
です。