www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の経済構造実態調査のデータの分析５ - R言語のaov()関数でANOVA分析

データ分析

UnsplashのAlex Personが撮影した写真

www.crosshyou.info

の続きです。

前回行ったクラスタリングの結果をデータフレーム、dfにくっつけます。

まず、dfがどんなものだったか、str()関数で確認します。

これにクラスタリングの結果をくっつけたいので、まず、tidyverseパッケージを読み込みます。

inner_join()関数をつかってくっつけます。

str()関数で確認します。

一番下にgroupが追加されていることがわかります。

dfが変数が多くて大変なので、少し変数を絞ります。pref: 都道府県名、group: クラスタリングの結果、industry: 産業分類、value: 売上高(百万円単位), pc_val: 一人当たりの売上高(百万円単位), p_male304050: 30代、40代、50代の男性の比率　だけのデータフレームを作成します。

groupは整数型になったいますが、これはファクター型に変換します。

tidyverseパッケージを読み込んでいますので、mutate()関数を使ってみましょう。

summary()関数でdf_smallを表示しました。groupがファクター型に変換されていることがわかります。

group_by()関数とsummarise()関数でgroupごとのvalue, pc_val, p_male304050の平均値を見てみます。

group4がどの値も一番大きいです。そして、1, 2, 3の順番ですね。

どのgroupがどの都道府県だったか、おさらいしておきましょう。

group1は愛知県、宮城県、大阪府でした。

groupごとの平均値が統計的に有意に異なるか、ANOVA分析をしてみます。

aov()関数とsummary()で実行できます。

p値が2e-16よりも小さいの、valueはgroupごとに有意な差があります。

pc_valはどうでしょうか？

p値が2.49e-05となっていますので、pc_valもgroupごとに有意な差があります。

p_male304050はどうでしょうか？

p値が2e-16よりも小さいので、p_male304050もgroupごとに有意な差があります。

今回は以上です。

次回は、

www.crosshyou.info

です。

はじめから読むには、

www.crosshyou.info

です。