今回は、2016年度の法人企業統計年報のデータを使って、製造業の総資本経常利益率と非製造業のそれとで中央値に違いがあると言えるかどうかを検定してみたいと思います。ノンパラメトリック検定というものですね。
まずは、csvファイルのデータをR言語に取り込みます。read.csv関数で取り込めます。
summary関数で、どのようなデータが入っているか確認してみましょう。
今回分析したい総資本経常利益率の中央値は、4.500ですね。
それでは、このHoujin2016というデータフレームを製造業だけのデータフレームと非製造業だけのデータフレームを作成しましょう。
新データフレーム <- 従来のデータフレーム[ある列の条件, ]という形式で関数を書けば作成できます。こんな感じです。
実際に製造業だけ、非製造だけのデータフレームになっているか確認してみましょう。
たしかに、製造業だけ、非製造業だけ、になっていますね。
それでは、それぞれの総資本経常利益率の中央値を見てみましょう。
製造業の総資本経常利益率の中央値は、4.800
非製造業の総資本経常利益率の中央値は、4.40
です。この2つに違いはあるでしょうか?検定してみましょう。
帰無仮説は、製造業の総資本経常利益率と非製造業の総資本経常利益率の中央値は同じである、です。
独立した2グループの中心値の違いの検定は、Mann-Whitney検定を使います。R言語では、wilcox.test関数を使います。
p-value = 0.3702 > 0.05 ですから、帰無仮説を棄却できません。つまり、製造業の総資本経常利益率の中央値と、非製造業の総資本経常利益率の中央値に違いがあるとは言えないです。
この分析結果は、製造業・非製造業と総資本経常率のクロス表分析で、二つのデータに関係性は無いとなった結果と整合しています。