国税庁のホームページに長期時系列のデータがありました。
この「申告所得税」のファイルをダウンロードしてみました。
ファイルの4シート目の「所得種類別金額」のデータをR言語で分析してみようと思います。
read.csv関数でR言語に読込みやすいように、下図のようなCSVファイルにしました。
それでは、read.csv関数でデータをR言語に読込み、summary関数で各変数の基本統計量をみてみましょう。ちなみに、金額はすべて百万円単位です。
西暦の最小値は1949で最大値は2016なので1949年から2016年までのデータであることがわかります。NAを含む変数がいくつかあります、その他事業所得、利子所得、損益通算差額、分離長期譲渡所得、分離短期譲渡所得、株式譲渡所得などです。
変数がたくさんあるので、どれから分析したらいいでしょうか。。まずは「総計」からみてみましょうか。総計のヒストグラムをhist関数で描いてみます。
山が二つある感じですね。density関数とplot関数でカーネル密度グラフを描きます。
山が二つありますね。
小さい順に並び替えてグラフにしてみましょう。
右の2つのプロットが外れ値っぽいですね。
boxplot関数で箱ひげ図を描いてみましょう。
外れ値を表す丸がないので、2つの値は外れ値といえるほど外れてはいないようです。
このデータは時系列ですから、plot関数で時系列グラフを描いてみましょう。
1989年、90年のバブル期が一番金額が大きいですね。
2010年以降、回復しているようですが、バブル期に比べるとまだまだですね。
総計だけでsummary関数を実行してみましょう。
最大値が、59兆1143億9800万円です。大きい順に並び替えて、何年に記録したのか確認しておきましょう。order関数を使います。
1991年が最高の申告所得の年ですね。
申告所得の総計の動きはだいたいわかりました。各種類別の所得の動きをみてみましょう。
平均値を計算して、大きい順に表示してみましょう。apply関数とmean関数を使って平均値を出します。
総計の次に大きいのは給与所得ですね。平均で9兆7299億4013万円です。
総計と給与所得の散布図をplot関数で表示してみましょう。
正の相関関係がありますね。
今回は以上です。
次回は
です。