www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

国税庁の申告所得データの分析1 - 基本統計量

国税庁のホームページに長期時系列のデータがありました。

f:id:cross_hyou:20181215160655j:plain

この「申告所得税」のファイルをダウンロードしてみました。

f:id:cross_hyou:20181215160808j:plain

 

ファイルの4シート目の「所得種類別金額」のデータをR言語で分析してみようと思います。

read.csv関数でR言語に読込みやすいように、下図のようなCSVファイルにしました。

f:id:cross_hyou:20181215161051j:plain

 

それでは、read.csv関数でデータをR言語に読込み、summary関数で各変数の基本統計量をみてみましょう。ちなみに、金額はすべて百万円単位です。

f:id:cross_hyou:20181215161612j:plain

 

西暦の最小値は1949で最大値は2016なので1949年から2016年までのデータであることがわかります。NAを含む変数がいくつかあります、その他事業所得、利子所得、損益通算差額、分離長期譲渡所得、分離短期譲渡所得、株式譲渡所得などです。

変数がたくさんあるので、どれから分析したらいいでしょうか。。まずは「総計」からみてみましょうか。総計のヒストグラムをhist関数で描いてみます。

f:id:cross_hyou:20181215162231j:plain

f:id:cross_hyou:20181215162244j:plain

山が二つある感じですね。density関数とplot関数でカーネル密度グラフを描きます。

f:id:cross_hyou:20181215162602j:plain

f:id:cross_hyou:20181215162634j:plain

山が二つありますね。

小さい順に並び替えてグラフにしてみましょう。

f:id:cross_hyou:20181215162844j:plain

f:id:cross_hyou:20181215162856j:plain

右の2つのプロットが外れ値っぽいですね。

boxplot関数で箱ひげ図を描いてみましょう。

f:id:cross_hyou:20181215163059j:plain

f:id:cross_hyou:20181215163112j:plain

外れ値を表す丸がないので、2つの値は外れ値といえるほど外れてはいないようです。

このデータは時系列ですから、plot関数で時系列グラフを描いてみましょう。

f:id:cross_hyou:20181215163503j:plain

f:id:cross_hyou:20181215163516j:plain

1989年、90年のバブル期が一番金額が大きいですね。

2010年以降、回復しているようですが、バブル期に比べるとまだまだですね。

総計だけでsummary関数を実行してみましょう。

f:id:cross_hyou:20181215164006j:plain

 

最大値が、59兆1143億9800万円です。大きい順に並び替えて、何年に記録したのか確認しておきましょう。order関数を使います。

f:id:cross_hyou:20181215164420j:plain

 

1991年が最高の申告所得の年ですね。

申告所得の総計の動きはだいたいわかりました。各種類別の所得の動きをみてみましょう。

平均値を計算して、大きい順に表示してみましょう。apply関数とmean関数を使って平均値を出します。

f:id:cross_hyou:20181215164847j:plain

総計の次に大きいのは給与所得ですね。平均で9兆7299億4013万円です。

総計と給与所得の散布図をplot関数で表示してみましょう。

f:id:cross_hyou:20181215165715j:plain

f:id:cross_hyou:20181215165725j:plain

正の相関関係がありますね。

今回は以上です。

 次回は

 

www.crosshyou.info

 

です。