crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

建設総合統計の分析1 - 基本統計量(summary関数, apply関数, sd関数, mean関数, median関数)

今回は、建設総合統計の分析です。

いつものようにe-Stat(政府統計の総合窓口)を訪問したら、新着データがありました。

f:id:cross_hyou:20180818131042j:plain

f:id:cross_hyou:20180818131053j:plain

建設総合統計は、国内の建設活動を出来高ベースで把握することを目的とした加工統計です。建築着工統計調査及び建設工事受注動態調査から得られる工事費額が、着工ベースの金額として捉え、これらを工事の進捗に合わせて月次の出来高に展開し、月毎の建設工事出来高として推計しています。とのことです。

こちらの統計にはいくつかExcelファイルがありましたが、今回使用するのは、

公共表(地域別・発注者別)というこのファイルです。

f:id:cross_hyou:20180818131521j:plain

これをR言語に取込みやすいように加工したcsvファイルがこちらです。

f:id:cross_hyou:20180818133626j:plain

このファイルをread.csv関数で読込み、summary関数でデータの要約をしましょう。

f:id:cross_hyou:20180818134310j:plain

数値の単位は百万円です。X30年度計で見ると、最小は14億2400万円、最大は3467億8000万円、平均は505億9000万円、中央値は710億3800万円、第1分位は204億0400万円、第3分位は1023憶5500万円です。

標準偏差も計算しましょう。apply関数とsd関数を使います。

f:id:cross_hyou:20180818135903j:plain

平均値(mean関数)と中央値(median関数)も同じように計算します。

f:id:cross_hyou:20180818140424j:plain

どの列でも平均値のほうが中央値よりも大きいですね。

データの分布形状を簡単に確認しておきましょう。

hist関数でヒストグラムを作ります。par(mfrow=c(2,2))というコマンドで、2 x 2 にヒストグラムを一つのウィンドウ内に配置します。

f:id:cross_hyou:20180818141215j:plain

f:id:cross_hyou:20180818141301j:plain

一番金額の小さい範囲の件数が多くて、金額が上がるにつれて件数が減っていく、という形状ですね。