www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

鉱工業出荷内訳表の分析１ - 基本統計値の算出(summary関数、apply関数とsd関数\max関数\min関数\mean関数\median関数)

データ分析

今回は、鉱工業出荷内訳表のデータを分析してみましょう。e-Stat(政府統計の総合窓口)のサイトを訪問したら、今日の新着データで、「鉱工業出荷内訳表」というデータがありました。

f:id:cross_hyou:20180807213533j:plain

鉱工業生産は聞いたことがありましたが、鉱工業出荷内訳表というのは、お恥ずかしながら初耳でした。どんなデータなんでしょうか？クリックしてみました。

f:id:cross_hyou:20180807213936j:plain

鉱工業出荷内訳表は、国内の鉱工業製品の出荷が国内と海外輸出のどちらに向けられたのかを表すもので、鉱工業出荷指数と財務省の貿易統計（輸出）を元に、業種別、財別の国内向け出荷指数、輸出向け出荷指数を作成しています。とのことです。工業製品が国内向けか、国外向けかということを表すデータのようです。クリックしてみます。

f:id:cross_hyou:20180807214618j:plain

この平成22年(2010年)基準というのをクリックしてみます。

f:id:cross_hyou:20180807214814j:plain

ファイルが２つあるようです。月次のExcelファイルをダウンロードしてみました。

f:id:cross_hyou:20180807214955j:plain

各業種別に出荷、輸出、国内の３つの区分があって、2008年01月からの月次のデータです。このファイルを分析しやすいように、下のように加工しました。

f:id:cross_hyou:20180807221157j:plain

年と月を別々にして、データ番号として通し番号を加えました。

read.csv関数でR言語に読込み、summary関数でデータを要約してみます。

f:id:cross_hyou:20180807224635j:plain

f:id:cross_hyou:20180807224656j:plain

データ番号の最大値が、125ですから、データの行数は125だとわかります。1年が12か月で12行ですから、約10年半分のデータです。

データ項目の数は何個でしょうか？dim関数で表示します。

f:id:cross_hyou:20180807225328j:plain

125が行数で、51が列数です。データ番号、年、月の3つを引いて、48列がデータの数です。1つの業種に出荷、輸出、国内の3つのデータがありますから、業種の数は、48/3=16です。

標準偏差も計算しましょう。apply関数とsd関数を使います。

f:id:cross_hyou:20180807225942j:plain

apply関数は、apply(データフレーム, 2, 計算する関数) で列ごとのデータ計算ができます。2を1にすると、行ごとのデータ計算になります。

48もデータがあると、データを一目で把握するのは難しいですね。

とりあえず、各データの最大値をだして、大きい順で並べてみましょう。

f:id:cross_hyou:20180807230615j:plain

情報通信.輸出が153.8で一番ですね。

データの最小値をだして、小さい順に並べてみます。

f:id:cross_hyou:20180807230946j:plain

情報通信の国内が39.7で最小です。

標準偏差をだして大きい順に並べてみます。

f:id:cross_hyou:20180807231408j:plain

情報通信の輸出が一番標準偏差が大きいです。

平均値を出してみましょう。

f:id:cross_hyou:20180807231945j:plain

標準偏差の大きな情報通信の平均値が低いです。情報通信のデータの変動がすごく大きいということですね。

最後にデータの中央値を計算しましょう。

f:id:cross_hyou:20180807232404j:plain

はん用.国内が平均値と同じく、一番大きいですね。