crosshyou

主にクロス表(分割表)分析をしようかなと思います。

特定サービス産業動態統計調査の分析1 - 基本統計量(summary関数、sd関数、mean関数、appy関数)

e-Stat(政府統計の総合窓口)に「特定サービス産業動態統計調査」というデータが新着でありました。

f:id:cross_hyou:20180911163721j:plain

特定サービスとはどういうものでしょうか?クリックしてみます。

f:id:cross_hyou:20180911163836j:plain

 特定サービス産業動態統計調査は、19業種のサービス産業の売上高、契約高又は受注高等の経営動向を把握し、景気動向の判断材料に資するとともに、景気対策、産業振興政策、中小企業政策の推進及びサービス産業の健全な育成のための基礎資料を得ることを目的として、毎月調査を実施しています。

 特定サービス産業統計調査では、業種別の売上高のほか、遊園地・テーマパークであれば入場者数、学習塾であれば受講生数や講師数など、業種の特性に応じた集計結果を提供しています。

 とのことです。ファイルを見てみましょう。

f:id:cross_hyou:20180911165624j:plain

このようなファイルです。このようなファイルが19業種、物品賃貸業はリースとレンタルに分かれているので20のファイルがあります。

その20のファイルを売上高(または契約高等)でCSVファイルに以下のようにまとめました。

f:id:cross_hyou:20180911172101j:plain

このCSVファイルをR言語で読み込み、summary関数で要約統計量を表示します。

f:id:cross_hyou:20180911172424j:plain

データはそれぞれの業種の売上高、または受注高で単位は百万円です。

平均値の大きい順に並べてみましょう。

f:id:cross_hyou:20180911172939j:plain

一番売上高が大きい業種はクレジットカードで、月平均が4兆6719億4100万円です。

一番売上高が小さい業種は、ボウリング場で、月平均が14億7200万円です。

棒グラフにしてみます。

f:id:cross_hyou:20180911173450j:plain

f:id:cross_hyou:20180911173501j:plain

クレジットカードが断トツですね。

さて、summary関数では標準偏差が表示されません。apply関数とsd関数で計算しましょう。

f:id:cross_hyou:20180911173859j:plain

情報サービスが一番標準偏差は大きいですね。でも、もともとの値が大きいから、本当にバラツキ度合が大きいか小さいかは、標準偏差を平均値で割った変動係数ではかります。

f:id:cross_hyou:20180911174312j:plain

エンジニアリングが一番変動が激しいですね。フィットネスクラブが一番安定しています。

これも棒グラフにしましょう。barplot関数です。

f:id:cross_hyou:20180911174559j:plain

f:id:cross_hyou:20180911174613j:plain

売上高の棒グラフに比べると差が小さいですね。