www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2018-09-01から1ヶ月間の記事一覧

生産者の米穀在庫等調査の分析1 - 都道府県別の基本統計量 北海道は別格だ。

政府統計の総合窓口(e-Stat)に新着データとして、「生産者の米穀在庫等調査」というデータがありました。 クリックしてみます。 本調査は、毎月、農家の米穀の在庫量等を調査し、農家1戸当りのうるち米及びもち米の供給量、消費量、販売量、在庫量等を全国、…

毎月勤労統計調査の分析V2_8 - 特掲産業と全データの比較(時給と残業時間比率)

今回は、毎月勤労統計調査の2018年7月のデータを使って、特掲産業だけに絞ったデータフレームを作成し、分析ごっこをしてみたいと思います。 「毎月勤労統計調査における記号の見方」には「特掲産業」に分類されている産業があります。 これらの産業だけに絞…

毎月勤労統計調査の分析V2_7 - 規模別、性別、形態別の時給を計算してみる。

今回は、規模別、性別、形態別の時給を計算してみましょう。 まずはCSVファイルに保存してあるデータをread.csv関数でR言語に読込みます。 もう、面倒なので、このまま総労働時間と給与総額を使って時給を計算してしまいましょう。 最低時給が816円です。。…

毎月勤労統計調査の分析V2_6 - 産業の大分類を性別や規模、勤務形態でもう少し細かく診てみる。

前回の分析では、産業の大分類ベースでは、時給とパート比率は逆相関の関係があることがわかりました。今回は産業の大分類ベースで企業規模別にしてみようと思います。 まずは、CSVファイルに分類してるデータをR言語に読込ませます。read.csv関数です。 デ…

毎月勤労統計調査の分析V2_5 - 時給換算で一番時給の良い業界は?

今回は前回作成した毎月勤労統計調査2018年7月データの大分類データで時給換算で一番時給の良い業界はどこなのか調べたいと思います。 まずは、前回の結果、産業分類大分類別の給与総額ランキングです。 学術研究、専門・技術サービスが一番給与総額が高かっ…

毎月勤労統計調査の分析V2_4 - 大分類の業種での人数や給与総額を見てみる。(R言語でデータ整理)

今回は毎月勤労統計の2018年7月のデータを使って、産業ごとの値を見たいと思います。前回の分析では集約された産業分類も個々の産業分類も一緒になっていたので、いまひとつ納得感のある分析ではありませんでした。 まずは、毎月勤労統計がどのように産業分…

毎月勤労統計調査の分析V2_3 - 人数の多い業種は?(order関数で並び替え)

引き続き、R言語で毎月勤労統計調査のデータを分析していきたいと思います。 データをread.csv関数で読込み、summary関数で最大値、最小値、平均値、中央値などを確認します。 とりあえず、七月末人数の多い順に並び替えてみましょうかね。order関数を使いま…

毎月勤労統計調査の分析V2_2 - もっと多くのデータで基本統計量を算出

前回のデータ量が少なかったので、今回はもっと大きなデータで毎月勤労統計調査のデータを分析したいと思います。 こんな感じです。 これがhead関数で始めの6行を表示したもの。 そして下図がsummary関数で要約統計量を表示したものです。 行番号もMaxが4640…

毎月勤労統計調査の分析V2_1 - 基本統計量(summary関数、apply関数とsd関数, mean関数)

今回は、毎月勤労統計調査の分析をしたいと思います。 以前にもこの統計は分析したことがあるので、2回目です。 e-Stat(政府統計の総合窓口)のサイトを訪問したら、毎月勤労統計が新着でありました。 クリックしてみました。 「毎月勤労統計調査全国調査は、…

貴金属流通統計調査の分析6 - 金の需要を線形回帰してみる。(lm関数)

今回は貴金属流通統計調査の金の需要データを使って、線形回帰の練習をしてみたいと思います。まずは、CSVファイルに保存しているデータをread.csv関数を使って読込みます。 このようなデータです。電機機械の需要が一番多いですね。グラフにしてみましょう…

貴金属流通統計調査の分析5 - 金の各需要の相関関係を見る。(plot関数、cor関数、cor.test関数)

今回は、金の各需要の相関関係を見たいと思います。 まずは、CSVファイルに保存してあるデータをread.csv関数でR言語に読込みます。 相関係数を出す関数はcor関数です。早速やってみましょう。 gold_matrix <- gold[ , c(-1,-2)] で計算に必要のない年と月の…

貴金属流通統計調査の分析4 - 金需要の平成29年と平成30年で違いがあるか?(t.test関数、wilcox.test関数、binom.test関数)

今回は、金の需要が平成29年と平成30年で増加、もしくは減少しているのかを調べたいと思います。 まずは、CSVファイルに保存してあるデータをread.csv関数でR言語に読込みます。 平成29年は1月から10月まで、平成30年は1月から7月までのデータがありました。…

貴金属流通統計調査の分析3 - 金の需要の割合を円グラフで表示する。(pie関数)

今回は、貴金属流通統計調査のデータを使って、金の需要の割合を円グラフにしたいと思います。 まず、CSVファイルに保存してあるデータをread.csv関数でR言語に読込みます。 このようなデータです。金の需要としては、電機・機械で使われたり、歯科医療で使…

貴金属流通統計調査の分析2 - 各需要の比率を計算する。

今回は、金の各需要の比率を計算しようと思います。 まずは、CSVファイルのデータをread.csv関数で読込みます。 どのようなデータか全体表示します。 元のデータファイルには、「その他」の項目もありましたが、このブログの分析では除外しています。なので…

貴金属流通統計調査の分析1 - 基本統計量(summary関数、mean関数、median関数、sd関数、min関数、max関数)

政府統計の総合窓口(e-Stat)のサイトを訪問したら、貴金属流通統計調査というデータが更新されていました。 どういうものでしょうか?クリックしてみました。 う~~ん、何も説明はないですね。さらにクリックします。 平成30年01~07月分の金、プラチナ、パ…

特定サービス産業動態統計調査の分析2 - for関数を使って20個のヒストグラムを一括作図する

今回は特定サービス産業動態調査の各業種のデータのヒストグラムをfor関数を使って一括作図してみます。 まず、CSV関数に保存してあるデータをread.csv関数で呼び出し、summary関数でデータの要約統計量をみてみます。 前回は標準偏差と変動係数(標準偏差 / …

特定サービス産業動態統計調査の分析1 - 基本統計量(summary関数、sd関数、mean関数、appy関数)

e-Stat(政府統計の総合窓口)に「特定サービス産業動態統計調査」というデータが新着でありました。 特定サービスとはどういうものでしょうか?クリックしてみます。 特定サービス産業動態統計調査は、19業種のサービス産業の売上高、契約高又は受注高等の経…

自動車輸送統計調査の分析7 - クロス表分析(table関数、chisq.test関数)

今回は自動車輸送統計調査の営業バスのデータを使って、クロス表分析をしましょう。 まずは、CSVファイルに保存してあるデータをread.csv関数でR言語で読込みます。head関数で始めの6行を表示しますね。 このようなデータです。どのデータが一番バラツキが大…

自動車輸送統計調査の分析6 - 営業バスの利用状況の伸び率と一人当りの輸送距離の相関関係を調べる。(cor関数)

今回は、自動車輸送統計の営業バスのデータを使って、平成22年度から平成29年度への利用の伸び率と一人当り輸送距離の相関関係を調べてみようと思います。 まずは、データをread.csv関数でR言語に読込み、head関数ではじめの6行を表示します。 このようなデ…

自動車輸送統計調査の分析5 - 営業バスの一人当りの移動距離を計算してみる。

今回は、自動車輸送統計調査の営業バスのデータを使って、一人当りの移動距離を計算してみようと思います。 まずは、CSVファイルに保存してあるデータをread.csv関数でR言語に読込みます。 head関数で、最初の6行のデータを表示し、summary関数でデータの要…

自動車輸送統計調査の分析4 - 営業バス利用の伸びが高い都道府県はどこか?(order関数)

前回の分析で、自動車輸送統計調査の営業バスの利用の伸び率を計算しました。平成22年度と平成29年度を比較した伸び率です。 こんな感じです。 今回は、伸び率の大きいところ、小さいところを調べようと思います。 order関数で並びかえます。 はじめは、乗合…

自動車輸送統計調査の分析3 - 伸び率を計算して、ヒストグラムで分布を見る。(hist関数)

今回は、自動車輸送統計調査の営業バスのデータを使って、伸び率を計算してみようと思います。前回の分析では利用人数が多いのは人口の多い都道府県でした。伸び率が高い、あるいは低いのはどんな都道府県でしょうか? まずは、データをread.csv関数で読み込…

自動車輸送統計調査の分析2 - 各データで並び替え(order関数)

今回は、前回作成した自動車輸送統計調査の営業用バスのデータを並び替えて上位、下位の都道府県を調べてみたいと思います。 まずは、データをread.csv関数でR言語に呼び込み、head関数で始めの6行を表示してみましょう。 乗合定期人数29年で並び替えます。o…

自動車輸送統計調査の分析1 - 営業用バスの基本統計量

政府統計の総合窓口(e-Stat)のホームページを見たら、「自動車輸送統計調査」というデータが新着でありました。 自動車輸送統計調査は、国内で輸送活動を行う自動車を対象とする統計調査で、国の最も重要な統計調査として毎月実施しています。自動車輸送統計…

社会保障費用統計の分析5 - 減少と増加のシーケンスの連検定をする。(runs.test関数)

今回は、社会保障費用統計のデータを使って、連検定をしてみましょう。連検定とは、データがYesとNo、増加と減少、0と1のように二値からなるデータあって、その並び方がランダムなのか規則性があるのかどうかを調べるものです。 まずは、CSVファイルのデータ…

社会保障費用統計の分析4 - 全体に対する比率の増減でクロス表を作成し、Fisherの正確確率検定をする。(table関数、fisher.test関数)

今回は社会保障費用統計データを使って、全体に対する比率を算出し、その増減をカテゴリカル変数にしてクロス表分析をしたいと思います。 まずは、CSVファイルに保存してあるデータをread.csv関数で呼び出し、summary関数をつかってどんなデータか見てみます…

社会保障費用統計の分析3 - 高齢のための社会保障費用を他のデータで回帰分析をする。(lm関数)

社会保障統計費用の分析の3回目は、回帰分析に挑戦してみたいと思います。 まずは、データをread.csv関数で読込みます。summary関数でデータの要約統計量を表示しました。 総額を除いたそれぞれのデータの相関マトリックスを見てみます。cor関数です。 高齢…

社会保障費用統計の分析2 - 全体に対する比率を求める

今回は、社会保障費用統計のデータで、どの種類の費用が多いのか、増えているのか、などを調べてみたいと思います。 まずは、read.csv関数でCSVファイルに保存してあるデータを読込みます。 総額の値で割って100倍してパーセント表示にします。 各コマンドを…

社会保障費用統計の分析1 - 基本統計量(summary関数, apply関数とsd関数,)

いつものように、e-Stat(政府統計の総合窓口)を訪問したら、社会保障費用統計というデータが新着でありました。 どんなデータでしょうか? クリックしてみました。 社会保障費用統計は、国立社会保障・人口問題研究所が、年金、医療保険、介護保険、雇用保険…

青果物卸売市場調査の分析6 - 一番多くの種類の野菜を出荷した産地はどこか?

今回は、青果物卸売市場調査のデータを使って、一番多くの種類の野菜を出荷した産地はどこなのか調べようと思います。 まずは、CSVファイルに保存してあるデータを、R言語に読込みます。read.csv関数を使います。そして、summary関数で要約統計量を表示しま…