Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2019-01-01から1ヶ月間の記事一覧

消費動向調査データの分析1 - R言語で基本統計量を算出する。

毎月勤労統計のデータ調査方法が間違っていたということで、政府発表の統計の信頼性が少し揺らいでいますが、いつものように政府統計の総合窓口(e-Stat)のサイトを見てみました。 「消費動向調査」というのが新着でありました。 早速クリックしてみます。 「…

JFAコンビニエンスストア統計調査月報データの分析6 - R言語で1日当りの来客数と売上を算出する。1月は暇で7月は忙しい!?

www.crosshyou.info の続きです。 今回は1日当りの来客数と売上高を計算してみたいと思います。 いままでの分析で2月は売上高、来客数ともに少なかったですが、2月は28日までしかないですからね。当たり前といえば当り前です。なので1日当りの売上高と来客数…

JFAコンビニエンスストア統計調査月報データの分析5 - R言語で2つの変数の平均を比較する

www.crosshyou.info の続きです。 今回は2つの変数の平均を比較して有意な違いがあるかどうかをR言語で検定しましょう。 まずは、全店客単価と既存店客単価を比較しましょう。summary関数で基本統計量をみてみましょう。 こうして両者を比較すると、最小値か…

JFAコンビニエンスストア統計調査月報データの分析4 - R言語で相関関係を分析

www.crosshyou.info の続きです。 今回は各変数の相関関係をR言語でみてみましょう。 まず、plot関数で散布図マトリックスをみてみましょう。 変数がいっぱいありすぎて、どれがどれだかわからないですね。。。 前年同月比のほうも作成してみます。 こちらは…

JFAコンビニエンスストア統計調査月報データの分析3 - R言語で前年同月比のデータを作成する。

www.crosshyou.info の続きです。 今回は前年同月比のデータを作成しようと思います。 前年同月比は式で表すと(今年のX月値 / 昨年のX月の値) - 1 ですね。分析で使っているデータは24か月分のデータがあって、1行目から12行目が2017年のデータ、13行目から2…

JFAコンビニエンスストア統計調査月報データの分析2 - R言語で各変数の推移を見る。12月は客単価が高くなる。

www.crosshyou.info の続きです。 今回は各変数の推移をplot関数で見てみます。 全体としては右肩上がりですが、下がっている月もありますね。 次は既存店売上高です。 一番左のプロットが2017年01月です。なので2017年02月と2018年02月の売上高が突出して少…

JFAコンビニエンスストア統計調査月報データの分析1 - R言語で基本統計量を取得

今回は、JFAコンビニエンスストア統計調査のデータを分析したいと思います。 www.jfa-fc.or.jpのウェブページに過去24か月のデータがPDFファイルであります。 このようなPDFファイルです。 この24個のPDFファイルをダウンロードし、CSVファイルにこのように…

水害統計調査の分析4 - R言語のlm関数を使って線形回帰の練習

www.crosshyou.info の続きです。 今回は、R言語のlm関数を使って線形回帰の練習をしてみようと思います。 まずはじめは、全国集計したデータだけでやってみましょう。 まず、全国だけのデータを再確認します。 被害額 = a + b x 合計 + 誤差項 という単回帰…

読書記録 - 「人物で語る化学入門」 竹内敬人著 岩波新書

人物で語る化学入門 (岩波新書) 作者: 竹内敬人 出版社/メーカー: 岩波書店 発売日: 2010/03/20 メディア: 新書 購入: 3人 クリック: 9回 この商品を含むブログ (11件) を見る 多くの化学者が紹介されています。 その中の多くが戦争や革命、自殺で命を落とし…

Kaggle の Titanic の Competition に参加その2 - R言語のrpart関数の決定木で参加。正解率は 78.468% でした。

www.crosshyou.info 今回は再び Kaggle の Titanic の Competition です。R言語のrpart関数で決定木モデルを作成して予測してみようと思います。 まず、read.csv関数でトレーニング用のデータを読み込みます。 head関数でデータの始めの6行を表示してみまし…

経済センサスの事業所に関する集計データの分析5 - R言語のlm関数で線形単回帰分析の練習

www.crosshyou.info の続きです。 今回はR言語のlm関数を使って、線形単回帰分析の練習をしてみたいと思います。 今まで分析していなかった面積事業所数と面積従業員数の線形単回帰分析をしてみたいと思います。面積事業所というのは、1平方キロメートル当り…

水害統計調査の分析3 - 各都道府県の水害の死者、行方不明者、負傷者、被害額

www.crosshyou.info の続きです。 今回は各都道府県だけのR言語データフレームを作成して基本統計量や最も被害があったのは何年のどこの県かなどを調べてみたいと思います。 subset関数で作成するのは同じです。 まずは上のようにkakuという名前のデータフレ…

水害統計調査の分析2 - 各地方の水害の死者、行方不明者、負傷者、被害額

www.crosshyou.info の続きです。 今回は各地方だけのデータフレームを作成して、基本統計量を作成したいと思います。 subset関数で作成します。 summary関数で基本統計量を表示しました。最大で81名の死者が出た地方があります。合計の最小値が0ですから、…

水害統計調査の分析1 - 全国の水害の死者、行方不明者、負傷者、被害額

昨年は水害が多かったですね。 そこで今回は、国土交通省の「水害統計調査」のデータを使って全国の水害の死者、行方不明者、負傷者、被害額を見てみようと思います。 水害統計調査は、1年間に発生した洪水、内水、高潮、津波、土石流等の水害被害を対象に、…

厚生年金保険データの分析7 - R言語でクロス表分析をする

www.crosshyou.info の続きです。 今回は東日本と西日本、人口の多い県と少ない県などと、男性優位の県と女性優位の県という二分するファクターを作り、クロス表分析をしようと思います。 まずは、東日本と西日本のファクターを作成しましょう。 まず、都道…

厚生年金保険データの分析6 - R言語で各変数を偏差値に換算してどの都道府県が男性優位か女性有意かを総合的に判断してみる。

www.crosshyou.info の続きです。今回はR言語で各変数を偏差値に変換して、どの都道府県が男性優位か女性有意かを総合的に判断したいと思います。 まず、偏差値の計算式ですが、(観測値 - 平均値) x 10 / 標準偏差 + 50 という式ですね。 早速計算してみまし…

厚生年金保険データの分析5 - R言語で各変数間の相関をみる。相関関係の有意性も検定してみる。

www.crosshyou.info の続きです。今回はR言語で各変数間の相関をみてみようと思います。 まず、cor関数で相関マトリックスを表示してみましょう。 MFRは男性の人数と女性の人数の比率 MFWRは男性の月額報酬と女性の月額報酬の比率 BORは賞与を支給した事業所…

厚生年金保険データの分析4 - R言語で各種変数をグラフにして視覚化する。自作関数で簡単に。

www.crosshyou.info の続きです。 前回は各種変数の大きい都道府県、小さい都道府県を調べました。 今回は各種変数をヒストグラム、カーネル密度グラフ、小さい順グラフ、箱ひげ図にて視覚化しましょう。その際に毎回hist関数、plot関数、boxplot関数を呼び…

厚生年金保険データの分析3 - R言語でデータの並び替えをする。女性が活躍している都道府県はどこか?

www.crosshyou.info の続きです。 前回計算した各種比率を並び替えて、女性が活躍している都道府県を調べてみます。 前回作成した分析用データフレームのsummary関数の結果を再掲します。 変数MFRは被保険者の男性と女性の比率ですね。値が低いほど女性が多…

厚生年金保険データの分析2 - R言語で各種比率を計算する

www.crosshyou.info の続きです。 今回は、被保険者数の男女の比率、男女の賃金格差、賞与を支払った事業所の比率、賞与を受け取った男女の比率、男女の賞与の格差を計算していきたいと思います。 まず、str関数でデータの各変数を確認しましょう。 都道府県…

厚生年金保険データの分析1 - R言語で基本統計量を算出する

あけましておめでとうございます。 今年もよろしくお願いします。 いつものように、e-stat(政府統計の総合窓口)のサイトを訪問したら、 厚生年金保険・国民年金事業統計というファイルが新着でありました。クリックしてみると、 本統計は、厚生年金保険及び…