crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

データ分析

水害統計調査の分析4 - R言語のlm関数を使って線形回帰の練習

www.crosshyou.info の続きです。 今回は、R言語のlm関数を使って線形回帰の練習をしてみようと思います。 まずはじめは、全国集計したデータだけでやってみましょう。 まず、全国だけのデータを再確認します。 被害額 = a + b x 合計 + 誤差項 という単回帰…

Kaggle の Titanic の Competition に参加その2 - R言語のrpart関数の決定木で参加。正解率は 78.468% でした。

www.crosshyou.info 今回は再び Kaggle の Titanic の Competition です。R言語のrpart関数で決定木モデルを作成して予測してみようと思います。 まず、read.csv関数でトレーニング用のデータを読み込みます。 head関数でデータの始めの6行を表示してみまし…

経済サンセスの事業所に関する集計データの分析5 - R言語のlm関数で線形単回帰分析の練習

www.crosshyou.info の続きです。 今回はR言語のlm関数を使って、線形単回帰分析の練習をしてみたいと思います。 今まで分析していなかった面積事業所数と面積従業員数の線形単回帰分析をしてみたいと思います。面積事業所というのは、1平方キロメートル当り…

水害統計調査の分析3 - 各都道府県の水害の死者、行方不明者、負傷者、被害額

www.crosshyou.info の続きです。 今回は各都道府県だけのR言語データフレームを作成して基本統計量や最も被害があったのは何年のどこの県かなどを調べてみたいと思います。 subset関数で作成するのは同じです。 まずは上のようにkakuという名前のデータフレ…

水害統計調査の分析2 - 各地方の水害の死者、行方不明者、負傷者、被害額

www.crosshyou.info の続きです。 今回は各地方だけのデータフレームを作成して、基本統計量を作成したいと思います。 subset関数で作成します。 summary関数で基本統計量を表示しました。最大で81名の死者が出た地方があります。合計の最小値が0ですから、…

水害統計調査の分析1 - 全国の水害の死者、行方不明者、負傷者、被害額

昨年は水害が多かったですね。 そこで今回は、国土交通省の「水害統計調査」のデータを使って全国の水害の死者、行方不明者、負傷者、被害額を見てみようと思います。 水害統計調査は、1年間に発生した洪水、内水、高潮、津波、土石流等の水害被害を対象に、…

厚生年金保険データの分析7 - R言語でクロス表分析をする

www.crosshyou.info の続きです。 今回は東日本と西日本、人口の多い県と少ない県などと、男性優位の県と女性優位の県という二分するファクターを作り、クロス表分析をしようと思います。 まずは、東日本と西日本のファクターを作成しましょう。 まず、都道…

厚生年金保険データの分析6 - R言語で各変数を偏差値に換算してどの都道府県が男性優位か女性有意かを総合的に判断してみる。

www.crosshyou.info の続きです。今回はR言語で各変数を偏差値に変換して、どの都道府県が男性優位か女性有意かを総合的に判断したいと思います。 まず、偏差値の計算式ですが、(観測値 - 平均値) x 10 / 標準偏差 + 50 という式ですね。 早速計算してみまし…

厚生年金保険データの分析5 - R言語で各変数間の相関をみる。相関関係の有意性も検定してみる。

www.crosshyou.info の続きです。今回はR言語で各変数間の相関をみてみようと思います。 まず、cor関数で相関マトリックスを表示してみましょう。 MFRは男性の人数と女性の人数の比率 MFWRは男性の月額報酬と女性の月額報酬の比率 BORは賞与を支給した事業所…

厚生年金保険データの分析3 - R言語でデータの並び替えをする。女性が活躍している都道府県はどこか?

www.crosshyou.info の続きです。 前回計算した各種比率を並び替えて、女性が活躍している都道府県を調べてみます。 前回作成した分析用データフレームのsummary関数の結果を再掲します。 変数MFRは被保険者の男性と女性の比率ですね。値が低いほど女性が多…

厚生年金保険データの分析2 - R言語で各種比率を計算する

www.crosshyou.info の続きです。 今回は、被保険者数の男女の比率、男女の賃金格差、賞与を支払った事業所の比率、賞与を受け取った男女の比率、男女の賞与の格差を計算していきたいと思います。 まず、str関数でデータの各変数を確認しましょう。 都道府県…

厚生年金保険データの分析1 - R言語で基本統計量を算出する

あけましておめでとうございます。 今年もよろしくお願いします。 いつものように、e-stat(政府統計の総合窓口)のサイトを訪問したら、 厚生年金保険・国民年金事業統計というファイルが新着でありました。クリックしてみると、 本統計は、厚生年金保険及び…

上場企業の女性役員データの分析6 - 「前(株)と後(株)」「製造業、非製造業、金融業」「役員数の多中少」でクロス集計して、R言語で分析する

www.crosshyou.info の続きです。 今回は「前(株)と後(株)」、「製造業、非製造業、金融業」、「役員数の多中少」の3種類のカテゴリカル変数同士のクロス集計をして、これらの変数間には関連性があるのかないのかをR言語で分析してみたいと思います。 まず、…

上場企業の女性役員データの分析5 - 役員の人数と女性役員の有無は関連しているか?R言語で分析

www.crosshyou.info の続きです。 今回は役員の人数と女性役員比率の関係をR言語で分析してみようと思います。役員の人数が多い会社ほど、女性役員を登用していると予想しているのですが、果たしてどうでしょうか? まずは、男性役員数と女性役員数を合計し…

上場企業の女性役員データの分析4 - 製造業、非製造業、金融業で女性役員比率に違いがあるか?R言語で確認

www.crosshyou.info の続きです。今回は製造業、非製造業、金融業で女性役員比率に違いがあるかどうかをR言語で確認してみます。 まずは、table関数でどんな業種があるか確認しましょう。 これは東証の33業種ですね。これを製造業、非製造業、金融業の3つの…

上場企業の女性役員データの分析3 - 「前(株)」の会社と「後(株)」の会社で女性役員比率に有意な違いがあるか?R言語で検証

www.crosshyou.info の続きです。 今回はいわゆる「前(株)」の会社と「後(株)」の会社で女性役員比率に違いがあるかどうかを検証したいと思います。 まずは、前(株)というのは、「株式会社ABCD」というように、株式会社が社名の前にある会社で、、後(株)とい…

上場企業の女性役員データの分析2 - 平成28年と平成30年で女性役員比率には有意な違いがあるのか? R言語で検定

www.crosshyou.info の続きです。 今回は、平成28年の女性役員比率と平成30年の女性役員比率は有意な違いなのかどうかを調べてみようと思います。 前回の分析で、平成28年の男性役員数は合計で39422人、女性役員数は合計で1363人、平成30年の男性役員数は合…

上場企業の女性役員データの分析1 - R言語で基本統計量を算出

今回は、上場企業の女性役員のデータを分析してみたいと思います。 http://www.gender.go.jp/policy/mieruka/company/yakuin.html 女性役員情報サイトにあった、平成27年4月期~平成28年3月期決算と平成29年4月期~平成30年3月期決算のCSVファイルのデータを使…

Kaggle の Titanic の Competition に参加してみました。正解率は 71.77% でした。

今回は、Kaggle の Titanic の Competition に参加してみたので、その報告です。 https://www.kaggle.com/c/titanic とうもので、簡単に言うと、タイタニック号の乗客のデータを使って誰が生存して、誰が死亡したかを判別するというものですね。 マシンラー…

国税庁の申告所得データの分析4 - R言語のlm関数で線形重回帰分析を実行する

www.crosshyou.info の続きです。 今回は、前回のブログで算出した「総計」に対する比率を使って「総計」の値を線形重回帰分析してみましょう。 lm関数を使うと簡単に実行できます。 総計 = α + β1 * 西暦 + β2 * R給与所得 + β3 * R事業所得合計 + β4 * R営…

国税庁の申告所得データの分析3 - R言語で各所得の「総計」に対する比率を計算する

www.crosshyou.info の続きです。 今回は、各所得の「総計」に対する比率を計算してみようと思います。 何から計算しましょうか。。各所得の中央値の大きい順にやりましょう。apply関数とmean関数sort関数を使います。 給与所得からいきましょう。 作成した…

国税庁の申告所得データの分析2 - ヒストグラム、カーネル密度グラフ、小さい順グラフ、箱ひげ図、時系列グラフ、散布図

www.crosshyou.info の続きです。 前回は給与所得と総計に正の相関関係があることがわかりました。 今回はまず、相関マトリックスをR言語のcor関数で算出してみましょう。 cor関数をデータフレームで使うと、NAのある変数は相関係数を計算できないので、あら…

国税庁の申告所得データの分析1 - 基本統計量

国税庁のホームページに長期時系列のデータがありました。 この「申告所得税」のファイルをダウンロードしてみました。 ファイルの4シート目の「所得種類別金額」のデータをR言語で分析してみようと思います。 read.csv関数でR言語に読込みやすいように、下…

木質バイオマスエネルギー利用動向調査の分析3 - R言語で茨城、神奈川、千葉、佐賀とその他の都道府県の違いを確認する

www.crosshyou.info の続きです。 今回は事業所当りの木質バイオマス使用量を計算することからはじめましょう。 全国の事業所の合計が1343事業所、全国の使用量合計が888万0772トンなので、1事業所当り6612トンの木質バイオマスを使用している計算になります…

木質バイオマスエネルギー利用動向調査の分析2 - R言語で列の合計を算出する

www.crosshyou.info の続きです。 今回は事業所のタイプや使用材料のタイプごとの比率を算出してみましょう。 まずは、種類ごとの合計値をcolSums関数で算出してみます。 総使用量が888万0772トンです。木材チップが773万4236トンで大半ですね。 割合を計算…

木質バイオマスエネルギー利用動向調査の分析1 - R言語で基本統計量など。

今回からは、木質バイオマスエネルギー利用動向調査のデータをつかってR言語でのデータ分析の練習をしていきたいと思います。 政府統計の総合窓口(e-Stat)からデータを取得しました。 「本調査は、毎年、木質バイオマスのエネルギー利用動向を把握するため、…

経済サンセスの事業所に関する集計データの分析4 - R言語で1事業所当りの従業員数を調べる

www.crosshyou.info に引き続き、経済サンセスのデータをR言語で分析します。 前回までは男女比率に注目していましたが、今回は1事業所当りの従業員数を調べてみましょう。 まずは1事業所当りの従業員数の算出に必要なデータを確認しましょう。 subset関数で…

経済サンセスの事業所に関する集計データの分析3 - R言語で各地域の男女比率をカイ二乗検定する

www.crosshyou.info の続きです。 前回の分析では、全地域を合計した男性従業者数と女性従業者数の比率が2012年と2016年では変化していて、カイ二乗検定の結果、その変化は統計的に有意なものであること、各地域別では松山都市圏のみ男女比率が増加(男性比率…

経済サンセスの事業所に関する集計データの分析2 - R言語で男女比率が変化したかを検定する

www.crosshyou.info の続きです。 今回は2012年と2016年で男女比率が変化したかどうかをR言語で調べてみたいと思います。 まず、2012年の男女比率を見てみましょう。 まず、計算に必要なデータを抽出します。 計算してみましょう。 男女比率の高い順に並び替…

経済サンセスの事業所に関する集計データの分析1 - R言語で基本統計量を取得する

今回は経済サンセスのデータをR言語を使って分析したいと思います。 e-Stat(政府統計の総合窓口)から 2016年のこのデータと 2012年のこのデータをダウンロードして、 もとのデータベースには2000以上の地域がありましたが、札幌大都市圏などの大都市圏、都市…