www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2018-01-01から1年間の記事一覧

上場企業の女性役員データの分析6 - 「前(株)と後(株)」「製造業、非製造業、金融業」「役員数の多中少」でクロス集計して、R言語で分析する

www.crosshyou.info の続きです。 今回は「前(株)と後(株)」、「製造業、非製造業、金融業」、「役員数の多中少」の3種類のカテゴリカル変数同士のクロス集計をして、これらの変数間には関連性があるのかないのかをR言語で分析してみたいと思います。 まず、…

上場企業の女性役員データの分析5 - 役員の人数と女性役員の有無は関連しているか?R言語で分析

www.crosshyou.info の続きです。 今回は役員の人数と女性役員比率の関係をR言語で分析してみようと思います。役員の人数が多い会社ほど、女性役員を登用していると予想しているのですが、果たしてどうでしょうか? まずは、男性役員数と女性役員数を合計し…

上場企業の女性役員データの分析4 - 製造業、非製造業、金融業で女性役員比率に違いがあるか?R言語で確認

www.crosshyou.info の続きです。今回は製造業、非製造業、金融業で女性役員比率に違いがあるかどうかをR言語で確認してみます。 まずは、table関数でどんな業種があるか確認しましょう。 これは東証の33業種ですね。これを製造業、非製造業、金融業の3つの…

読書記録 - 「現代経済学 - ゲーム理論・行動経済学・制度論」瀧澤和弘 著

現代経済学-ゲーム理論・行動経済学・制度論 (中公新書) 作者: 瀧澤弘和 出版社/メーカー: 中央公論新社 発売日: 2018/08/17 メディア: 新書 この商品を含むブログ (2件) を見る ゲーム理論、行動経済学、実験経済学、制度の経済学など新しい経済学を概説し…

上場企業の女性役員データの分析3 - 「前(株)」の会社と「後(株)」の会社で女性役員比率に有意な違いがあるか?R言語で検証

www.crosshyou.info の続きです。 今回はいわゆる「前(株)」の会社と「後(株)」の会社で女性役員比率に違いがあるかどうかを検証したいと思います。 まずは、前(株)というのは、「株式会社ABCD」というように、株式会社が社名の前にある会社で、、後(株)とい…

上場企業の女性役員データの分析2 - 平成28年と平成30年で女性役員比率には有意な違いがあるのか? R言語で検定

www.crosshyou.info の続きです。 今回は、平成28年の女性役員比率と平成30年の女性役員比率は有意な違いなのかどうかを調べてみようと思います。 前回の分析で、平成28年の男性役員数は合計で39422人、女性役員数は合計で1363人、平成30年の男性役員数は合…

上場企業の女性役員データの分析1 - R言語で基本統計量を算出

今回は、上場企業の女性役員のデータを分析してみたいと思います。 http://www.gender.go.jp/policy/mieruka/company/yakuin.html 女性役員情報サイトにあった、平成27年4月期~平成28年3月期決算と平成29年4月期~平成30年3月期決算のCSVファイルのデータを使…

Kaggle の Titanic の Competition に参加してみました。正解率は 71.77% でした。

今回は、Kaggle の Titanic の Competition に参加してみたので、その報告です。 https://www.kaggle.com/c/titanic とうもので、簡単に言うと、タイタニック号の乗客のデータを使って誰が生存して、誰が死亡したかを判別するというものですね。 マシンラー…

国税庁の申告所得データの分析4 - R言語のlm関数で線形重回帰分析を実行する

www.crosshyou.info の続きです。 今回は、前回のブログで算出した「総計」に対する比率を使って「総計」の値を線形重回帰分析してみましょう。 lm関数を使うと簡単に実行できます。 総計 = α + β1 * 西暦 + β2 * R給与所得 + β3 * R事業所得合計 + β4 * R営…

国税庁の申告所得データの分析3 - R言語で各所得の「総計」に対する比率を計算する

www.crosshyou.info の続きです。 今回は、各所得の「総計」に対する比率を計算してみようと思います。 何から計算しましょうか。。各所得の中央値の大きい順にやりましょう。apply関数とmean関数sort関数を使います。 給与所得からいきましょう。 作成した…

国税庁の申告所得データの分析2 - ヒストグラム、カーネル密度グラフ、小さい順グラフ、箱ひげ図、時系列グラフ、散布図

www.crosshyou.info の続きです。 前回は給与所得と総計に正の相関関係があることがわかりました。 今回はまず、相関マトリックスをR言語のcor関数で算出してみましょう。 cor関数をデータフレームで使うと、NAのある変数は相関係数を計算できないので、あら…

国税庁の申告所得データの分析1 - 基本統計量

国税庁のホームページに長期時系列のデータがありました。 この「申告所得税」のファイルをダウンロードしてみました。 ファイルの4シート目の「所得種類別金額」のデータをR言語で分析してみようと思います。 read.csv関数でR言語に読込みやすいように、下…

木質バイオマスエネルギー利用動向調査の分析3 - R言語で茨城、神奈川、千葉、佐賀とその他の都道府県の違いを確認する

www.crosshyou.info の続きです。 今回は事業所当りの木質バイオマス使用量を計算することからはじめましょう。 全国の事業所の合計が1343事業所、全国の使用量合計が888万0772トンなので、1事業所当り6612トンの木質バイオマスを使用している計算になります…

木質バイオマスエネルギー利用動向調査の分析2 - R言語で列の合計を算出する

www.crosshyou.info の続きです。 今回は事業所のタイプや使用材料のタイプごとの比率を算出してみましょう。 まずは、種類ごとの合計値をcolSums関数で算出してみます。 総使用量が888万0772トンです。木材チップが773万4236トンで大半ですね。 割合を計算…

木質バイオマスエネルギー利用動向調査の分析1 - R言語で基本統計量など。

今回からは、木質バイオマスエネルギー利用動向調査のデータをつかってR言語でのデータ分析の練習をしていきたいと思います。 政府統計の総合窓口(e-Stat)からデータを取得しました。 「本調査は、毎年、木質バイオマスのエネルギー利用動向を把握するため、…

読書記録 - 「抗生物質と人間 マイクロバイオームの危機」 山本太郎著 岩波新書

抗生物質と人間――マイクロバイオームの危機 (岩波新書) 作者: 山本太郎 出版社/メーカー: 岩波書店 発売日: 2017/09/21 メディア: 新書 この商品を含むブログ (3件) を見る 抗生物質を使うと、人間の体内にある有益な微生物も死滅してしまうので、抗生物質の…

経済センサスの事業所に関する集計データの分析4 - R言語で1事業所当りの従業員数を調べる

www.crosshyou.info に引き続き、経済サンセスのデータをR言語で分析します。 前回までは男女比率に注目していましたが、今回は1事業所当りの従業員数を調べてみましょう。 まずは1事業所当りの従業員数の算出に必要なデータを確認しましょう。 subset関数で…

経済センサスの事業所に関する集計データの分析3 - R言語で各地域の男女比率をカイ二乗検定する

www.crosshyou.info の続きです。 前回の分析では、全地域を合計した男性従業者数と女性従業者数の比率が2012年と2016年では変化していて、カイ二乗検定の結果、その変化は統計的に有意なものであること、各地域別では松山都市圏のみ男女比率が増加(男性比率…

経済センサスの事業所に関する集計データの分析2 - R言語で男女比率が変化したかを検定する

www.crosshyou.info の続きです。 今回は2012年と2016年で男女比率が変化したかどうかをR言語で調べてみたいと思います。 まず、2012年の男女比率を見てみましょう。 まず、計算に必要なデータを抽出します。 計算してみましょう。 男女比率の高い順に並び替…

経済センサスの事業所に関する集計データの分析1 - R言語で基本統計量を取得する

今回は経済センサスのデータをR言語を使って分析したいと思います。 e-Stat(政府統計の総合窓口)から 2016年のこのデータと 2012年のこのデータをダウンロードして、 もとのデータベースには2000以上の地域がありましたが、札幌大都市圏などの大都市圏、都市…

読書記録 - 「正義とは何か 現代政治哲学の6つの視点」 神島裕子著 中公新書

正義とは何か-現代政治哲学の6つの視点 (中公新書) 作者: 神島裕子 出版社/メーカー: 中央公論新社 発売日: 2018/09/19 メディア: 新書 この商品を含むブログ (3件) を見る 現代正義論においては、「正しい社会のあり方」に関して、複数の構想が競合している…

World Bank DataBankのG7とBRICのGDPなどの分析6 - G7とBRICでGDP成長率に違いがあるかどうか?

www.crosshyou.info の続きです。 今回はR言語でG7のGDP成長率の平均や中央値とBRICのGDP成長率の平均や中央値に統計学的に有意な差があるかどうかを検定してみたいと思います。 まずは、G7のGDP成長率のヒストグラムを描いてみます。hist関数を使います。 …

World Bank DataBankのG7とBRICのGDPなどの分析5 - R言語で失業率とGDP成長率の相関関係を見る

www.crosshyou.info の続きです。 今回は、World Bank DataBankのG7とBRICの失業率データとGDPデータの相関をみてみたいと思います。 まずは、全体のGDPデータと失業率データの基本統計量をsummary関数で表示します。 これがGDP成長率(GDPG)の基本統計量です…

World Bank DataBankのG7とBRICのGDPなどの分析4 - R言語でGDP成長率データの時系列を描く

www.crosshyou.info の続きです。 今回はR言語でGDP成長率データの時系列を描いてみます。 まずは、各国全部の平均値を計算してみたいと思います。 各国全部の平均値ってどう計算したらいいですかね。。。 とりあえず、各国だけのデータ・フレームを作ってみ…

World Bank DataBankのG7とBRICのGDPなどの分析3 - R言語で各データのヒストグラムを描く

www.crosshyou.info の続きです。今回は各変数のヒストグラムを描いてみようと思います。 R言語でヒストグラムを描くには、hist関数が一番簡単です。 GDP成長率(GDPG)のヒストグラムはこちらです。 山型の分布ですね。 インフレ率(IFR)はこちらです。 大きな…

World Bank DataBankのG7とBRICのGDPなどの分析2 - R言語で国別、地域別、年代別の基本統計量を算出する

www.crosshyou.info の続きです。今回はR言語で国別、地域別、年代別の平均値などを計算してみましょう。R言語のby関数を実行すると簡単です。 このようにby(データフレーム, 分類する列, 実行したい関数)という構文で処理します。 普通にsummary関数を使う…

読書記録 - 「無限のなかの数学」 志賀浩二著 岩波新書

無限のなかの数学 (岩波新書) 作者: 志賀浩二 出版社/メーカー: 岩波書店 発売日: 1995/08/21 メディア: 新書 購入: 2人 クリック: 4回 この商品を含むブログ (10件) を見る 無限といっても大小があることを知った。 例えば、自然数の無限集合と偶数の無限集…

World Bank DataBankのG7とBRICのGDPなどの分析1 - R言語で基本統計量を算出する

今回はWorld BankのDataBankからデータをダウンロードしてG7とBRICのGDP等のデータを分析してみましょう。 databank.worldbank.orgこれでから、いろいろやってみて以下のようなエクセルファイルをダウンロードしました。 これを加工してR言語に読込みやすい…

就業構造基本調査の分析6 - R言語のlm関数で線形回帰分析を実行する

www.crosshyou.info に引き続き、就業構造基本調査のデータ分析をしていきます。 前回までで「仕事者率」「家事者率」「通学者率」という変数を計算し、男性のほうが女性よりも「仕事者率」が高いことがわかりました。 今回は、「仕事者率」を被説明変数にし…

就業構造基本調査の分析5 - R言語で男女の仕事者率の平均値・分布の位置に差があるかを検定する

www.crosshyou.info の続きです。 前回の分析で、仕事者比率が男性のほうが女性よりも高いことがわかりました。 これを統計学的に検定してみましょう。 下記のように、男性の平均仕事者率は0.581で女性は0.418です。 男性、女性の仕事者率の分布をヒストグラ…