Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2021-04-01から1ヶ月間の記事一覧

都道府県別の消費者物価指数・教養娯楽のデータの分析2 - R言語のinner_join関数で2つのデータフレームを結合する

www.crosshyou.info の続きです。 このようなCSVファイルを用意しました。今後も日本語が文字化けしてしまう事態が想定されますので、都道府県コードと英語の都道府県名を用意しました。せっかくなので、ew(東日本か西日本か)とbig3(東京都、愛知県、大阪府)…

都道府県別の消費者物価指数・教養娯楽のデータの分析1 - R言語のread_csv関数でデータを読み込む。何故か文字化けする。

今回は都道府県別の消費者物価指数、その中の教養娯楽のデータを分析してみます。 政府統計の総合窓口(e-stat)のからデータをダウンロードしました。 www.e-stat.go.jp まず、都道府県を指定して、 総人口、県内総生産額、消費者物価指数の総合と教養娯楽の4…

都道府県別の小学校費のデータの分析5 - 総人口、小学校数が多いほど小学校費の県内総生産額に対する割合は高い。

www.crosshyou.info の続きです。 前回の分析では、小学校費の県内総生産額に対する割合は、人口や県内総生産額とは無関係だとわかりました。 そこで、今回は小学校の数を説明変数に加えてみます。 まず、政府統計の総合窓口、www.e-stat.go.jp のサイトから…

都道府県別の小学校費のデータの分析4 - R言語のlm関数で回帰分析 - 県内総生産額が大きいほど一人当たり小学校費も大きい。

www.crosshyou.info の続きです。 前回の分析で、小学校費は、人口の少ない県のほうが一人当たり小学校費が多く、県内総生産額の小さい県のほうが県内総生産額に占める割合が高いことがわかりました。 これをR言語の回帰分析関数のlm関数で分析してみます。 …

都道府県別の小学校費のデータの分析3 - 一人当たり小学校費は人口の少ない県ほど多い。小学校費の県内総生産額に対する割合は県内総生産額の大きな県ほど低い。

www.crosshyou.info の続きです。 pref: 都道府県ごとのper: 県民一人当たりの小学校費をみてみましょう。 島根県、高知県、鹿児島県などが金額が多く、神奈川県、埼玉県、大阪府、東京都などが金額が少ないことがわかります。 人口が多い県ほど少ない感じで…

都道府県別の小学校費のデータの分析2 - R言語でヒストグラム、箱ひげ図、散布図を描く。

www.crosshyou.info の続きです。 今回は、県民一人当たりの小学校費と、県内総生産額に対する割合を算出してみましょう。 まず、都道府県財政の小学校費と市町村財政の小学校費を合計した変数を作ります。mutate関数を使ってみました。totalという変数名に…

都道府県別の小学校費のデータの分析1 - R言語にデータを読み込ませる。都道府県財政の小学校費は減少傾向。市町村財政の小学校費は横ばい傾向。

今回は都道府県別の小学校費のデータを分析します。 政府統計の総合窓口(www.e-stat.go.jp)からデータを取り込みます。 47都道府県を選択します。 総人口(人)、可住地面積(ha)、県内総生産額(H17年基準、百万円)、小学校費(都道府県財政、千円)、小学校費(市…

短時間労働者の給与のデータの分析10 - R言語のmgcv::gam関数でGeneralized Additive Model, e1071::svm関数でSupport Vector Machine Model

www.crosshyou.info の続きです。 mgcvパッケージの読み込みをしてgam関数をつかって、generlized additive modelを作って男性、女性を予測してみます。 gam関数をつかってモデルを作ります。 このモデルでpredict関数を使い予測してみましょう。 confusionM…

短時間労働者の給与のデータの分析9 - R言語のrandomForest関数でランダムフォレストモデルを作り、男性、女性を予測する。

www.crosshyou.info の続きです。 今回はランダムフォレストを使って男性、女性を予測します。 まずは、randomForestパッケージの読み込みです。 randomForest関数でモデルを作ります。 plot関数で作成されたモデルをみてみます。 predict関数で予測します。…

短時間労働者の給与のデータの分析8 - R言語のrpart関数でdecision tree(決定木)モデルを作り、男性、女性を予測する。

www.crosshyou.info の続きです。 今回はrpart関数で決定木モデルをつくり、男性、女性を予測してみます。 rpartパッケージの読み込みをします。 rpart関数でモデルを作ります。 plot関数とtext関数でモデルをグラフであらわします。 wageが1082よりも小さく…

短時間労働者の給与のデータの分析7 - R言語のcaret::train関数でLDA(linear discriminant analysis)モデルで男性、女性を予測する。

www.crosshyou.info の続きです。前回はknn3関数でk-nearest neighborのアルゴリズムで男性か女性かを予測してみました。正解率は、68%でした。 今回はcaretパッケージのtrain関数をつかって、linear discriminant analysis(LDA)のモデルでやってみましょう…

短時間労働者の給与のデータの分析6 - R言語のknn3関数、k-nrearest neighborモデルで男性か女性かを分類するモデルを作る。

www.crosshyou.info の続きです。前回はlm関数で男性か女性かを分類するモデルを作りました。正解率は88%でした。 今回はknn3関数でk-nearest neighborsモデルを作り、同じようにやってみます。 まず。knn3関数はcaretパッケージにあるので、caretパッケージ…

短時間労働者の給与のデータの分析5 - R言語でクラシフィケーション。男性か女性かをlm関数で予測するモデルを作る。

www.crosshyou.info の続きです。前回の分析で、女性の給与は男性よりも確かに低いことがわかりました。 今回は、R言語のlm関数で男性か女性かを分類するモデルを作ってみます。 まず、mutate関数とifelse関数でgendarをm, f ではなくて1, 0という2つの数値…

短時間労働者の給与のデータの分析4 - R言語のlm関数で回帰分析をする。女性の時給は男性の時給よりも有意に低い。

www.crosshyou.info の続きです。 今回はR言語のlm関数を使って、wage: 1時間当たりの給与額を他の変数で回帰分析しようと思います。gendar: 男女の区別 がwageに影響しているのかどうかを確かめます。 summary関数でlm_model1を見てみましょう。 一番下のp…

短時間労働者の給与のデータの分析3 - R言語でグラフを描いて、給与額とその他の変数の関係を視覚化する。女性のほうが給与額は低い。

www.crosshyou.info の続きです。 前回はR言語gather関数とinner_join関数でロング型のデータフレームを作りました。 そのデータフレームにもう少し手を加えます。 このデータフレームは、企業規模にallという全部のものと産業コードにTという全産業というも…

短時間労働者の給与のデータの分析2 - R言語のgather関数とinner_join関数を使う。

www.crosshyou.info の続きです。 今回はR言語のgather関数とinner_join関数を使ってデータフレームをワイド型からロング型に変換します。 ワイド型というのは、 こんな感じのデータです。 ロング型というのは こんな感じのデータです。 前回作成したデータ…

短時間労働者の給与のデータの分析1 - R言語にCSVファイルを読み込ませて、データを整える。

賃金構造基本統計調査 平成21年賃金構造基本統計調査 短時間労働者 都道府県別1 短時間労働者の1時間当たり所定内給与額及び年間賞与その他特別給与額 全国 | 統計表・グラフ表示 | 政府統計の総合窓口 (e-stat.go.jp) 今回はこのデータの分析をしてみようと…