Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2020-07-01から1ヶ月間の記事一覧

Happy Planet Indexのデータ分析4 - R言語のboxplot関数で地域ごとのデータの分布をみる。

www.crosshyou.info の続きです。 今回は、R言語のboxplot関数を使って地域ごとのデータの分布をみてみます。 はじめのRegi:地域の各地域の名前を短くします。 levels関数で各地域の名前を付けなおします。AME:America, AP:Asia Pacific, EUR:Europe, NENA:M…

Happy Planet Indexのデータ分析3- R言語のorder関数を使ってデータを並び替える。

www.crosshyou.info 今回はR言語のorder関数を使ってデータを並び替えてみようと思います。 AWB:Average Well-beingの低いところはどこでしょうか? order関数でAWBの順番のインデックスを作り、それを利用します。トーゴが一番AWBが低いです。ベニン、シリ…

Happy Planet Indexのデータ分析2 - R言語のdplyrパッケージのmutate関数、filter関数、select関数の練習

www.crosshyou.info の続きです。 今回はR言語のdplyrパッケージのmutate関数、filter関数、select関数の練習をしようと思います。 mutate関数は新しい変数を作るのに使います。 filter関数はデータフレームの中から条件にあう行だけを抜き出します。 select…

Happy Planet Indexのデータ分析1 - R言語でデータを読み込む

今回は、Happy Planet Indexのデータを分析してみようと思います。 http://happyplanetindex.org/ このサイトからデータを取得しました。 こんな感じでCSVファイルにしました。 これをread.csv関数でR言語に読み込みます。 read.csv関数でファイルをR言語に…

海外在留邦人数統計調査のデータ分析3 - R言語のwhich.max関数とwhich.min関数を使う。

www.crosshyou.info の続きです。 今回はR言語のwhich.max関数、which.min関数を使ってみたいと思います。 which.max関数は最大値がどこにあるかを教えてくれる関数です。 139行目にあるようです。 139行目は何か確認しましょう。 平成30年のベトナムが前年…

海外在留邦人数統計調査のデータ分析2 - データフレームの形をつくりかえてANOVAやANCOVAをする。

www.crosshyou.info の続きです。 前回作成したデータフレームは、 となっていて、平成30年の人数、平成30年の前年比、平成29年の人数、平成29年の前年比と同じ人数のデータ、前年比のデータなのに別々の列になっていました。 これだと分析がやりにくいので…

海外在留邦人数統計調査のデータ分析1 - R言語でデータを読み込む

今回は海外在留邦人統計調査のデータを分析しようと思います。 政府統計の総合窓口、www.e-stat.go.jp からデータを取得しました。 毎年調査しているようです。 平成30年(2018年)が新着のデータのようです。 EXCELファイルをダウンロードしてみます。 このフ…

都道府県別の学歴と収入のデータ分析6 - R言語で回帰分析をする。

www.crosshyou.info の続きです。 今回はR言語のlm関数で収入を反応変数、学歴の比率を説明変数にして回帰分析をしてみます。 p-value: 0.002016とあります。0.05よりも小さい値ですので、有意なモデルです。 Middle_RatioはPr(>|t|)が0.16327と0.05よりも大…

都道府県別の学歴と収入のデータ分析5 - R言語で相関関係を調べる。pairs関数の応用

www.crosshyou.info の続きです。 今回は、変数間の相関関係を調べてみます。 一番左の列を見ますと、Average:平均収入との相関係数になります。Middle_Ratio:高校卒の比率は-0.263で負の相関、Adavance_Ratio:短大・高専卒の比率は0.248で正の相関、HIgh_Ad…

都道府県別の学歴と収入のデータ分析4- R言語のorder関数でデータフレームを並び変える。

www.crosshyou.info の続きです。 今回は、R言語のorder関数でデータフレームを並び変えます。どの都道府県が収入が高いかなどを確認します。 まずは、平均収入の高い都道府県です。 福井県が830万円で一番です。東京都ではないんですね。2番目は富山県と北…

都道府県別の学歴と収入のデータ分析3 - 学歴人口の比率を計算する。

www.crosshyou.info の続きです。 今回は、学歴人口の比率、つまり分子は各学歴人口、分母は学歴人口合計を計算します。 最終学歴が小学校・中学校は計算しません。高校、短大・高専、大学・大学院の比率の合計の残りが小学校・中学校ですからね。 この3つ…

都道府県別の学歴と収入のデータ分析2 - 取り込んだデータの分布形状をヒストグラムや箱ひげ図で確認する。

www.crosshyou.info の続きです。 今回は取り込んだデータの分布形状を、ヒストグラムや箱ひげ図で確認しようと思います。 前段階の準備として、function関数で、ヒストグラム、箱ひげ図、インデックスプロットを一度に作成する関数を作ります。 hist関数で…

都道府県別の学歴と収入のデータ分析1 - read.csv関数でR言語にデータを取り込み、merge関数でデータフレームを統合する。

今回は都道府県別の学歴と収入の関係を調べようと思います。 データは、政府統計の総合窓口、www.e-stat.go.jp から取得しました。 47都道府県を選択します。 学歴データは上のように選択しました。 このように表示されます。これをダウンロードすると、 こ…

都道府県別の乳用牛のデータ分析4 - R言語のkmeans関数でクラスタリング分析をする。

www.crosshyou.infoの続きです。 今回は、R言語のkmeans関数でクラスタリング分析をしてみます。 Machine Learning with R: Expert techniques for predictive modeling, 3rd Edition (English Edition) 作者:Lantz, Brett 発売日: 2019/04/15 メディア: Kin…

都道府県別の乳用牛のデータ分析3 - R言語のhist関数、boxplot関数でデータを視覚化する。

www.crosshyou.info の続きです。 今回は、R言語のhist関数でヒストグラム、boxplot関数で箱ひげ図を描き、データを視覚化します。 ヒストグラムを見ると、Saku_Kanが一番ばらつきが小さいような気がします。 boxplot関数で箱ひげ図を描いてみます。 1飼養家…

都道府県別の乳用牛のデータ分析2 - R言語のorder関数でデータフレームを並び替える。

www.crosshyou.info の続きです。 今回は、1飼養家あたりの牛の数、搾乳牛と乾乳牛の比率、大人の牛と子どもの牛の比率を計算して、R言語のorder関数で並び替えたいと思います。 一番多い都道府県で1飼養家当り173頭、一番少ない都道府県で32頭です。平均は6…

都道府県別の乳用牛のデータ分析1 - R言語でデータを読み込む。乾乳、飼養、あなたは読めますか?

政府統計の総合、e-stat(www.e-stat.go.jp)を閲覧してみたら、 畜産統計調査という統計が新着していました。 クリックしてみました。 乳用牛などの飼養数などのデータらしいです。 新着の「年次[1件]」をクリックしてみます。 EXCELをクリックします。 こう…

Real estate valuation data set の分析5 - R言語のlm関数で回帰分析をする。駅から近いということだけを見てはいけない。

www.crosshyou.infoの続きです。 前回は各変数間の相関係数を調べました。 今回は、回帰分析をして不動産価格を予測するモデルを作成します。 はじめにpairs関数で散布図マトリックスを描きます。 一番下の列がY(不動産価格)が縦軸でその他の変数が横軸の散…

Real estate valuation data set の分析4 - R言語のcor関数で相関マトリックスを作り、相関の低い順に組み合わせを並び替える。

www.crosshyou.infoの続きです。 前回は変数の分布の様子をboxplot関数、hist関数でみてみました。 今回は変数間の相関関係をcor関数で調べてみましょう。 Yが不動産価格なので、不動産価格と相関関係の強い変数が何かを見てみましょう。 絶対値ベースでみる…

Real estate valuation data set の分析3 - R言語のboxplot関数やhist関数で各変数の分布を見る。

www.crosshyou.infoの続きです。 前回はデータの標準化をしました。 今回はboxplot関数で箱ひげ図、hist関数でヒストグラムを描いてみます。 まずは、boxplot関数で箱ひげ図です。 X3, X5, X6が外れ値があります。 X3は一番近いMRTの駅からの距離、X5は緯度…

Real estate valuation data set の分析2 - R言語のscale関数でデータの標準化(min-max法)をする。

www.crosshyou.infoの続きです。 前回はデータをR言語に読み込むところまでやりました。 今回はデータの標準化をします。 min-max法という手法で標準化します。 (データi - データの中の最小値) / (データの最大値 - データの最小値) という計算式でデータi…