crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

データ分析

washdata.orgのデータ分析1 - R言語でExcelデータを読み込む。

https://washdata.org/data/downloads#WLD WHOとUNICEFのジョイントプログラムのウェブサイトに世界各国の水利用関連のデータファイルがあります。 今回はこのファイルをR言語に読み込んでみようと思います。 こういうExcelファイルです。 このファイルを読…

都道府県別のジニ係数の分析6 - R言語のlm関数で回帰分析

www.crosshyou.info の続きです。 今回はR言語のlm関数で回帰分析をしてみます。 2014年のincome(二人以上の世帯の年間収入のジニ係数)を、2009年のジニ係数で回帰分析してみます。 はじめに2014年のincome, 2009年のincomeのベクトルを作ります。 income201…

都道府県別のジニ係数データの分析5 - R言語のgeom_point関数とgeom_text関数で散布図を描く。

www.crosshyou.info の続きです。 今回は、R言語のggplot2パッケージを読み込んでgeom_point関数とgeom_text関数で散布図を描いてみましょう。 まずは、2014年度のincome(二人以上の世帯の年間収入のジニ係数)とsaving(二人以上の世帯の貯蓄現在高のジニ係数…

都道府県別のジニ係数データの分析2 - 現在貯蓄現在高のジニ係数は2014年のほうが大きくなっている。

www.crosshyou.info の続きです。 今回は4つのジニ係数データのヒストグラム描いてみます。 geom_histogram関数でヒストグラムを作り、facet_grid関数で年度を別にしています。 bins=30となっていますが、少し多すぎるようです。bins=10にしてみます。 2009…

児童扶養手当受給者データの分析4 - R言語でカイ2乗検定。母子家庭比率及び父子家庭比率は地域によって違うのか?

www.crosshyou.info の続きです。 今回はR言語でカイ2乗検定をしてみます。 まずは、クロス表を作成します。 こうして作成したm_tblはtibbleオブジェクトです。このうち、1列目はいらないので、削除します。 m_tbl[ , -1]で1列目を削除して、as.matrix関数…

児童扶養手当受給者データの分析3 - 地域のタイプ別に母子家庭比率、父子家庭比率を見てみる。

www.crosshyou.info の続きです。 前回の分析で、母子家庭比率、父子家庭比率は地域のタイプ(都道府県、指定都市、中核都市)によって違いがありそうだとわかりました。 グラフにして確かめてみます。 まずは、地域タイプ別の箱ひげ図を作成してみました。 la…

児童扶養手当受給者データの分析2 - 母子家庭と父子家庭の比率に注目。R言語のmutate関数、arrange関数, select関数などを使う。

www.crosshyou.info の続きです。 今回は、母子家庭の比率と父子家庭の比率に注目してみます。 母子家庭比率は、m_pop / t_pop で、 父子家庭比率は、f_pop / t_pop で計算できます。 母子家庭比率(m_ratio)のヒストグラムを見てみましょう。 母子家庭比率は…

児童扶養手当受給者データの分析1 - R言語にデータを読み込む。read.csv関数, str関数, function関数, mutate関数などを使用。

今回は、児童扶養手当受給者データを分析しようと思います。 データは、政府統計の総合窓口、www.e-stat.go.jp から取得しました。 9月4日の新着ファイルで、厚生労働省から福祉行政報告例というファイルがありましたのでこれをクリックします。 クリックし…

都道府県別の公害苦情件数データの分析9 - R言語のgather関数とspread関数を使う。

www.crosshyou.info の続きです。 分析7ではマニュアル作業でデータフレームの構成を作り替えましたが、あれから少し調べてみると、gather関数というので簡単にできるらしいです。やってみます。 gather関数一つでできてしまううですね。 自分のためにgathe…

都道府県別の公害苦情件数データの分析8 - R言語のgeom_tile()関数でタイルグラフを作る。

www.crosshyou.info の続きです。 前回、データフレームの構成を作り替えました。 これで、何をしたかったかというと、 こういうグラフを作りたかったのです。 スクリプトは、 library(RColorBrewer)でカラーパレットのパッケージを読み込みます。 df_new %>…

都道府県別の公害苦情件数データの分析7 - R言語のデータフレームの構成を作り替える。

www.crosshyou.info の続きです。 今回はデータフレームの構成を作る変えたいと思います。現在のデータフレームは、 このようになっています。 これを、 こんな感じにしたいのです。 どうしたらいいのかな。。。 まず、airのデータフレームだけをつくりまし…

都道府県別の公害苦情件数データの分析6 - R言語でSlope chartを作成する。

www.crosshyou.info の続きです。 今回は、R言語でSlope chartを作ります。 Slope chartは少数のデータの2時点の変化を見るのに便利なチャートです。 今回は、1977年と2007年の2時点で、北海道、宮城県、東京都、愛知県、大阪府、広島県、福岡県の人口100万…

都道府県別の公害苦情件数データの分析5 - R言語のdplyrパッケージのcase_when関数の練習

www.crosshyou.info の続きです。 今回は、R言語のdplyrパッケージのcase_when関数を学びましたので、さっそく使ってみたいと思います。 case_when関数はifelse関数の複数バージョンでしょうか? 百聞は一見にしかず。やってみます。 今回は、47の都道府県を…

都道府県別の公害苦情件数データの分析4 - 人口100万人当りの苦情件数は1977年と2007年で違いがあるとは言えない。

www.crosshyou.info の続きです。 今回は1977年と2007年の苦情件数の分布を比較してみましょう。 R言語のggplot2パッケージのgeom_histogram関数とfacet_grid関数を使います。 1977年に比べると、2007年のほうが左に移動しています。 これは有意に違っている…

都道府県別の公害苦情件数データの分析3 - R言語のarrange関数でデータフレームを並び替える。

www.crosshyou.info 今回はどこの都道府県が公害苦情件数が多いか、少ないかを調べてみましょう。 一番新しい年を確認します。 2007年が最新ですね。この年の人口100万人当りの苦情件数を見てみます。 dplyrパッケージの中のfilter関数、select関数とarrange…

都道府県別の公害苦情件数データの分析2 - R言語のgeom_line関数で時系列のグラフを描く。

www.crosshyou.info の続きです。 今回は時系列のグラフをR言語で描いてみます。 はじめにtidyverseパッケージを読み込みます。 東京都の苦情件数の合計をグラフにしてみましょう。 1995年までは低下傾向でしたが、そこからまた増えてきています。 東京都と…

都道府県別の公害苦情件数データの分析1 - R言語にデータを読み込む。read.csv関数やsubstr関数やas.numeric関数を使った。

今回は、都道府県別の公害苦情件数のデータを分析してみようと思います。 データは、政府統計の総合窓口、e-statから取得しました。 www.e-stat.go.jp データのファイルはこんな感じです。 9行目は私が変数名として追加しています。このファイルをR言語のrea…

小売物価統計調査の全国統一品目のデータ分析4 - R言語のggplot2パッケージのgeom_histogram関数でヒストグラムを描く。

www.crosshyou.info の続きです。 今回は各変数のヒストグラムを見てみようと思います。ggplot2パッケージの中のgeom_histogram()関数を利用します。 ほとんどの品目は低下価格ですが、6つの品目が高額なため、よくわからないヒストグラムになっています。 d…

小売物価統計調査の全国統一品目のデータ分析3 - R言語のdplyrパッケージのarrange関数でデータフレームを並び替える

www.crosshyou.info の続きです。 今回はR言語のdplyrパッケージのarrange関数でデータを並びかえてみようと思います。 Y202007の小さいものを見てみます。 通信料(IP電話, 通信料)が8.80円で一番安いです。 arrange関数は小さい順に並び替えます。大きい順…

小売物価統計調査の全国統一品目のデータ分析2 - R言語のdplyrパッケージのmutate関数で新しい変数を作る。

www.crosshyou.info の続きです。 今回は、R言語のdplyrパッケージのmutate関数で新しい変数を作ります。 はじめにtidyverseパッケージを読み込みます。 tidyverseパッケージを読み込むと、dplyrパッケージをはじめggplot2などデータ分析で便利なパッケージ…

小売物価統計調査の全国統一価格品目のデータ分析1 - R言語でデータを読み込み、分析の前処理をする。

今回は、小売物価統計調査のデータから、全国統一価格品目のデータを分析してみようと思います。 政府統計の藏合窓口、www.e-stat.go.jpからデータファイルをダウンロードします。 ファイルをダウンロードすると、このようなファイルです。 必要な部分だけを…

都道府県別の宿泊旅行統計調査の分析6 - R言語のggplot2でグラフを描く練習

www.crosshyou.info の続きです。 今回はggplot2でグラフを描く練習をします。 はじめにggplot2ライブラリを読み込みます。 続いて、ggplot関数でggplotオブジェクトを作ります。 この時点ではデータフレームを指定しただけなので、グラフには何も表示されま…

都道府県別の宿泊旅行統計調査の分析5 - R言語のlm関数で回帰分析をする。vif関数で多重共線性をチェック

www.crosshyou.info の続きです。 今回は、R言語のlm関数で回帰分析をしてみようと思います。 response variable(反応変数)をTotal_chgにしてその他の変数をexplanatory variables(説明変数)にします。 p-valueは2.2e-16よりも小さな係数ですが、各項のp値が…

都道府県別の宿泊旅行統計調査の分析4 - R言語のorder関数で都道府県ランキング表示

www.crosshyou.info の続きです。 今回は、R言語のorder関数を使って、都道府県ランキングを見てみようと思います。 はじめは、全従業員数数の伸び率ランキングです。 京都府が1.67で1番です。2番が東京で1.55、3番が沖縄で1.54、4番が大阪で1.47、5番が福岡…

都道府県別の宿泊旅行統計調査の分析3 - 新しいデータフレームをR言語のdata.frame関数で作る

www.crosshyou.info の続きです。 今回は2018年と2020年を比較してどれだけ伸びているか、2018年と2020年の平均値、観光メインとビジネスメインの従業員数の比率を計算して、これらを新しいデータフレームにまとめてみようと思います。 まず、2018年だけのデ…

都道府県別の宿泊旅行統計調査の分析2 - R言語のDataExplorerパッケージを利用してみる。

www.crosshyou.info の続きです。 前回の分析で、2018年と2020年を比べると、観光メインの宿泊施設の従業員数は増えていましたが、ビジネスメインの宿泊施設の従業員数は減少していました。 今回は、DataExplorerという便利なパッケージを使ってデータをいろ…

都道府県別の宿泊旅行統計調査の分析1 - 2018年5月と2020年5月の比較では、観光メインの従業員数は増加している。

政府統計の総合窓口を訪問してみたら、 宿泊旅行統計調査という統計が新着でありました。ちょうといま、Go Toキャンペーンで話題の分野なので調べてみようと思います。 毎月実施されている調査なのですね。 データのExcelファイルをダウロードしたら、こんな…

Happy Planet Indexのデータ分析7 - R言語のlm関数で回帰分析をする

www.crosshyou.info の続きです。 今回は、R言語のlm関数で線形回帰分析をします。 Response variableがHPI:Happy Planet Index Explanatory variablesがALE:Average Life Expectancy, AWB:Average Well-Being, IOO:Inequality of Outcomes, FTP:Ecological …

Happy Planet Indexのデータ分析6 - R言語でqqnorm関数を使わずにQ-Q Plotを描く

www.crosshyou.info の続きです。 今回はQ-Q Plotをqqnorm関数を使わないで描いてみます。 ALE:Average Life ExpectancyのQ-Q Plotをqqnorm関数を使うとこうなります。 直線状にプロットが乗っていればデータは正規分布に近いということです。 これをqqnorm…

Happy Planet Indexのデータ分析5 - R言語でCDF(Cumulative Density Function)図を描く

www.crosshyou.info の続きです。 今回は、R言語でCDF(Cumulative Density Function)図を描いてみようと思います。 CDFは横軸がデータで、縦軸がそのデータが全体で何パーセンタイルの位置にあるかです。 F(a) = Pr(x <= a) 数式であらわすと上のようになり…