www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2020-08-01から1ヶ月間の記事一覧

都道府県別の公害苦情件数データの分析7 - R言語のデータフレームの構成を作り替える。

www.crosshyou.info の続きです。 今回はデータフレームの構成を作る変えたいと思います。現在のデータフレームは、 このようになっています。 これを、 こんな感じにしたいのです。 どうしたらいいのかな。。。 まず、airのデータフレームだけをつくりまし…

都道府県別の公害苦情件数データの分析6 - R言語でSlope chartを作成する。

www.crosshyou.info の続きです。 今回は、R言語でSlope chartを作ります。 Slope chartは少数のデータの2時点の変化を見るのに便利なチャートです。 今回は、1977年と2007年の2時点で、北海道、宮城県、東京都、愛知県、大阪府、広島県、福岡県の人口100万…

都道府県別の公害苦情件数データの分析5 - R言語のdplyrパッケージのcase_when関数の練習

www.crosshyou.info の続きです。 今回は、R言語のdplyrパッケージのcase_when関数を学びましたので、さっそく使ってみたいと思います。 case_when関数はifelse関数の複数バージョンでしょうか? 百聞は一見にしかず。やってみます。 今回は、47の都道府県を…

都道府県別の公害苦情件数データの分析4 - 人口100万人当りの苦情件数は1977年と2007年で違いがあるとは言えない。

www.crosshyou.info の続きです。 今回は1977年と2007年の苦情件数の分布を比較してみましょう。 R言語のggplot2パッケージのgeom_histogram関数とfacet_grid関数を使います。 1977年に比べると、2007年のほうが左に移動しています。 これは有意に違っている…

都道府県別の公害苦情件数データの分析3 - R言語のarrange関数でデータフレームを並び替える。

www.crosshyou.info 今回はどこの都道府県が公害苦情件数が多いか、少ないかを調べてみましょう。 一番新しい年を確認します。 2007年が最新ですね。この年の人口100万人当りの苦情件数を見てみます。 dplyrパッケージの中のfilter関数、select関数とarrange…

都道府県別の公害苦情件数データの分析2 - R言語のgeom_line関数で時系列のグラフを描く。

www.crosshyou.info の続きです。 今回は時系列のグラフをR言語で描いてみます。 はじめにtidyverseパッケージを読み込みます。 東京都の苦情件数の合計をグラフにしてみましょう。 1995年までは低下傾向でしたが、そこからまた増えてきています。 東京都と…

都道府県別の公害苦情件数データの分析1 - R言語にデータを読み込む。read.csv関数やsubstr関数やas.numeric関数を使った。

今回は、都道府県別の公害苦情件数のデータを分析してみようと思います。 データは、政府統計の総合窓口、e-statから取得しました。 www.e-stat.go.jp データのファイルはこんな感じです。 9行目は私が変数名として追加しています。このファイルをR言語のrea…

小売物価統計調査の全国統一品目のデータ分析5 - R言語のggplot2パッケージのgeom_point関数で散布図を描く。

www.crosshyou.info の続きです。 今回は、R言語のggplot2パッケージのgeom_point関数で散布図を描きます。 7月の価格と6月の価格なので、ほぼ一直線上に並んでいます。軸のスケールを対数にします。scale_x_log10()とscale_y_log10を使います。 こちらのほ…

小売物価統計調査の全国統一品目のデータ分析4 - R言語のggplot2パッケージのgeom_histogram関数でヒストグラムを描く。

www.crosshyou.info の続きです。 今回は各変数のヒストグラムを見てみようと思います。ggplot2パッケージの中のgeom_histogram()関数を利用します。 ほとんどの品目は低下価格ですが、6つの品目が高額なため、よくわからないヒストグラムになっています。 d…

小売物価統計調査の全国統一品目のデータ分析3 - R言語のdplyrパッケージのarrange関数でデータフレームを並び替える

www.crosshyou.info の続きです。 今回はR言語のdplyrパッケージのarrange関数でデータを並びかえてみようと思います。 Y202007の小さいものを見てみます。 通信料(IP電話, 通信料)が8.80円で一番安いです。 arrange関数は小さい順に並び替えます。大きい順…

小売物価統計調査の全国統一品目のデータ分析2 - R言語のdplyrパッケージのmutate関数で新しい変数を作る。

www.crosshyou.info の続きです。 今回は、R言語のdplyrパッケージのmutate関数で新しい変数を作ります。 はじめにtidyverseパッケージを読み込みます。 tidyverseパッケージを読み込むと、dplyrパッケージをはじめggplot2などデータ分析で便利なパッケージ…

小売物価統計調査の全国統一価格品目のデータ分析1 - R言語でデータを読み込み、分析の前処理をする。

今回は、小売物価統計調査のデータから、全国統一価格品目のデータを分析してみようと思います。 政府統計の藏合窓口、www.e-stat.go.jpからデータファイルをダウンロードします。 ファイルをダウンロードすると、このようなファイルです。 必要な部分だけを…

都道府県別の宿泊旅行統計調査の分析6 - R言語のggplot2でグラフを描く練習

www.crosshyou.info の続きです。 今回はggplot2でグラフを描く練習をします。 はじめにggplot2ライブラリを読み込みます。 続いて、ggplot関数でggplotオブジェクトを作ります。 この時点ではデータフレームを指定しただけなので、グラフには何も表示されま…

都道府県別の宿泊旅行統計調査の分析5 - R言語のlm関数で回帰分析をする。vif関数で多重共線性をチェック

www.crosshyou.info の続きです。 今回は、R言語のlm関数で回帰分析をしてみようと思います。 response variable(反応変数)をTotal_chgにしてその他の変数をexplanatory variables(説明変数)にします。 p-valueは2.2e-16よりも小さな係数ですが、各項のp値が…

都道府県別の宿泊旅行統計調査の分析4 - R言語のorder関数で都道府県ランキング表示

www.crosshyou.info の続きです。 今回は、R言語のorder関数を使って、都道府県ランキングを見てみようと思います。 はじめは、全従業員数数の伸び率ランキングです。 京都府が1.67で1番です。2番が東京で1.55、3番が沖縄で1.54、4番が大阪で1.47、5番が福岡…

都道府県別の宿泊旅行統計調査の分析3 - 新しいデータフレームをR言語のdata.frame関数で作る

www.crosshyou.info の続きです。 今回は2018年と2020年を比較してどれだけ伸びているか、2018年と2020年の平均値、観光メインとビジネスメインの従業員数の比率を計算して、これらを新しいデータフレームにまとめてみようと思います。 まず、2018年だけのデ…

都道府県別の宿泊旅行統計調査の分析2 - R言語のDataExplorerパッケージを利用してみる。

www.crosshyou.info の続きです。 前回の分析で、2018年と2020年を比べると、観光メインの宿泊施設の従業員数は増えていましたが、ビジネスメインの宿泊施設の従業員数は減少していました。 今回は、DataExplorerという便利なパッケージを使ってデータをいろ…

都道府県別の宿泊旅行統計調査の分析1 - 2018年5月と2020年5月の比較では、観光メインの従業員数は増加している。

政府統計の総合窓口を訪問してみたら、 宿泊旅行統計調査という統計が新着でありました。ちょうといま、Go Toキャンペーンで話題の分野なので調べてみようと思います。 毎月実施されている調査なのですね。 データのExcelファイルをダウロードしたら、こんな…

Happy Planet Indexのデータ分析7 - R言語のlm関数で回帰分析をする

www.crosshyou.info の続きです。 今回は、R言語のlm関数で線形回帰分析をします。 Response variableがHPI:Happy Planet Index Explanatory variablesがALE:Average Life Expectancy, AWB:Average Well-Being, IOO:Inequality of Outcomes, FTP:Ecological …

Happy Planet Indexのデータ分析6 - R言語でqqnorm関数を使わずにQ-Q Plotを描く

www.crosshyou.info の続きです。 今回はQ-Q Plotをqqnorm関数を使わないで描いてみます。 ALE:Average Life ExpectancyのQ-Q Plotをqqnorm関数を使うとこうなります。 直線状にプロットが乗っていればデータは正規分布に近いということです。 これをqqnorm…

Happy Planet Indexのデータ分析5 - R言語でCDF(Cumulative Density Function)図を描く

www.crosshyou.info の続きです。 今回は、R言語でCDF(Cumulative Density Function)図を描いてみようと思います。 CDFは横軸がデータで、縦軸がそのデータが全体で何パーセンタイルの位置にあるかです。 F(a) = Pr(x <= a) 数式であらわすと上のようになり…