www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2020-01-01から1年間の記事一覧

農林水産物合計と上位20品目のデータ分析7 - R言語で回帰分析をする。layer()を使ってグラフを重ねてみる。

www.crosshyou.info の続きです。 今回は、R言語のlm関数で回帰分析をしてみます。 lm関数で、金額_対前年増減率 = a + b * 数量_対前年増減率 というモデル式で回帰分析をしてみました。p-value: 0.4226と0.05よりも大きな値なので、統計的に有意なモデルで…

農林水産物合計と上位20品目のデータ分析6 - R言語で散布図を作成する。

www.crosshyou.info の続きです。 今回はR言語のggplot2パッケージのgeom_point関数を使って金額_対前年増減率と数量_対前年増減率の散布図を描いてみます。 まず、金額_対前年増減率のデータフレームを作りました。 同じように数量_対前年増減率のデータを…

農林水産物の輸出上位20品目のデータ分析5 - R言語で棒グラフを描く(geom_col関数)

www.crosshyou.info の続きです。 今回はR言語のggplot2パッケージのgeom_col関数で棒グラフを描いてみます。 filter(type == "金額")で金額だけにデータフレームを絞り込みます。 mutate(hinmoku = reorder(hinmoku, valu)) でhinmokuをvalueの値で並び変え…

農林水産物の輸出上位20品目のデータ分析4 - データフレームの絞り込み(filter関数)や並び替え(arrange関数)

www.crosshyou.info の続きです。 今回はデータフレームの絞り込みや並び替えをします。 順位だけを表示します。 dplyrパッケージの中のfilter関数でtypeを順位だけにして、select関数でtype, value, hinmokuだけを表示しました。一番はアルコール飲料です。…

農林水産物の輸出上位20品目のデータ分析3 - R言語のinner_joinを使ってみる。

www.crosshyou.info の続きです。 前回は政府統計の総合窓口(e-Stat)のサイトのAPIでデータを取得してデータフレームを作成しました。作業の最後のところで、データのデータフレームと品目名、データタイプ名を結合するのにファクターのlevels関数で結合しま…

農林水産物の輸出上位20品目のデータ分析2 - R言語でAPIを使って政府統計の総合窓口(e-Stat)からデータを取得する。

www.crosshyou.info の続きです。 前回は政府統計の総合窓口(e-Stat)のサイトからファイルをダウンロードして、それをR言語のread.csvファイルを使って読み込みました。 今回は、APIを使って読み込んでみました。 www.dataquest.io https://www.dataquest.io…

農林水産物の輸出上位20品目のデータ分析1 - R言語のread.csv関数でCSVファイルの読み込み。

今回は、農林水産品輸出上位20品目のデータを分析します。 政府統計の総合窓口(e-Stat) www.e-stat.go.jp のサイトからデータを取得しました。 2020年10月9日に更新としてサイトのトップページにありましたので、これをクリックしました。 データベースと、…

都道府県別の1人当りの県民所得と従業者人数別事業所割合の分析5 - R言語のlm関数で回帰分析をする。

www.crosshyou.info の続きです。 今回はR言語のlm関数を使って回帰分析をしてみます。 rensponse variableはshotoku, explanatory variableはsmallでやってみます。 つまり、1人当りの県民所得を従業者人数が1~4人の事業所の割合で回帰するということです。…

都道府県別の1人当りの県民所得と従業者人数別事業所割合の分析4 - R言語のggplot2パッケージのgeom_point関数で散布図を作成

www.crosshyou.info の続きです。 今回は、R言語のggplot2パッケージのgeom_point関数で散布図を作成します。 まずは、shotokuとsmallの散布図です。 smallの割合が高いほど、shotokuは低くなるという相関ですね。 画面の左上にあるのは東京都です。 東京都…

都道府県別の1人当りの県民所得と従業者人数別事業所割合の分析3 - R言語でANOVA分析

www.crosshyou.info の続きです。 年度別のshotoku, small, largeを計算してみます。 R言語のgroup_by関数、select関数, summarise関数, mean関数, sd関数を使用しました。 group_by(year)でyear別にして、select(year, shotoku)でyearとshokotkuだけを抜き…

都道府県別の1人当りの県民所得と従業者人数別事業所割合の分析2 - R言語でヒストグラムを作成する。東京都は別格。

www.crosshyou.info の続きです。 今回は、各変数の分布をヒストグラムを作成して見てみましょう。 ggplot2パッケージのgeom_histogram関数とfacet_grid関数を使いました。 1人当りの県民所得のヒストグラムです。2009年度、2011年度、2014年度と年を経過す…

都道府県別の1人当りの県民所得と従業者人数別事業所割合の分析1 - R言語でCSVファイルのデータを読み込む。

今回は、都道府県別の1人当りの県民所得と従業者人数別事業所割合のデータを調べようと思います。 政府統計の総合窓口、e-statからCSVファイルを取得しました。 取得したデータは上の図のとおりです。 CSVファイルは以下のようになります。 このCSVファイル…

washdata.orgのデータ分析6 - R言語のgganimateパッケージを使って、アニメーショングラフを作成する。

www.crosshyou.info 今回は、gganimateパッケージを使ってアニメーショングラフを作成してみます。 https://towardsdatascience.com/animated-charts-visualizing-changes-in-r-fee659fbabe5 と https://www.datanovia.com/en/blog/gganimate-how-to-create-…

washdata.orgのデータ分析5 - basic(30分以内に飲み水が手に入る)の比率が一番上昇したのはどこの国か?

www.crosshyou.info の続きです。 今回は2000年から2017年の間で、basicの比率が一番上昇したのはどこの国かを調べてみます。 コードは以下のようになります。 始めにnames(df)[1] <- "country"で変数名をcountryに直しておきます。 次にdf %>% filter(year …

washdata.orgのデータ分析4 - R言語のlm関数で回帰分析。

www.crosshyou.info の続きです。 今回は、普通にlm関数を使って回帰分析をしてみます。 p-value < 2.23-16と0.05よりも小さいので有意なモデルです。urban_rate:year2009とurban_rate:year2017は必要ないようです。update関数で削除します。 update関数で、…

washdata.orgのデータ分析3 - R言語のtidymodelsパッケージを使う。

www.crosshyou.info の続きです。 今回は、tidymodelsパッケージを使ってみようと思います。 https://www.tidymodels.org/start/models/ このサイトを参考にしてみます。 このサイトはウニの大きさ(数値データ)をもともとの大きさ(数値データ)と食べ物の種類…

washdata.orgのデータ分析2 - R言語のggplot2パッケージのfacet_grid関数、geom_boxplot関数、geom_histogram関数、geom_point関数を使う。

www.crosshyou.info の続きです。 データをいろいろとグラフにしてみましょう。 basicの箱ひげ図を描いでみます。ggplot2パッケージの中のgeom_boxplot関数とfacet_grid関数を使いました。 年が進むにつれて、だんだんとbasicの最低値が大きくなっていること…

washdata.orgのデータ分析1 - R言語でExcelデータを読み込む。

https://washdata.org/data/downloads#WLD WHOとUNICEFのジョイントプログラムのウェブサイトに世界各国の水利用関連のデータファイルがあります。 今回はこのファイルをR言語に読み込んでみようと思います。 こういうExcelファイルです。 このファイルを読…

都道府県別のジニ係数の分析6 - R言語のlm関数で回帰分析

www.crosshyou.info の続きです。 今回はR言語のlm関数で回帰分析をしてみます。 2014年のincome(二人以上の世帯の年間収入のジニ係数)を、2009年のジニ係数で回帰分析してみます。 はじめに2014年のincome, 2009年のincomeのベクトルを作ります。 income201…

都道府県別のジニ係数データの分析5 - R言語のgeom_point関数とgeom_text関数で散布図を描く。

www.crosshyou.info の続きです。 今回は、R言語のggplot2パッケージを読み込んでgeom_point関数とgeom_text関数で散布図を描いてみましょう。 まずは、2014年度のincome(二人以上の世帯の年間収入のジニ係数)とsaving(二人以上の世帯の貯蓄現在高のジニ係数…

都道府県別のジニ係数データの分析4 - 沖縄県は格差が大きな県だとわかる。

www.crosshyou.info の続きです。 今回はR言語のarrange関数を使って、ジニ係数の大きい順、小さい順に都道府県を並べてみます。 income(二人以上の世帯の年間収入のジニ係数)の大きい都道府県はどこでしょうか? 2014年度の東京都が一番大きい、つまり格差…

都道府県別のジニ係数データの分析3 - R言語で2009年度と2014年度で違いがあるかどうかを検定する。

www.crosshyou.info の続きです。 前回のヒストグラムを見ると、現在貯蓄現在高のジニ係数は2014年度のほうが大きくなっているようでした。 今回はR言語で統計的に有意に違っているのかを検定してみます。 はじめに、group_by関数+summarize関数+mean関数で…

都道府県別のジニ係数データの分析2 - 現在貯蓄現在高のジニ係数は2014年のほうが大きくなっている。

www.crosshyou.info の続きです。 今回は4つのジニ係数データのヒストグラム描いてみます。 geom_histogram関数でヒストグラムを作り、facet_grid関数で年度を別にしています。 bins=30となっていますが、少し多すぎるようです。bins=10にしてみます。 2009…

都道府県別のジニ係数データの分析1 - ジニ係数は0に近づくほど平等、1に近づくほど不平等。

今回は都道府県別のジニ係数データの分析をしようと思います。 政府統計の総合窓口、e-statからデータを取得しました。 www.e-stat.go.jp 年間収入のジニ係数、貯蓄現在高のジニ係数があって、二人以上の世帯、二人以上の世帯のうち勤労者世帯の二種類なので…

読書記録 - 「これならわかるコーポレートガバナンスの教科書」 松田千恵子著 日経BP社

これならわかる コーポレートガバナンスの教科書 作者:松田 千恵子 発売日: 2015/08/11 メディア: Kindle版 コーポレートガバナンスとは、企業の舵取りを関係者間でいろいろと考えていこうよ、ということ。 そして、企業の舵取りというのは、普通は経営者に…

児童扶養手当受給者データの分析4 - R言語でカイ2乗検定。母子家庭比率及び父子家庭比率は地域によって違うのか?

www.crosshyou.info の続きです。 今回はR言語でカイ2乗検定をしてみます。 まずは、クロス表を作成します。 こうして作成したm_tblはtibbleオブジェクトです。このうち、1列目はいらないので、削除します。 m_tbl[ , -1]で1列目を削除して、as.matrix関数…

児童扶養手当受給者データの分析3 - 地域のタイプ別に母子家庭比率、父子家庭比率を見てみる。

www.crosshyou.info の続きです。 前回の分析で、母子家庭比率、父子家庭比率は地域のタイプ(都道府県、指定都市、中核都市)によって違いがありそうだとわかりました。 グラフにして確かめてみます。 まずは、地域タイプ別の箱ひげ図を作成してみました。 la…

児童扶養手当受給者データの分析2 - 母子家庭と父子家庭の比率に注目。R言語のmutate関数、arrange関数, select関数などを使う。

www.crosshyou.info の続きです。 今回は、母子家庭の比率と父子家庭の比率に注目してみます。 母子家庭比率は、m_pop / t_pop で、 父子家庭比率は、f_pop / t_pop で計算できます。 母子家庭比率(m_ratio)のヒストグラムを見てみましょう。 母子家庭比率は…

児童扶養手当受給者データの分析1 - R言語にデータを読み込む。read.csv関数, str関数, function関数, mutate関数などを使用。

今回は、児童扶養手当受給者データを分析しようと思います。 データは、政府統計の総合窓口、www.e-stat.go.jp から取得しました。 9月4日の新着ファイルで、厚生労働省から福祉行政報告例というファイルがありましたのでこれをクリックします。 クリックし…

都道府県別の公害苦情件数データの分析9 - R言語のgather関数とspread関数を使う。

www.crosshyou.info の続きです。 分析7ではマニュアル作業でデータフレームの構成を作り替えましたが、あれから少し調べてみると、gather関数というので簡単にできるらしいです。やってみます。 gather関数一つでできてしまううですね。 自分のためにgathe…