crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

データ分析

都道府県別の婚姻件数と離婚件数のデータの分析6 - options(scipen = xxxx)で数値の表示を変更できる。

Photo by Nat Fernández on Unsplash www.crosshyou.info の続きです。 前回作成した、df_mardivのデータフレームのサマリーを見てみます。 pop: 人口とsch: 中学校数もすべての年でデータがそろっていますね。 とりあえず、これらNAの無い変数だけのデータ…

都道府県別の婚姻件数と離婚件数のデータの分析5 - 離婚レシオは上昇傾向だが、西日本のほうが高いことは変化なし。

Photo by James Wheeler on Unsplash www.crosshyou.info の続きです。 いままでは2001年度だけのデータで分析して、西日本のほうが離婚レシオが高いとわかりました。 今回は違う年度でもそうなのか調べてみます。 まず、marとdivのデータがある行だけのデー…

都道府県別の婚姻件数と離婚件数のデータの分析4 - R言語で重回帰分析をする。1人当たり県民所得が増えると離婚レシオは低下する。

Photo by Aaron Burden on Unsplash www.crosshyou.info の続きです。 前回の分析でdiv_mar: 離婚レシオは西日本のほうが高いことがわかりました。 R言語のlm()関数で重回帰分析をしてみます。 被説明変数がdiv_marで、説明変数がlei: 旅行・レジャーの行動…

都道府県別の婚姻件数と離婚件数のデータの分析3 - 西日本のほうが離婚レシオは高く、東京、大阪、愛知、神奈川、千葉、埼玉の都会のほうが離婚レシオは低い。

Photo by Free Nature Stock on Unsplash www.crosshyou.info の続きです。 まず、あらかじめ用意してある、各地域の属性のデータを読み込みます。 east: 東日本なら1,西日本なら0のダミー変数 big6: 東京都、神奈川県、千葉県、埼玉県、愛知県、大阪府な…

都道府県別の婚姻件数と離婚件数のデータの分析2 - R言語のmutate関数でデータフレーム内の変数を組み合わせて加工したり・変換する。

Photo by Adam Śmigielski on Unsplash www.crosshyou.info の続きです。 複数のグラフを一度に表示したいので、gridExtraというパッケージを読み込みます。 続いて、各変数の密度分布グラフを描きましょう。 まず、pop: 総人口(人)です。populationのpopで…

都道府県別の婚姻件数と離婚件数のデータの分析1 - R言語にデータを取り込む。

Photo by Boris Smokrovic on Unsplash 今回は都道府県別の婚姻件数と離婚件数を調べてみます。 政府統計の総合窓口(www.e-stat.go.jp)からデータを取得します。 まず、47都道府県を選択します。 婚姻件数・離婚件数の他に総人口、県内総生産額、中学校数、…

都道府県別の通院者率のデータの分析7 - 社会体育施設数が多い都道府県ほど通院者率が低い。

Photo by Dillon Austin on Unsplash www.crosshyou.info の続きです。 今回はoldr: 65歳以上人口割合の他の変数がhosp: 人口千人当たり通院者率に影響があるかどうかを調べようと思います。 まず。各変数の観測年を確認します。 こうしてみると、hosp, worr…

都道府県別の通院者率のデータの分析6 - 高齢者割合の変化幅、通院者率の変化幅で回帰分析する。

Photo by Ricardo Gomez Angel on Unsplash www.crosshyou.info の続きです。 前回は、hosp: 通院者率をoldr: 65歳以上人口割合と年ダミーを入れて回帰分析してみました。 hosp = β0 + β1oldr + β2year + β3oldr:year + u という回帰式でした。 今回はhospと…

都道府県別の通院者率のデータの分析5 - ダミー変数(year)の交差項を入れて回帰分析をする。

Photo by Aaron Burden on Unsplash www.crosshyou.info の続きです。 前回はhosp: 人口1000人当たりの通院者率をoldr: 65歳以上人口割合(%)で回帰分析しました。oldrが1ポイント高くなると、約8人通院者率が増えることがわかりました。 今回は回帰式にyear:…

都道府県別の通院者率のデータの分析4 - R言語で単回帰分析 - 65歳以上人口割合で通院者率を回帰分析

Photo by Sana Ullah on Unsplash www.crosshyou.info の続きです。 通院者率は、oldr: 65歳以上の人口割合がと関係があるかどうかを調べてみます。 やっぱり歳をとってくると病院のお世話になることが若いときよりも多くなると思うんですよね。 oldrがある…

都道府県別の通院者率のデータの分析3 - 沖縄県が一番、通院者率が低い。

Photo by John Lee on Unsplash www.crosshyou.info の続きです。 hosp: 人口1000人当たりの通院者率は何年に調査しているのかを確認します。 1989年が一番古く、2019年が最新です。1995年と2016年は観測数が46とひとつ足りないです。 2019年では、どの都道…

都道府県別の通院者率のデータの分析2 - 各変数の経年変化を箱ひげ図に原データを重ねて表現する。

Photo by Julia Zolotova on Unsplash www.crosshyou.info の続きです。 今回は各変数の経年変化をグラフにしてみてみます。 まずは、hosp: 人口千人当たりの通院者率のデータです。 まず、summary関数で平均値などを確認します。 平均値は327.7人です。最小…

都道府県別の通院者率のデータの分析1 - R言語にデータを読み込む。

Photo by Ana Markovych on Unsplash 今回は都道府県別の通院者率のデータを分析してみようと思います。 データは、政府統計の総合窓口(e-stat)から取得しました。www.e-stat.go.jp まず、47都道府県を選択しました。 続いて、65歳以上人口割合、就業者率、…

都道府県別の仕事の平均時間のデータ分析7 - 女性の仕事の平均時間は、1人当たり県民所得が高くなると短くなる。

Photo by Xavier von Erlach on Unsplash www.crosshyou.info の続きです。 こんどは、male_m: 男性の仕事の平均時間(分)を回帰分析してみます。 P-valueが0.703ということなので、有意なモデルではないです。 step関数でモデルを単純化してみます。 female_…

都道府県別の仕事の平均時間のデータ分析4 - 海のない県のほうが、女性の仕事の平均時間/男性の仕事の平均時間 は低い。

Photo by Manson Yim on Unsplash www.crosshyou.info の続きです。 前回の分析で西日本のほうが、女性の人口(15~64歳)/男性の人口(15~64歳)の比率が高い傾向にあることがわかりました。 統計的に有意に違うのか検定してみます。 p-valueは1.125e-06とかなり…

都道府県別の仕事の平均時間のデータ分析3 - 東日本は女性(15~64歳)が少なく、西日本は多い。

Photo by Dileep M on Unsplash www.crosshyou.info の続きです。 前回、女性の仕事時間 / 男性の仕事時間 という変数をfmという名前で作りました。 女性の人口 (15~64歳)/ 男性の人口(15~64歳) の変数をfm_popという名前で作ります。 こうしてみると東日本…

都道府県別の仕事の平均時間のデータ分析2 - 男性は鹿児島県、香川県、新潟県などが長時間、女性は大分県、沖縄県、山形県などが長時間仕事をしている。

Photo by Edrick Krozendijk on Unsplash www.crosshyou.info の続きです。 男性の仕事の平均時間の長いところ、短いところはどこでしょうか? 鹿児島県、香川県、新潟県などが長い時間働いています。 山梨県、愛媛県、高知県が短いです。 同じ四国でも香川…

都道府県別の仕事の平均時間のデータ分析1 - R言語にデータを取り込む。

Photo by frank mckenna on Unsplash 今回は都道府県別の仕事の平均時間のデータを分析しようと思います。 データは、政府統計の総合窓口(www.e-stat.go.jp)から取得しました。 47の都道府県を選択します。 取得するデータは、 15~64歳人口(男)(人) 15~64歳…

都道府県別の一般病院病床利用率のデータ分析7 - より多くの観測数で回帰分析をする。(Pooling Cross Section regression)

Photo by shay cohen on Unsplash www.crosshyou.info の続きです。前回は都道府県別の平均値のデータフレームで回帰分析しましたが、今回は生のデータフレームで回帰分析してみます。 まず、変数間の散布図マトリックスをみてみます。 相関係数マトリックス…

都道府県別の一般病院病床利用率のデータ分析6 - R言語のlm()関数で回帰分析をする。医療費が高いところは病床利用率も高い。

Photo by Sajad Nori on Unsplash www.crosshyou.info の続きです。 今回は都道府県別の平均値のデータフレームを使って、回帰分析をしてみます。 まずは、east, big6, noseaというダミー変数を加えないで回帰分析してみます。 R言語のlm()関数を使います。 …

都道府県別の一般病院病床利用率のデータ分析5 - R言語で散布図マトリックスを描くのと相関係数マトリックスを作る。

Photo by Tanya Grypachevskaya on Unsplash www.crosshyou.info の続きです。 まず、R言語のgroup_by()関数とsummarize()関数を使って、年ごとの平均値を計算してみます。 2002年、2005年、2008年、2011年、2014年と3年ごとに5年間ぶんのデータがあったので…

都道府県別の一般病院病床利用率のデータ分析4 - 各変数の分布を見てskewを計算する。

Photo by Tim Mossholder on Unsplash www.crosshyou.info の続きです。 今回はriyou以外の各変数の分布をみてみます。 まずは、mitsudo: 可住地面積1平方キロメートル当たりの人数、つまり人口密度です。 右のほうに外れ値っぽい分布があるのがわかります…

都道府県別の一般病院病床利用率のデータ分析3 - 病床利用率は東日本と西日本で違いがある。

Photo by Rob Sheahan on Unsplash www.crosshyou.info の続きです。 riyou: 一般病院病床利用率(%)について、もう少しグラフをみてみます。 まずは、year: 調査年との関係です。 全体として、年を追うごとに一般病院病床利用率は低くなっていることがわかり…

都道府県別の一般病院病床利用率のデータ分析2 - gridExtra::grid.arrange()関数でグラフを並べて表示する。

Photo by L J on Unsplash www.crosshyou.info の続きです。 今回はgridExtraパッケージのgrid.arrange()関数でグラフを並べて表示できることを知ったので、忘れないように実践します。 riyou: 一般病院病床利用率(%)をグラフにします。 まずは、ヒストグラ…

都道府県別の一般病院病床利用率のデータ分析1 - R言語にデータを取り込む。

Photo by Federico Bottos on Unsplash 新型コロナウイルスの影響で病床利用率がひっ迫している、というニュースをよく見聞きしますので、普段の病床利用率はどんなものなのか調べてみようと思いました。 政府統計の総合窓口(www.e-stat.go.jp)からデータを…

都道府県別の書籍・文房具販売額データの分析5 - R言語のstargazer()関数で整った回帰分析の結果の表を作る。

Photo by Matt Anderson on Unsplash www.crosshyou.info の続きです。 前回の続きで、今度は交差項を含んだ回帰分析をします。 まずは、per_shobuをincとその他で回帰分析します。 p-valueが1.387e-13とかなり小さいの有意なモデルです。Multiple R-sauared…

都道府県別の書籍・文房具販売額データの分析4 - R言語で回帰分析。1人当たり県民所得が増えると1人当たり書籍・文房具販売額も増える。

Photo by Sam Mgrdichian on Unsplash www.crosshyou.info の続きです。 前回までの分析で気づいたことは、1人当たり県民所得が大きいところは1人当たりの書籍・文房具販売額も大きいということです。 相関係数を確認してみると、 というように相関係数は0.8…

都道府県別の書籍・文房具販売額データの分析3 - R言語でデータを可視化する

Photo by Thor Alvis on Unsplash www.crosshyou.info の続きです。 今回はR言語でデータを可視化します。 ggplot2パッケージでのチャートをいくつか作ってみます。 per_shobu: 1人当たり年間書籍・文房具販売額(千円)のチャートです。geom_barでバーチャー…

都道府県別の書籍・文房具販売額データの分析2 - R言語で基本的な記述統計量を表示する

Photo by Jan Haerer on Unsplash www.crosshyou.info の続きです。 今回は各変数の基本的な記述統計量をみてみます。 最小値はmin()関数、最大値はmax関数、平均値はmean()関数、中央値はmedian()関数、標準変数はsd()関数、パーセンタイル値は、quantile()…

都道府県別の書籍・文房具販売額データの分析1 - R言語でCSVファイルのデータを読み込む

Photo by Wil Stewart on Unsplash 今回は都道府県別の書籍・文房具の販売金額のデータを分析しようと思います。 データは政府統計の総合窓口、e-statから取得しました。(www.e-stat.go.jp) 47都道府県を選択して、 総人口、15~64歳の男性の割合、15~64歳の…