crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

データ分析

都道府県別の後期高齢者医療制度被保険者実態調査のデータ分析6 - R言語のstargazer()関数で回帰分析の結果を美しく出力する。

Photo by Taisiia Shestopal on Unsplash www.crosshyou.info の続きです。 今回はlm()関数で回帰分析をして、その結果をstargazer()関数で美しく出力してみたいと思います。 shotoku_1617: 所得の2016年から2017年の変化幅を被説明変数にして、その他の変数…

都道府県別の後期高齢者医療制度被保険者実態調査のデータ分析5 - 所得の変化幅をt.test()関数でt検定する。

Photo by Lesly Juarez on Unsplash www.crosshyou.info このブログは、上のブログの続きです。 今回は所得の変化幅をもう少し詳しくみてみます。 まずは、big6との関係を見てみます。 2016年から2017年の所得の変化幅は、big6は1万2千円、そうでないところ…

都道府県別の後期高齢者医療制度被保険者実態調査のデータ分析4 - 各変数の変化幅を計算してグラフにする。

Photo by Karsten Winegeart on Unsplash www.crosshyou.info の続きです。 今回は前回作成したワイド型のデータフレームを使って、各データの変化幅を計算していましょう。 mutate()関数を使います。 select()関数とsummary()関数を使って各変化幅のサマリ…

都道府県別の後期高齢者医療制度被保険者実態調査のデータ分析3 - R言語でロング型のデータフレームをワイド型に変換する。

Photo by Sharon Pittaway on Unsplash www.crosshyou.info このブログは上のブログの続きです。 今回はR言語のでロング型のデータフレームをワイド型に変換しようと思います。 ロング型のデータフレームは、 このように「科目」の列と「点数」で一つのデー…

都道府県別の後期高齢者医療制度被保険者実態調査のデータ分析2 - R言語でヒストグラム、箱ひげ図、散布図を描く。

Photo by JUNHØ on Unsplash www.crosshyou.info このブログは上のブログの続きです。 今回はデータをグラフにして視覚化しましょう。 まずは、ヒストグラムです。geom_histogram()関数を使います。 shotokuからいきます。 右端に離れ小島のように高額所得の…

都道府県別の後期高齢者医療制度被保険者実態調査のデータの分析1 - R言語にデータを読み込む。

Photo by Manuel Sardo on Unsplash 今回は都道府県別の後期高齢者医療制度被保険者実態調査のデータを分析してみようと思います。データは、政府統計の総合窓口(www.e-stat.go.jp)から取得しました。 この中から、都道府県別1人当たり所得額・保険料調定額…

都道府県別のバスのデータの分析6 - バス会社の数を人口や県内総生産額などで回帰分析する

Photo by MusicFox Fx on Unsplash www.crosshyou.info 前回は差分でバス会社の数と人口や県内総生産額の回帰分析をしました。人口が10万増加すると、バス会社が8社増えるという関係でした。なんかそんなに増えるのか!という感じがします。 今回はもともと…

都道府県別のバスのデータの分析5 - 2001年のデータと2013年のデータの差分を回帰分析する。Breush-Pegan検定も実行。

Photo by david Griffiths on Unsplash www.crosshyou.info の続きです。 今回は前回作成した、2001年と2013年の差分のデータで回帰分析をしてみようと思います。 まず。各変数の散布図をみてみます。 firm_pop_diffとfirm_gdp_diffは非常に相関が強いですね…

都道府県別のバスのデータの分析4 - 2001年のデータと2013年のデータを比較する。

Photo by Brady Stoeltzing on Unsplash www.crosshyou.info の続きです。 前回の分析で、山梨県や島根県が人口や経済規模のわりにバス会社の数が多いことがわかりました。 今回は最新年の2013年と一番古い年の2001年でどれだけ各データが変化したのか見てみ…

都道府県別のバスのデータの分析3 - 人口当たり、県内総生産額当たりのバス会社数を調べる。東の横綱は山梨県、西の横綱は島根県。

Photo by Ernest Brillo on Unsplash www.crosshyou.info の続きです。 今回は、都道府県別の平均値を見てみます。 まずは、pop: 総人口(人)の平均値です。 明るい色は東日本、暗い色は西日本の都道府県を表しています。 東日本のほうが人口は多い傾向ですね…

都道府県別のバスのデータの分析2 - R言語で年ごとのバス会社の数の推移を見る。増加傾向にあることがわかる。

Photo by Johannes Plenio on Unsplash www.crosshyou.info の続きです。 前回までで、pop: 総人口の他はNAがあることがわかりました。とりあえず。各変数の一番新しい年がいつなのかを確認します。 まず、gdp: 県内総生産額は一番新しい年はいつのデータで…

都道府県別のバスのデータの分析1 - R言語でデータを読み込む。read_csv()関数やinner_join()関数などを使う。

Photo by Boris Smokrovic on Unsplash 今回は都道府県別のバスのデータを分析してみます。 政府統計の総合窓口(www.e-stat.go.jp)からデータを取得します。 まず、47都道府県を選択します。 選択したデータは、総人口(人)、県内総生産額(平成17年基準・百万…

都道府県別の献血者数のデータの分析6 - やっぱりボランティア行動者率が上昇すると、献血者率が下がる。

Photo by dilara harmanci on Unsplash www.crosshyou.info の続きです。 今回は、回帰分析の説明変数に2006年の献血者率を加えて、2011年の献血者率を回帰分析してみようと思います。 blood_popをblood_pop_2016と名前を変更しておきましょう。 続いて、201…

都道府県別の献血者数のデータの分析5 - R言語のlm関数で献血者率を回帰分析する。一人当たり県内総生産額が高いほうが献血者率が高い。ボランティア行動者率が高いほうが献血者率が低い。

Photo by Anton Maksimov juvnsky on Unsplash www.crosshyou.info の続きです。 今回は献血者率を他の変数で回帰分析してみましょう。 いままでの分析結果から、2006年と2011年では献血者率が違う、東日本と西日本では献血者率が違うなどがわかりました。 …

都道府県別の献血者数のデータの分析4 - R言語のgeom_point()関数とgeom_smotth()関数で散布図を描き、回帰直線を重ねる。

Photo by Tanner Geringer on Unsplash www.crosshyou.info の続きです。 今回は献血者数と各数値データの関係を見ていきましょう。 はじめは対数変換した人口との関係です。 geom_point()関数で散布図を描いて、geom_smooth(metho = "lm")で線形回帰の直線…

都道府県別の献血者数のデータの分析3 - 人口と県内総生産額は対数変換したほうが正規分布に近づく。

Photo by Christoph von Gellhorn on Unsplash www.crosshyou.info の続きです。 こんどか東日本と西日本の献血者率をみてみます。 0が西日本なので、西日本のほうが少し高いです。 geom_density()関数で密度分布グラフをみてみます。 西日本のほうが献血者…

都道府県別の献血者数のデータの分析2 - t検定によると、2011年のほうが2006年よりも献血者率は高くなっていることがわかる。

Photo by Robin Schreiner on Unsplash www.crosshyou.info の続きです。 まずは、人口当たり何%の人が献血をしているのかを計算しましょう。 最小値は3.054%、最大値は5.254%、平均値は4.067%、中央値は4.129%です。 ヒストグラムを描いてみます。 すこし偏…

都道府県別の献血者数のデータの分析1 - R言語のread_csv()関数でデータを読み込む。

Photo by HalGatewood.com on Unsplash 今回は都道府県別の献血者数のデータを分析しようと思います。 まず、政府統計の総合窓口(www.e-stat.go.jp)からデータをダウンロードします。 47の都道府県を選択し、 総人口、県内総生産額、献血者数、ボランティア…

都道府県別の県議会議員の所属政党のデータの分析5 - 女性議員比率をR言語のlm関数で回帰分析

www.crosshyou.info 今回は女性議員の比率を他の変数で回帰分析してみます。R言語のlm関数を使います。 f_jimin: 自民党の女性議員の数、f_kyosan: 共産党の女性議員の数が有意な変数です。 自民党の女性議員の数が1人増えると、女性議員の比率は、0.0146、…

都道府県別の県議会議員の所属政党のデータの分析4 - 自民党議員の比率の高い都道府県・低い都道府県。大阪府は特別に低い。

www.crosshyou.info の続きです。 今回は自民党議員の比率をみてみます。 まず、mutate関数で自民党議員の比率の変数: jimin_ratioを作りました。 早速比率の高い都道府県をみてみましょう。 富山県が80%で一番高い比率です。熊本県、鹿児島県、香川県と続き…

都道府県別の県議会議員の所属政党のデータの分析3 - 女性議員比率の高い都道府県、低い都道府県はどこか。東京都の女性議員比率は特別高い。

www.crosshyou.info の続きです。 前回の分析で全国の女性議員比率はわずか11%だとわかりました。 今回は具体的にどの都道府県が女性議員比率が高いのか、低いのかをみていきましょう。 まずはじめにmutate関数で女性議員比率を表す変数: f_ratioを作成しま…

都道府県別の県議会議員の所属政党のデータの分析2 - 女性議員比率は全国合計でわずか11%

www.crosshyou.info の続きです。 まず、どの政党の議員が多いのか少ないのか、colSums関数で各変数の合計値を見てみましょう。 m_jimin: 男性の自民党が1237人で一番多いようですね。わかりやすいようにグラフにしてみます。 m_jimin: 男性の自民党、m_mush…

都道府県別の県議会議員の所属政党のデータの分析1 - R言語のread.csv関数でデータを読み込む。

今回は都道府県別の県議会議員の所属政党のデータの分析をしてみようと思います。 政府統計の総合窓口(www.e-stat.go.jp)からデータをダウンロードしました。 新着となっているところをクリックしたところ、下の画像のようになります。 所属党員別人員調(R2.…

都道府県別の食品営業施設処分件数のデータの分析6 - R言語で重回帰分析をしたが、どの説明変数も有意ではなく結局、平均値が一番となった。

www.crosshyou.info の続きです。 前回はper_shobun: 食品営業施設当たりの処分件数をshishutsu: 消費支出で回帰分析しました。 今回はさらに変数を加えて回帰分析をしたいと思います。 はじめに、都道府県ごとの平均値のデータフレームを作りました。 この…

都道府県別の食品営業施設処分件数のデータの分析5 - R言語で単回帰分析と多項式線形回帰分析をする

www.crosshyou.info の続きです。 今回はR言語のlm関数を使って、単回帰分析と多項式線形回帰分析をしてみます。 まずは、変数同士の散布図をみてみます。 相関係数マトリックスもみてみます。 per_shobun: 食品営業施設当たりの処分件数と一番相関の強いの…

都道府県別の食品営業施設処分件数のデータの分析4 - 昔のほうが処分件数はあきらかに多かった。

www.crosshyou.info の続きです。 前回のグラフで、最近のほうが食品営業施設当たりの処分件数はバラツキが小さく、件数も低いことがわかりました。 そのことを検定してみましょう。 1975年から1980年までの6年間のper_shobun: 食品営業施設当たりの処分件数…

都道府県別の食品営業施設処分件数のデータの分析3 - 1977年の長野県は処分件数が異常に多かった。

www.crosshyou.info の続きです。 per_shobun: 食品営業施設当たりの処分件数のサマリを見てみます。 最小値は0、最大値は14.61、中央値は0.198、平均値は0.463です。 最大値の14.61は異常に大きいですよね。。 何年のどこの都道府県なのか確認しましょう。 …

都道府県別の食品営業施設処分件数のデータの分析2 - R言語のgeom_histogram関数でヒストグラムを描く。

www.crosshyou.info の続きです。 今回はR言語のggplot2パッケージでグラフをいくつか描いてみます。 まず、geom_histogram関数でヒストグラムを描きます。 一部、大きな数のデータがありますね。X軸を対数目盛にしてみます。 scale_x_log10()を加えると、X…

都道府県別の食品営業施設処分件数のデータの分析1- R言語のread_csv関数でデータを読み込む。

今回は都道府県別の食品営業施設処分件数の分析をします。 まず、政府統計の総合窓口(www.e-stat.go.jp)からデータをダウンロードします。 47都道府県を選択します。 総人口(人)、食品営業施設数(所)、食品営業施設処分件数(件)、消費支出(全世帯)(円)を選択…

都道府県別の消費者物価指数・教養娯楽のデータの分析8 - R言語のsvm関数でSupport Vector Machine Regressionをする。

www.crosshyou.info の続きです。 今回はR言語のsvm関数でSupport Vector Machine Regressionをしてみます。 まず、e1071パッケージの読み込みをします。 svm関数でモデルを作ります。 summary関数で結果をみてみます。 あんまりよくわからない出力ですが、…