crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

データ分析

都道府県別の1住宅当たり延べ面積のデータの分析2 - R言語のデータフレームをいろいろ加工する。

www.crosshyou.info の続きです。 今回は、R言語のmutate関数を使って、mitsudo: 人口密度、per_capita17: 1人当りの県内総生産額(平成17年基準)、per_capita23: 1人当たりの県内総生産額(平成23年基準)、per_setai: 1世帯当たりの人数を作ります。 summary…

都道府県別の1住宅当たり延べ面積のデータの分析1 - R言語のread_csv関数でデータを読み込む。

今回は都道府県別の1住宅当たり延べ面積(m2)のデータを分析しようと思います。 データは、政府統計の総合窓口、e-statのサイトから取得します。 www.e-stat.go.jp 47の都道府県を選びます。 1住宅当り延べ面積に関係ありそうなデータとして、人口密度、経済…

都道府県別の健康寿命のデータの分析4 - R言語のlm関数で健康寿命を回帰分析する。経済的に豊かなほど、健康寿命は長い。

www.crosshyou.info の続きです。 今回はR言語のlm関数で、健康寿命を回帰分析してみます。 まず、na.omit関数でNAのないデータフレームを作成します。 yearとprefのlengthが47となっています。一つの調査年度だけということですね。 head関数ではじめの数行…

都道府県別の健康寿命のデータの分析2 - 健康寿命は女性のほうが長く、年を経るごとに伸びている。

www.crosshyou.info の続きです。 今回は調査年度別の健康寿命の値を見てみます。 R言語のgroup_by関数で調査年度別にグループ化してから、summarise関数の中でmean関数で平均値、sd関数で標準偏差、length関数でデータ数、qt関数などで信頼区間を計算してい…

都道府県別の健康寿命のデータの分析1 - R言語でデータを読み込む。2016年度の熊本県のデータが欠損している。

今回は都道府県別の健康寿命のデータについて調べてみようと思います。 データはいつものように、政府統計の総合窓口e-statから取得します。 データ表示 | 都道府県データ | 社会・人口統計体系 | 地域から探す | 政府統計の総合窓口 (e-stat.go.jp) 地域は4…

都道府県別の所定内給与額のデータの分析7 - R言語のlm関数で重回帰分析をする

www.crosshyou.info の続きです。今回は2017年度の男女の1日当りの所定内給与額の比率を2005年度のデータを使って重回帰分析をしてみたいと思います。 まず、filter関数をつかって2005年度だけのデータフレームを用意します。 このdf_2005というデータフレー…

都道府県別の所定内給与額のデータの分析6 - R言語のbroomパッケージを絡ませてlm関数で回帰分析をする。

www.crosshyou.info 今回は、男性の1日当りの所定内給与額と女性の1日当りの所定内給与額の回帰分析をしてみたいと思います。 Introduction to Data Science: Data Analysis and Prediction Algorithms with R (Chapman & Hall/CRC Data Science Series) (En…

都道府県別の所定内給与額のデータの分析5 - R言語で2005年度と2017年度の男女格差を比較する。var.test関数とt.test関数

www.crosshyou.info の続きです。 今回は2005年度と2017年度の男女格差を比較してみようと思います。 まず、2005年度と2017年度だけのratio: 男女の1日当りの所定内給与額の比率のデータフレームを作ります。 summary関数で概要をみてみます。 2005年度の平…

都道府県別の所定内給与額のデータの分析4- R言語で男女の給与額の格差を見る。沖縄県が一番格差が小さい。

www.crosshyou.info の続きです。 前回は男女の所定内給与額を見ました。 今回は、その比率を計算することからはじめます。 R言語のmutate関数を使います。 ratio: 男性の1日当りの所定内給与額/女性の1日当りの所定内給与額としましたので、値が大きいほど…

都道府県別の所定内給与額のデータの分析2 - R言語のggplot2でグラフを作成する。青森県の男性より、東京都の女性のほうが高給取りだ。

www.crosshyou.info の続きです。 今回はggplot2パッケージでグラフを描きます。 まずは、年度ごとの所定内給与額の平均値をみてみましょう。 青が男性で赤が女性です。 男性は1996年頃から伸びが頭打ちです。 次は、都道府県の平均値です。 こちらも青が男…

都道府県別の所定内給与額のデータの分析1 - R言語でデータを読み込む。女性の1日当りの給与額が一番バラツキが大きい。

今回は都道府県別の所定内給与データの分析をしてみたいと思います。 データは、政府統計の総合窓口(e-stat)か取得します。 www.e-stat.go.jp 47都道府県を選択して、 男女別の所定内給与額と労働日数の4つのデータを選択しました。 このようなファイルです…

都道府県別のケーブルテレビ加入世帯数のデータの分析6 - R言語で階層的クラスタリングをする。

www.crosshyou.info の続きです。 今回はR言語で階層的クラスタリングをしてみます。 まず、select関数でtv_gr: テレビ放送受信契約数の伸び, catv_gr: ケーブルテレビ加入世帯数の伸び, bb_gr: ブロードバンドサービス契約数の伸びだけを選択して、as.matri…

都道府県別のケーブルテレビ加入世帯数のデータの分析5 - ブロードバンドサービス契約数の伸びを回帰分析する。

www.crosshyou.info の続きです。 今回は、bb_gr: ブロードバンドサービス契約数の伸びを他の変数で回帰分析してみようと思います。 まず、散布図マトリックスを描いてみます。R言語のplot関数を使います。 tv_2010, catv_2010, bb_2010は分布が左右対称では…

都道府県別のケーブルテレビ加入世帯数のデータの分析4 - R言語で平均値の信頼区間をパラメトリック法とブートストラップ法で求める。

www.crosshyou.info の続きです。 前回作成した、それぞれの伸び率、tv_gr: テレビ放送受信契約数の伸び、catv_gr: ケーブルテレビ加入世帯数の伸び、 bb_gr: ブロードバンドサービス契約数の伸びの平均値の信頼区間を調べてみようと思います。 まずは、パラ…

都道府県別のケーブルテレビ加入世帯数のデータの分析3 - テレビ放送受信契約数、ケーブルテレビ加入世帯数、ブロードバンドサービス契約数、それぞれの伸びを計算する。

www.crosshyou.info の続きです。 前回は東京都のブロードバンドサービス契約数がとても大きな伸び率だとわかりました。今回は47都道府県の2010年度から2017年度のtv: テレビ放送受信契約数、catv: ケーブルテレビ加入世帯数、bb: ブロードバンドサービス契…

都道府県別のケーブルテレビ加入世帯数のデータの分析2 - 東京都のブロードバンド契約数の伸びは凄い。

www.crosshyou.info の続きです。 まず、year: 調査年度が何年度からあるのかを確認しましょう。 2010年度から2017年度までの8年間のデータがあります。 こんどは、それぞれの数値型の変数の平均値、標準偏差、変動係数の年度ごとの数値をみてみます。 tv: …

都道府県別のケーブルテレビ加入世帯数のデータの分析1 - R言語のread_csv関数でCSVファイルを読み込む。

今回は都道府県別のケーブルテレビ加入世帯数のデータの分析をしてみようと思います。 データは、政府統計の総合窓口(www.e-stat.go.jp)から取得します。 47都道府県を選択し、 ケーブルテレビ加入者世帯数の他、テレビ放送受信契約とブロードバンドサービス…

都道府県別のデジタル教科書の整備率のデータの分析6 - R言語のlm関数で回帰分析をする。高等学校のデジタル教科書の整備率は中学校のデジタル教科書の整備率と高等学校のPC台数に関連がある。

www.crosshyou.info の続きです。 前回は2017年のデータだけで回帰分析をしました。 今回はその他の調査年のデータも入れて分析してみます。 p-valueは2.2e-16より小さいので有意なモデルです。pc_hとdg_cの係数のp値が0.05で有意です。pc_hの値が低いほど、…

都道府県別のデジタル教科書の整備率のデータの分析5 - R言語のlm関数で回帰分析をする。

www.crosshyou.info の続きです。 今回はdg_h: 高等学校のデジタル教科書の整備率をその他の変数で回帰分析してみます。R言語のlm関数を使います。 p-valueは0.01039なので有意なモデルです。各変数の係数のp値を見ると、pc_h: 高等学校のPC1台当たりの児童…

都道府県別のデジタル教科書の整備率のデータの分析4 - R言語のdist関数、hclust関数、plot関数でクラスター分析

www.crosshyou.info の続きです。 今回はクラスター分析をしてみます。 まずは、データフレームをマトリックスに変換します。as.matrix関数を使います。 rownames関数でマトリックスの行名を都道府県にしました。 マトリックスにしたらあとは、簡単です。 こ…

都道府県別のデジタル教科書の整備率のデータの分析3 - R言語のrep関数とseq関数を利用して相関係数マトリックスを加工する。

www.crosshyou.info の続きです。 2017年度だけのデータフレームを作りました。 cor関数で相関係数マトリックスを作成しました。 pc_sとpc_cの相関係数は0.79と高い強い正の相関があります。dg_hとpc_hは-0.397と負の相関があります。 Rによるやさしい統計学…

都道府県別のデジタル教科書の整備率のデータの分析2 - R言語でデータを視覚化。佐賀県は中学・高校の整備率が100%

www.crosshyou.info の続きです。今回はR言語のggplot2パッケージのgeom_boxplot関数で箱ひげ図、geom_point関数で散布図、geom_line関数で折れ線グラフをつくり、データを視覚化します。 まずは、pc_s: 小学校のPC1台当たりの児童数からです。 全体的に年を…

都道府県別のデジタル教科書の整備率のデータの分析1 - R言語のread_csv関数でCSVファイルのデータを読み込む。

今回は都道府県別のデジタル教科書の整備率のデータの分析をしてみようと思います。 データは、政府統計の総合窓口(www.e-stat.go.jp)から取得しました。 47都道府県を選択し、 デジタル教科書の整備率と関連のありそうな教育用コンピュータ1台当たりの児童…

都道府県別の図書館数などのデータの分析5 - 図書館の数が増えれば図書館登録者数も増えるが。。。

www.crosshyou.info の続きです。前回作成した人口当りになおした図書館数や蔵書冊数、登録者数、貸出冊数の相関係数マトリックスをみてみます。 R言語のcorr関数です。 per_library:人口10万人当りの図書館数とper_book:一人当たりの蔵書冊数の相関係数は0.…

都道府県別の図書館数などのデータの分析4 - 人口10万人当りの図書館数は山梨県が一番多い。

www.crosshyou.info の続きです。 前回までで、人口1人当りの蔵書冊数や人口10万人当りの図書館数を計算したので、このデータをつかって、どこの都道府県が人口当りの図書館数が多いのかなどを調べましょう。 はじめはper_library:人口10万人当りの図書館数…

都道府県別の図書館数などのデータの分析3 - R言語で一人当たりの蔵書冊数などを計算する。

www.crosshyou.info の続きです。 前回の分析で東京都が図書館の数や蔵書冊数など圧倒的なことがわかりました。 今回は一人当たりの数に直して分析してみます。 まずは、政府統計の総合窓口(www.e-stat.go.jp)から人口のデータをダウンロードします。 47都道…

都道府県別の図書館数などのデータの分析2 - R言語で各データを可視化する。ggplot2のgeom_bar関数とgeom_hist関数。

www.crosshyou.info の続きです。 今回はデータを可視化して、どの都道府県が図書館が多いのか少ないのか、データの分布形状はどうなっているのかを見てみます。 まずは、library:図書館数です。ggplot2のgeom_bar関数を使います。 mutate(pref = reorder(pr…

都道府県別の図書館数などのデータの分析1 - R言語にCSVファイルのデータを読み込む。2014年度と2015年度の調査データを利用する。

今回は都道府県別の図書館数などのデータを調べてみます。 政府統計の総合窓口(www.e-stat.go.jp)からデータを取得しました。 47の都道府県を選択して、 図書館数、図書館蔵書数、図書館登録者数、図書館外貸出冊数の4つのデータを選択しました。 このよう…

都道府県別の旅行・行楽の年間行動者率のデータの分析6 - R言語のgam関数でGeneralized Additive Modelで回帰分析

www.crosshyou.info 今回はGeneralized Additive Modelで回帰分析をします。 まず、mgcvパッケージの読み込みからです。 gam関数でGeneralized Additive Modelによる回帰分析を実行します。 R-sq.(adj)が0.796となっています。k = 3はパラメータなのですが、…

都道府県別の旅行・行楽の年間行動者率のデータの分析5 - R言語のlm関数で線形回帰分析をする。

www.crosshyou.info の続きです。前回は回帰分析をするつもりが、モンテカルロシミュレーションになってしまいました。 今回は回帰分析をします。 R言語のlm関数です。 p-valueは1.047e-10なので有意なモデルです。 foreign = -16.2938 + 0.304 x travel と…