www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2021-01-01から1ヶ月間の記事一覧

都道府県別のケーブルテレビ加入世帯数のデータの分析1 - R言語のread_csv関数でCSVファイルを読み込む。

今回は都道府県別のケーブルテレビ加入世帯数のデータの分析をしてみようと思います。 データは、政府統計の総合窓口(www.e-stat.go.jp)から取得します。 47都道府県を選択し、 ケーブルテレビ加入者世帯数の他、テレビ放送受信契約とブロードバンドサービス…

都道府県別のデジタル教科書の整備率のデータの分析7 - R言語のglm関数でロジスティクス回帰分析をする。

www.crosshyou.info の続きです。 今回はR言語のglm関数でロジスティクス回帰分析をします。よく考えたら、整備率のデータは0%か100%と、取り得る値の範囲が決まっていますから、lm関数で単純な線形回帰よりもglm関数でロジスティクス回帰分析をしてほうが当…

都道府県別のデジタル教科書の整備率のデータの分析6 - R言語のlm関数で回帰分析をする。高等学校のデジタル教科書の整備率は中学校のデジタル教科書の整備率と高等学校のPC台数に関連がある。

www.crosshyou.info の続きです。 前回は2017年のデータだけで回帰分析をしました。 今回はその他の調査年のデータも入れて分析してみます。 p-valueは2.2e-16より小さいので有意なモデルです。pc_hとdg_cの係数のp値が0.05で有意です。pc_hの値が低いほど、…

都道府県別のデジタル教科書の整備率のデータの分析5 - R言語のlm関数で回帰分析をする。

www.crosshyou.info の続きです。 今回はdg_h: 高等学校のデジタル教科書の整備率をその他の変数で回帰分析してみます。R言語のlm関数を使います。 p-valueは0.01039なので有意なモデルです。各変数の係数のp値を見ると、pc_h: 高等学校のPC1台当たりの児童…

都道府県別のデジタル教科書の整備率のデータの分析4 - R言語のdist関数、hclust関数、plot関数でクラスター分析

www.crosshyou.info の続きです。 今回はクラスター分析をしてみます。 まずは、データフレームをマトリックスに変換します。as.matrix関数を使います。 rownames関数でマトリックスの行名を都道府県にしました。 マトリックスにしたらあとは、簡単です。 こ…

都道府県別のデジタル教科書の整備率のデータの分析3 - R言語のrep関数とseq関数を利用して相関係数マトリックスを加工する。

www.crosshyou.info の続きです。 2017年度だけのデータフレームを作りました。 cor関数で相関係数マトリックスを作成しました。 pc_sとpc_cの相関係数は0.79と高い強い正の相関があります。dg_hとpc_hは-0.397と負の相関があります。 Rによるやさしい統計学…

都道府県別のデジタル教科書の整備率のデータの分析2 - R言語でデータを視覚化。佐賀県は中学・高校の整備率が100%

www.crosshyou.info の続きです。今回はR言語のggplot2パッケージのgeom_boxplot関数で箱ひげ図、geom_point関数で散布図、geom_line関数で折れ線グラフをつくり、データを視覚化します。 まずは、pc_s: 小学校のPC1台当たりの児童数からです。 全体的に年を…

都道府県別のデジタル教科書の整備率のデータの分析1 - R言語のread_csv関数でCSVファイルのデータを読み込む。

今回は都道府県別のデジタル教科書の整備率のデータの分析をしてみようと思います。 データは、政府統計の総合窓口(www.e-stat.go.jp)から取得しました。 47都道府県を選択し、 デジタル教科書の整備率と関連のありそうな教育用コンピュータ1台当たりの児童…

都道府県別の図書館数などのデータの分析5 - 図書館の数が増えれば図書館登録者数も増えるが。。。

www.crosshyou.info の続きです。前回作成した人口当りになおした図書館数や蔵書冊数、登録者数、貸出冊数の相関係数マトリックスをみてみます。 R言語のcorr関数です。 per_library:人口10万人当りの図書館数とper_book:一人当たりの蔵書冊数の相関係数は0.…

都道府県別の図書館数などのデータの分析4 - 人口10万人当りの図書館数は山梨県が一番多い。

www.crosshyou.info の続きです。 前回までで、人口1人当りの蔵書冊数や人口10万人当りの図書館数を計算したので、このデータをつかって、どこの都道府県が人口当りの図書館数が多いのかなどを調べましょう。 はじめはper_library:人口10万人当りの図書館数…

都道府県別の図書館数などのデータの分析3 - R言語で一人当たりの蔵書冊数などを計算する。

www.crosshyou.info の続きです。 前回の分析で東京都が図書館の数や蔵書冊数など圧倒的なことがわかりました。 今回は一人当たりの数に直して分析してみます。 まずは、政府統計の総合窓口(www.e-stat.go.jp)から人口のデータをダウンロードします。 47都道…

都道府県別の図書館数などのデータの分析2 - R言語で各データを可視化する。ggplot2のgeom_bar関数とgeom_hist関数。

www.crosshyou.info の続きです。 今回はデータを可視化して、どの都道府県が図書館が多いのか少ないのか、データの分布形状はどうなっているのかを見てみます。 まずは、library:図書館数です。ggplot2のgeom_bar関数を使います。 mutate(pref = reorder(pr…

都道府県別の図書館数などのデータの分析1 - R言語にCSVファイルのデータを読み込む。2014年度と2015年度の調査データを利用する。

今回は都道府県別の図書館数などのデータを調べてみます。 政府統計の総合窓口(www.e-stat.go.jp)からデータを取得しました。 47の都道府県を選択して、 図書館数、図書館蔵書数、図書館登録者数、図書館外貸出冊数の4つのデータを選択しました。 このよう…

都道府県別の旅行・行楽の年間行動者率のデータの分析6 - R言語のgam関数でGeneralized Additive Modelで回帰分析

www.crosshyou.info 今回はGeneralized Additive Modelで回帰分析をします。 まず、mgcvパッケージの読み込みからです。 gam関数でGeneralized Additive Modelによる回帰分析を実行します。 R-sq.(adj)が0.796となっています。k = 3はパラメータなのですが、…

都道府県別の旅行・行楽の年間行動者率のデータの分析5 - R言語のlm関数で線形回帰分析をする。

www.crosshyou.info の続きです。前回は回帰分析をするつもりが、モンテカルロシミュレーションになってしまいました。 今回は回帰分析をします。 R言語のlm関数です。 p-valueは1.047e-10なので有意なモデルです。 foreign = -16.2938 + 0.304 x travel と…

都道府県別の旅行・行楽の年間行動者率のデータの分析4 - R言語のsample関数とfor関数でモンテカルロシミュレーション

www.crosshyou.info の続きです。 今回はR言語のlm関数で回帰分析をしてみます。 response variableはforeign:海外旅行の年間行動者率、explanatory variableはtravel:旅行・行楽の年間行動者率にしてみます。 まずは、簡単にplot関数でX軸をtravel, Y軸をfo…

都道府県別の旅行・行楽の年間行動者率のデータの分析3 - 年度によってデータに違いはあるのかR言語のANOVA分析で確認する。

www.crosshyou.info の続きです。前回のグラフで、旅行・行楽の年間行動者率は年度によって違いは無い感じでしたが、海外旅行は違いがある感じでした。 ANOVA分析で確認してみます。aov関数とanova関数を使います。 p値が0.2539と0.05よりも大きいです。 年…

都道府県別の旅行・行楽の年間行動者率のデータの分析2 - 沖縄県民は旅行・行楽はあまり行かない。

www.crosshyou.info の続きです。 まずはグラフにして、データの様子を見てみましょう。 ggplot2パッケージのgeom_boxplot関数で箱ひげ図、geom_point関数で散布図を描きます。 2001年が少し全体として低い感じですね。どの年にも下方にポツンと一つ値の低い…

都道府県別の旅行・行楽の年間行動者率のデータの分析1 - R言語のread_csv関数でデータを読み込む。

今回は、都道府県別の旅行・行楽の年間行動者率のデータを調べてみようと思います。 データは政府統計の総合窓口(www.e-stat.go.jp)から取得しました。 47の都道府県を選択し、 15歳以上の旅行・行楽の年間行動者率と海外旅行の年間行動者率を選択します。 …

内閣支持率のデータの分析2 - R言語で各調査機関の違いをANOVA分析で調べる。読売と日経は優しめ、時事は厳しめ。

www.crosshyou.info の続きです。 select関数で、支持率だけのデータフレームを作りました。 apply関数で各調査機関の平均支持率を追加しました。 歴代内閣の中で、発足時支持率の最も高かった内閣は何でしょうか? 小泉内閣が平均支持率81.84%で一番でした…

内閣支持率のデータの分析1 - R言語でウィキペディアの表をスクレイピングする。

今回はR言語でウィキペディアの内閣支持率のデータをスクレイピングしてみたいと思います。 内閣支持率 - Wikipedia こういう表のデータです。 Introduction to Data Science: Data Analysis and Prediction Algorithms with R (Chapman & Hall/CRC Data Sci…

地域ブロック別の栄養素等摂取量のデータ分析5 - R言語で主成分分析(PCA)をする。

www.crosshyou.info の続きです。 今回はR言語で主成分分析(PCA)をしてみようと思います。 まず、datというデータフレームから平均値だけのデータフレームにします。 次に、typeはもう平均値だけなので必要ないのでtypeを削除します。 tapply関数を使って、e…

地域ブロック別の栄養素等摂取量のデータの分析4 - 地域別、年度別のカルシウム摂取量を見てみる。

www.crosshyou.info の続きです。 今回はカルシウムを見てみます。 はっきりした傾向は無いようですが、2014年に大きく落ち込んだ地域が二つありますね。どこでしょうか? 2014年は近畿2と南九州が落ち込んでいたのですね。四国が一番多くカルシウムを摂取し…

地域ブロック別の栄養素等摂取量のデータの分析3 - 炭水化物エネルギー比率は全ての地域ブロックで低下している。

www.crosshyou.infoの続きです。 今回は炭水化物エネルギー比率に注目してみます。 地域ブロック別の推移をグラフにしてみます。 2014年から2015年のところでガクンと比率が落ちている感じですね。 2012年から2014年までの平均値と、2015年から2017年の平均…

地域ブロック別の栄養素等摂取量のデータの分析2 - 北海道が一番摂取カロリーは低い。

www.crosshyou.infoの続きです。 前回でデータを整理整頓しましたが、やり残していましたので、もう少しやります。 eiyousoのところの【人】や【kcal】を独立させて、unitというコラム名にしようと思います。 separate関数で【で二つに分けたあと、str_remov…