2021-01-01から1ヶ月間の記事一覧
今回は都道府県別のケーブルテレビ加入世帯数のデータの分析をしてみようと思います。 データは、政府統計の総合窓口(www.e-stat.go.jp)から取得します。 47都道府県を選択し、 ケーブルテレビ加入者世帯数の他、テレビ放送受信契約とブロードバンドサービス…
www.crosshyou.info の続きです。 今回はR言語のglm関数でロジスティクス回帰分析をします。よく考えたら、整備率のデータは0%か100%と、取り得る値の範囲が決まっていますから、lm関数で単純な線形回帰よりもglm関数でロジスティクス回帰分析をしてほうが当…
www.crosshyou.info の続きです。 前回は2017年のデータだけで回帰分析をしました。 今回はその他の調査年のデータも入れて分析してみます。 p-valueは2.2e-16より小さいので有意なモデルです。pc_hとdg_cの係数のp値が0.05で有意です。pc_hの値が低いほど、…
www.crosshyou.info の続きです。 今回はdg_h: 高等学校のデジタル教科書の整備率をその他の変数で回帰分析してみます。R言語のlm関数を使います。 p-valueは0.01039なので有意なモデルです。各変数の係数のp値を見ると、pc_h: 高等学校のPC1台当たりの児童…
www.crosshyou.info の続きです。 今回はクラスター分析をしてみます。 まずは、データフレームをマトリックスに変換します。as.matrix関数を使います。 rownames関数でマトリックスの行名を都道府県にしました。 マトリックスにしたらあとは、簡単です。 こ…
www.crosshyou.info の続きです。 2017年度だけのデータフレームを作りました。 cor関数で相関係数マトリックスを作成しました。 pc_sとpc_cの相関係数は0.79と高い強い正の相関があります。dg_hとpc_hは-0.397と負の相関があります。 Rによるやさしい統計学…
www.crosshyou.info の続きです。今回はR言語のggplot2パッケージのgeom_boxplot関数で箱ひげ図、geom_point関数で散布図、geom_line関数で折れ線グラフをつくり、データを視覚化します。 まずは、pc_s: 小学校のPC1台当たりの児童数からです。 全体的に年を…
今回は都道府県別のデジタル教科書の整備率のデータの分析をしてみようと思います。 データは、政府統計の総合窓口(www.e-stat.go.jp)から取得しました。 47都道府県を選択し、 デジタル教科書の整備率と関連のありそうな教育用コンピュータ1台当たりの児童…
www.crosshyou.info の続きです。前回作成した人口当りになおした図書館数や蔵書冊数、登録者数、貸出冊数の相関係数マトリックスをみてみます。 R言語のcorr関数です。 per_library:人口10万人当りの図書館数とper_book:一人当たりの蔵書冊数の相関係数は0.…
www.crosshyou.info の続きです。 前回までで、人口1人当りの蔵書冊数や人口10万人当りの図書館数を計算したので、このデータをつかって、どこの都道府県が人口当りの図書館数が多いのかなどを調べましょう。 はじめはper_library:人口10万人当りの図書館数…
www.crosshyou.info の続きです。 前回の分析で東京都が図書館の数や蔵書冊数など圧倒的なことがわかりました。 今回は一人当たりの数に直して分析してみます。 まずは、政府統計の総合窓口(www.e-stat.go.jp)から人口のデータをダウンロードします。 47都道…
www.crosshyou.info の続きです。 今回はデータを可視化して、どの都道府県が図書館が多いのか少ないのか、データの分布形状はどうなっているのかを見てみます。 まずは、library:図書館数です。ggplot2のgeom_bar関数を使います。 mutate(pref = reorder(pr…
今回は都道府県別の図書館数などのデータを調べてみます。 政府統計の総合窓口(www.e-stat.go.jp)からデータを取得しました。 47の都道府県を選択して、 図書館数、図書館蔵書数、図書館登録者数、図書館外貸出冊数の4つのデータを選択しました。 このよう…
www.crosshyou.info 今回はGeneralized Additive Modelで回帰分析をします。 まず、mgcvパッケージの読み込みからです。 gam関数でGeneralized Additive Modelによる回帰分析を実行します。 R-sq.(adj)が0.796となっています。k = 3はパラメータなのですが、…
www.crosshyou.info の続きです。前回は回帰分析をするつもりが、モンテカルロシミュレーションになってしまいました。 今回は回帰分析をします。 R言語のlm関数です。 p-valueは1.047e-10なので有意なモデルです。 foreign = -16.2938 + 0.304 x travel と…
www.crosshyou.info の続きです。 今回はR言語のlm関数で回帰分析をしてみます。 response variableはforeign:海外旅行の年間行動者率、explanatory variableはtravel:旅行・行楽の年間行動者率にしてみます。 まずは、簡単にplot関数でX軸をtravel, Y軸をfo…
www.crosshyou.info の続きです。前回のグラフで、旅行・行楽の年間行動者率は年度によって違いは無い感じでしたが、海外旅行は違いがある感じでした。 ANOVA分析で確認してみます。aov関数とanova関数を使います。 p値が0.2539と0.05よりも大きいです。 年…
www.crosshyou.info の続きです。 まずはグラフにして、データの様子を見てみましょう。 ggplot2パッケージのgeom_boxplot関数で箱ひげ図、geom_point関数で散布図を描きます。 2001年が少し全体として低い感じですね。どの年にも下方にポツンと一つ値の低い…
今回は、都道府県別の旅行・行楽の年間行動者率のデータを調べてみようと思います。 データは政府統計の総合窓口(www.e-stat.go.jp)から取得しました。 47の都道府県を選択し、 15歳以上の旅行・行楽の年間行動者率と海外旅行の年間行動者率を選択します。 …
www.crosshyou.info の続きです。 select関数で、支持率だけのデータフレームを作りました。 apply関数で各調査機関の平均支持率を追加しました。 歴代内閣の中で、発足時支持率の最も高かった内閣は何でしょうか? 小泉内閣が平均支持率81.84%で一番でした…
今回はR言語でウィキペディアの内閣支持率のデータをスクレイピングしてみたいと思います。 内閣支持率 - Wikipedia こういう表のデータです。 Introduction to Data Science: Data Analysis and Prediction Algorithms with R (Chapman & Hall/CRC Data Sci…
www.crosshyou.info の続きです。 今回はR言語で主成分分析(PCA)をしてみようと思います。 まず、datというデータフレームから平均値だけのデータフレームにします。 次に、typeはもう平均値だけなので必要ないのでtypeを削除します。 tapply関数を使って、e…
www.crosshyou.info の続きです。 今回はカルシウムを見てみます。 はっきりした傾向は無いようですが、2014年に大きく落ち込んだ地域が二つありますね。どこでしょうか? 2014年は近畿2と南九州が落ち込んでいたのですね。四国が一番多くカルシウムを摂取し…
www.crosshyou.infoの続きです。 今回は炭水化物エネルギー比率に注目してみます。 地域ブロック別の推移をグラフにしてみます。 2014年から2015年のところでガクンと比率が落ちている感じですね。 2012年から2014年までの平均値と、2015年から2017年の平均…
www.crosshyou.infoの続きです。 前回でデータを整理整頓しましたが、やり残していましたので、もう少しやります。 eiyousoのところの【人】や【kcal】を独立させて、unitというコラム名にしようと思います。 separate関数で【で二つに分けたあと、str_remov…