Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2020-05-01から1ヶ月間の記事一覧

東京都の新型コロナ陽性者数のデータ分析2 - R言語のtable関数を使い各変数で集計する。

www.crosshyou.infoの続きです。 今回はR言語のtable関数を使って集計をしてみます。 まずは公表_日付で集計しました。 数が多いですから、plot関数でグラフにします。 テレビでよく見るようなグラフになりました。 曜日で集計してみます。 曜日の順番がバラ…

東京都の新型コロナ陽性者数のデータ分析1 - R言語でCSVファイルを読み込む。sprtime関数でファクターから日付に変換する。

知人から「日本学術会議ニュース・メール」というのが転送されてきました。 各都道府県データリストのURLが記載されていましたので、アクセスしてみました。 Links to Raw Case Data by Each Prefecture |日本学術会議 このように、東京都の陽性者数のデー…

GDPギャップのデータ分析6 - GDPギャップを潜在成長率と資本投入と労働投入で回帰分析をする。」

www.crosshyou.info の続きです。 GDPギャップを回帰分析してみましょう。 R言語のlm関数を使います p-valueは3.126e-07と0.05よりも小さいので有意なモデルです。 InterceptはP値が0.05よりも大きいですね。削除してみます。 update関数で、-1とすれば切片…

GDPギャップのデータ分析5 - GDPギャップと相関関係のある変数をR言語のcor.test関数で調べる。

www.crosshyou.infoの続きです。 各変数間の散布図マトリックスをみてみます。 R言語のpairs関数で散布図マトリックスを描きます。散らばっているというよりは、ぐにゃぐにゃしている感じですね。 cor関数で相関係数マトリックスをみてみます。 GDPギャップ…

GDPギャップのデータ分析4 - 80年台、90年台、2000年台、2010年台と10年ごとの年台で差があるのか。

www.crosshyou.infoの続きです。 前回は四半期ごとの違いはありませんでした。 今回は、1980年台、1990年台、2000年台、2010年台と10年ごとに区切った年台ごとに差があるかどうかを調べます。 まず、年台を表す変数を作成します。 こうして作成したdf$Nendai…

GDPギャップのデータ分析3 - 第1四半期、第2四半期、第3四半期、第4四半期で差があるのか

www.crosshyou.infoの続きです。今回は第1四半期、第2四半期、第3四半期、第4四半期で差があるのかどうかを調べようと思います。 R言語のaov関数とsummary関数を使います。 GDPギャップからみていきます。 Pr(>F)が0.997ですから四半期によってGDPギャップに…

GDPギャップのデータ分析2 - R言語でグラフを描く

www.crosshyou.info の続きです。 今回はそれぞれのデータのグラフを描いてみます。plot関数を使います。 GDPギャップのグラフです。マイナスの時が多いようです。 GDPの潜在成長率のグラフです。最近は1%のちょっと下あたりです。 TFPのグラフです。長期的…

GDPギャップのデータの分析1 - R言語でデータを読み込む

今回から、GDPギャップのデータを分析しようと思います。 月例経済報告 - 内閣府 のサイトからExcelファイルを取得しました。 このようなファイルでした。 このようなCSVファイルにしました。これをR言語のread.csv関数で読み込みます。 read.csv関数でデー…

全国主要都市の第1次、第2次、第3次産業就業者数のデータ分析8 - 1人当り課税所得の変化幅を回帰分析する。

www.crosshyou.info 今回はchgperInc, 1人当り課税所得の変化幅を他の変数で回帰分析してみようと思います。 前回の散布図マトリックスから、直線的な相関関係というよりは複雑な関係がありそうなので、交差項や2乗項を入れて回帰分析してみます。 step関数…

全国主要都市の第1次、第2次、第3次産業就業者数のデータ分析7 - R言語でヒストグラムや箱ひげ図を描く

www.crosshyou.info の続きです。 今回は前回作成した変化幅の変数をヒストグラムや箱ひげ図でグラフにします。 まず、作成した5つの変化幅の変数を一つのデータフレームにまとめます。R言語のdata.frame関数を使います。 summary関数で各変数の平均値などを…

全国主要都市の第1次、第2次、第3次産業就業者数のデータ分析6 - 1985年から2015年の30年間で第2次産業から第3次産業へと就業者が移動している。

www.crosshyou.info の続きです。 今回は2015年と昔の年を比較して、どのように変化してきたか調べてみます。 まずはYearを確認します。 1985年度が一番古いです。1985年度と2015年度でどれだけ変化があったかを調べます。 まずは人口密度から調べます。 人…

全国主要都市の第1次、第2次、第3次産業就業者数のデータ分析5 - 東京23区かどうかは人口密度と1人当り課税所得を見ればわかる。

www.crosshyou.infoの続きです。 今回は、R言語のglm関数でロジスティクス回帰分析をして、東京23区かそうじゃないかを見分けようと思います。 predict関数で予測をして、table関数で実際の値と比較してみます。 予測で1と予測したのが23区です。1と1のとこ…

全国主要都市の第1次、第2次、第3次産業就業者数のデータ分析4 - R言語のlm関数で回帰分析

www.crosshyou.info の続きです。 今回はlogperInc(1人当り課税所得を対数変換した値)をlogMitsu(人口密度を対数変換した値), Ratio1(第1次産業就業者数の割合), Ratio2(第2次産業就業者数の割合), Tko(東京23区かどうか)の4つの変数で回帰分析をしてみます…

全国主要都市の第1次、第2次、第3次産業就業者数のデータ分析3 - 1人当りの課税所得は差が大きい。

www.crosshyou.info の続きです。 前回の分析で東京都の23区は他とはかなり違いがあることがわかりましたので、まず、東京都23区かどうかという変数を作ろうと思います。R言語のgrepl関数を使いました。 東京都の中には八王子市も含まれていますので、八王子…

全国主要都市の第1次、第2次、第3次産業就業者数のデータ分析2 - 東京都の23区は他の道府県の都市とはあきらかに違う。

www.crosshyou.info の続きです。 今回は前回作成した、人口密度、1人当り課税所得、就業者の割合のランキングをみてみようと思います。最新の年度でみてみようと思いますので、まず、table関数で年度を調べます。 2015年度が最新です。2015年度のデータでラ…

全国主要都市の第1次、第2次、第3次産業就業者数データの分析1 - 東京都千代田区にも第1次産業就業者はいる。

今回からは、全国主要都市の第1次、第2次、第3次産業の就業者数のデータを分析しようと思います。 データは、政府統計の総合窓口e-statから取得しました。 www.e-stat.go.jp選択した都市は、 特別区、県庁所在市、政令指定都市、中核市の合計102都市です。 …

都道府県別の睡眠・食事・仕事の平均時間のデータ分析5 - R言語のlm関数とrlm関数で回帰分析

www.crosshyou.info の続きです。 今回は各変数の2006年度から2011年度の変化幅を作成します。 始めのコードで2011年度から2006年度を引き算し、 2行目のコードでpaste関数を使ってもともとの変数名に_Chgを使たしています。 3行名のコードでgsub関数で余計…

都道府県別の睡眠・食事・仕事の平均時間のデータ分析4 - 仕事時間の減少幅は、もともとの仕事時間の長さと関係あり

www.crosshyou.info の続きです。 前回の分析で仕事時間については、2006年度と2011年度で変化が有意にあるとわかりましたので、変化幅を計算してみます。 names関数で都道府県の名前を付与しています。 sort関数で小さい順に並び替えます。 青森県と佐賀県…

都道府県別の睡眠・食事・仕事の平均時間データの分析3 - 仕事時間は男女ともに2006年度よりも2011年度のほうが短い。

www.crosshyou.info の続きです。 今回は、2006年度と2011年度で睡眠時間、食事時間、仕事時間に違いがあるかどうかを調べます。 はじめに、2006年度のデータと2011年度のデータで、都道府県が同じ順番で並んでいるのかを確認します data2006$Pref == data20…

都道府県別の睡眠・食事・仕事の平均時間データの分析2 - R言語のcorrplot関数で相関係数プロットチャートを描く。

www.crosshyou.info の続きです。 2006年度のデータフレーム、2011年度のデータフレームを作成します。 2011年度のデータフレームを使って、どの都道府県が睡眠時間が長いのかなどを見てみます。 神奈川県の男性が睡眠時間が一番短く453分です。秋田県が一番…

都道府県別の睡眠・食事・仕事の平均時間データの分析1 - R言語でデータを読み込む

今回から、都道府県別の睡眠時間、食事時間、仕事時間の平均値のデータを分析しようと思います。 データは、政府統計の総合窓口、e-stat.go.jp から取得しました。 www.e-stat.go.jp取得したデータ項目は以下のとおりです。 これをExcelにダウンロードします…

都道府県別の事業所数(民営)のデータ分析6 - R言語のgrepl関数、wilcox.test関数で都道府と県は違うのかを調べる。

www.crosshyou.infoの続きです。 R Programming By Example: Practical, hands-on projects to help you get started with R 作者:Navarro, Omar Trejo 発売日: 2017/12/22 メディア: ペーパーバック という本を読み始めましたのですが、ここでgrepl関数とい…

都道府県別の事業所数(民営)のデータ分析5 - R言語のrlm関数でrobust linear regression

www.crosshyou.info の続きです。 前回はlm関数で1人当りの課税所得を予測しました。 今回はMASSパッケージのrlm関数でrobust linear regression modelで予測してみようと思います。 library(MASS)でMASSパッケージを読み込みます。 使い方はlm関数と同じで…

都道府県別の事業所数(民営)のデータ分析4 - R言語のlm関数で1人当りの課税所得を予測する。

www.crosshyou.info の続きです。 今回は、R言語のlm関数をつかって、perIncをYear, Mitsu, perS, perLの4つの変数で予測したいと思います。 使うデータフレームは、標準化して各変数のデータの範囲を揃えたdf_scaledを使います。これをトレーニング用のデー…

都道府県別の事業所数(民営)のデータ分析3 - R言語のaov関数でANOVA分析をする。

www.crosshyou.info の続きです。 今回は、Yearが4年分ありますので、これをファクターにみたててANOVA分析をしようと思います。aov関数でANOVA分析をします。 まずは、Mitsuです。 Pr(

都道府県別の事業所数(民営)のデータ分析2 - R言語のscale関数で各変数を標準化する。

www.crosshyou.infoの続きです。 前回作成した人口密度や1人当りの課税所得など、分析に必要なデータだけのデータフレームを作ります。 perIncやperS, perLの値の大きさがバラバラなので、データを標準化しようと思います。 min-max法という標準化方法ですね…

都道府県別の事業所数(民営)のデータ分析1 - R言語でデータを読み込む。

今回からは、都道府県別の事業所数(民営)のデータを分析しようと思います。 データは、政府統計の総合窓口e-statから取得しました。 www.e-stat.go.jp 取得したデータは上の5つです。 ダウンロードしたCSVファイルは上のような感じです。9行目に変数名を追加…

都道府県別の食料自給率のデータ分析6 - R言語のrlm関数でrobust linear regression

www.crosshyou.info の続きです。今回はR言語のrlm関数でrobust linear regressionをやってみます。 Regression Analysis with R: Design and develop statistical nodes to identify unique relationships within data at scale (English Edition) 作者:Cia…

都道府県別の食料自給率のデータ分析5 - R言語で人口、平均気温、課税所得の変化率・変化幅を計算する。

www.crosshyou.info の続きです。 前回の分析で、Popu(総人口), Temp(年間平均気温), Income(課税所得)は2010年度と2015年度で違いがあることがわかりました。 今回はこれらの変化率、変化幅を見てみます。 まずは、Popuの変化率を見てみます。 秋田県が一番…

都道府県別の食料自給率のデータ分析4 - R言語で分散や平均値に違いがあるかどうかを検定する。

www.crosshyou.info の続きです。 今回は、2010年度と2015年度で各データの分散や平均値が違っているのかどうかを調べます。 まずは、2010年度と2015年度のデータフレームを用意します。 df10とdf15の都道府県の並び順は同じだとは思いますが、念のため、ord…