www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2020-05-01から1ヶ月間の記事一覧

都道府県別の食料自給率のデータ分析3 - R言語のlm関数で線形回帰分析。そのままのデータと対数変換したデータの比較。

www.crosshyou.info の続きです。 今回は、lm関数をつかってCalをその他のデータで予測するモデルを作ってみます。 まずは、そのままのデータセット, avgdfでやってみます。 Multiple R-squaedは0.6717です。p-value は5.282e-09なので有意なモデルです。 次…

都道府県別の食料自給率のデータ分析2 - R言語のlapply関数, tapply関数、for関数を使って効率よく分析をする。

www.crosshyou.info の続きです。 まず、年度が何年と何年だったか確認します。 2010年度と2015年度の2か年でした。 この2か年の平均値を都道府県ごとに作成してみましょう。一つ一つの変数に対して、tapply関数で処理するのではなく、tapply関数の処理をlap…

都道府県別の食料自給率のデータ分析1 - R言語でデータを読み込む

今回から都道府県別の食料自給率のデータを分析してみようと思います。データは、政府統計の総合窓口e-Statから取得しました。 www.e-stat.go.jp 47都道府県を選択して、 ダウンロードした項目は、総人口、昼夜間人口比率、総面積、年平均気温、課税対象所得…

都道府県別の食料費・住居費・被服及び履物費のデータ分析7 - R言語でPrincipal Component Analysis

www.crosshyou.info の続きです。 今回は、Principal Component Analysisというのをやってみます。これは、explanatory variablesが多いときに数を減らすのに使うらしいです。 prcomp関数でできるそうです。 Food, Houseなどの変数からPC1、PC2などの変数を…

都道府県別の食料費・住居費・被服及び履物費のデータ分析6 - R言語でclassification

www.crosshyou.info の続きです。 今回はR言語でclassificationをしてみます。logMitsudoの中央値以上の都道府県を1に、以下の都道府県を0とする変数を作り、それを判定します。 まずは上のように、ifelse関数とmedian関数でlogMitsudoが中央値よりも大きか…

都道府県別の食料費・住居費・被服及び履物費のデータ分析5 - R言語のlm関数、gam関数、tree関数、svm関数で回帰分析

www.crosshyou.info の続きです。 今回はR言語で回帰分析をしてみたいと思います。lm関数、gam関数、tree関数、svm関数の4つの中で何が一番成績がいいか調べます。 トレーニング用のデータは2007年のデータ、テスト用のデータは、2006年のデータを使って、pe…

都道府県別の食料費・住居費・被服及び履物費のデータ分析4 - R言語のboxplot関数、pairs関数、hist関数でデータを視覚化。

www.crosshyou.info の続きです。 boxplot関数で各データの箱ひげ図を描いてみます。scale関数で標準化して、データのバラツキ度合いを比較できるようにしました。 Houseには外れ値は無いです。FoodとWearには下の外れ値もあります。 pairs関数で散布図マト…

都道府県別の食料費・住居費・被服及び履物費のデータ分析3 - R言語のfor関数でいちどに各データのランキングを作成する。

www.crosshyou.infoの続きです。 今回は都道府県別に各種変数のランキングを作成しようと思います。 一番最近、といっても13年も前ですが2007年のデータでランキングしようと思いますので、まず、2007年だけのデータフレームを作成します。 食料費のランキン…

都道府県別の食料費・住居費・被服及び履物費のデータ分析2 - R言語で1985年から2007年のグラフを描く

www.crosshyou.info の続きです。 今回は1985年から2007年までのデータの推移をグラフで見てみます。 function関数とlapply関数とtapply関数を使って年別の平均値を各変数で算出します。 tapply関数のところで各年別の平均値を算出して、それをfunction関数…

都道府県別の食料費・住居費・被服及び履物費のデータ分析1 - R言語にデータを読み込む

今回からは、都道府県別の食料費・住居費・被服及び履物費のデータを分析しようと思います。 いつものようにデータは、政府統計の総合窓口e-Statから取得しました。 www.e-stat.go.jp 取得したデータは以下のものです。 これをダウンロードすると、このよう…

都道府県別の第1次産業・第2次産業・第3次産業事業所数のデータ分析6 - R言語のtree関数、gam関数、svm関数

www.crosshyou.info の続きです。 今回はR言語のtree関数、gam関数、svm関数でLS(人口が平均値よりも多いか少ないか)を予測してみます。 まず、tree関数を使うためにtreeパッケージを読み込みます。tree関数はregression tree, classification treeモデルの…

都道府県別の第1次産業・第2次産業・第3次産業事業所数のデータ分析5 - R言語のglm関数とlm関数でclassification

www.crosshyou.info今回は、R言語のglm関数とlm関数でclassificationをしてみます。2009年度のデータを使って、モデルを作成し、2014年度のデータでモデルのテストをします。 まず、2009年度のデータフレーム、2014年度のデータフレームを用意します。 予測…

都道府県別の第1次産業・第2次産業・第3次産業事業所数のデータ分析4 - R言語で散布図マトリックスを描く

www.crosshyou.infoの続きです。 今回は、人口1人当りの県内総生産額(perGDP), 人口10万人当りの第1次産業事業所数(per1st), 人口10万人当りの第2次産業事業少数、人口10万人当りの第3次産業事業所数の相関関係を見てみようと思います。 いちいち、df[ , c("…

都道府県別の第1次産業・第2次産業・第3次産業事業所数のデータ分析3 - R言語で平均値の検定

www.crosshyou.info の続きです。 今回は、R言語で人口1人当りの県内総生産数(perGDP), 人口10万人当りの第1次産業事業所数(per1st), 人口10万人当りの第2次産業事業所数(per2nd), 人口10万人当りの第3次事業所数(per3rd)で、2009年度と2014年度で平均値に違…

都道府県別の第1次産業・第2次産業・第3次産業事業所数のデータ分析2 - R言語でヒストグラムや箱ひげ図を描く

www.crosshyou.infoの続きです。 今回は、前回作成した、人口当りの県内総生産額(perGDP), 第1じ産業事業所数(per1st), 第2次産業事業所数(per2nd), 第3次産業事業所数(per3rd)の分布の様子をヒストグラムや箱ひげ図にしてみたいと思います。 最初にfunction…

都道府県別の第1次産業・第2次産業・第3次産業事業所数のデータ分析1 - R言語でデータを読み込む。

今回からは、都道府県別の第1次産業・第2次・3産業事業所数のデータを分析してみようと思います。 データは、政府統計の総合窓口 e-Stat から取得しました。 www.e-stat.go.jp 取得したデータ項目はこちらです。 データをダウンロードすると、こんな感じのCS…