crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

都道府県別の一般事業投資額のデータ分析3 - R言語のscale関数で正規化してヒストグラムと箱ひげ図を描く。

www.crosshyou.info の続きです。 今回は、前回に引き続き、2015年調査のデータに注目して、各変数のヒストグラムを作成してみたいと思います。 まずは、各変数の2015年調査のデータを作成します。tapply関数を使って都道府県別のデータを作成します。 Non21…

都道府県別の一般事業投資額のデータ分析2 - R言語のsort関数で並び替え。岩手県が1人当り一般事業総投資額が一番多い。

www.crosshyou.infoの続きです。 今回は前回作成したデータ、従業も通学もしていない人口比率: Non2, 1人当りの賃金・俸給(百万円): Sala2, 1人当り財産所得(百万円), 1人当り県民所得(千円), 1人当り一般事業総投資額について、どの都道府県が多いか少ない…

都道府県別の一般事業投資額のデータ分析1 - R言語で基本統計量を算出。

今回は都道府県別の一般事業投資額のデータを分析したいと思います。 データは政府統計の総合窓口、e-Statから取得しました。 www.e-stat.go.jpここからCSVファイルをダウンロードしました。 各変数名は、 Nen: 調査年 Chi: 地域 Jin: 総人口(人) Non: 従業…

読書記録 - 「日本語の歴史」山口仲美 著(岩波新書)

日本語の歴史 (岩波新書) 作者:山口 仲美 発売日: 2006/05/19 メディア: 新書 奈良時代、平安時代、鎌倉・室町時代、江戸時代、明治時代以後にわけて日本語がどのように変化してきたか、特に話し言葉と書き言葉のせめぎあいを一つの軸として書かれている。読…

都道府県別の1人当り最終エネルギー消費量のデータ分析5 - R言語のlm関数で変化幅を重回帰分析する。そしてNull Modelが残った。

www.crosshyou.info の続きです。今回は前回作成した、diffEnをdiffPrとdiffShで重回帰分析してみたいと思います。 まずは、2乗項も交差項も入ったモデルからスタートします。 一番下の行のp-valueが0.3537とありますから有意なモデルではないです。 まず交…

都道府県別の1人当り最終エネルギー消費量のデータ分析4 - R言語で2007年度と2015年度を比較する。すべての都道府県でエネルギー消費量は減少

www.crosshyou.info の続きです。 今回は2007年度と2015年度のデータを比較してみたいと思います。 まず、20015年度 - 2007年度というデータをつくらないとですね。 tapply関数で上のようにして作成しました。tapply関数で作ると、都道府県の順番が揃います…

都道府県別の1人当り最終エネルギー消費量のデータ分析3 - R言語のlm関数で重回帰分析。scatterplot3d関数で3次元散布図

www.crosshyou.info の続きです。 今回はR言語のlm関数で重回帰分析をしてみたいと思います。 まず、対数変換後のavgPr(15-64歳人口割合の9年間の平均)、avgSh(1人当り県民所得の9年間の平均)、avgEn(1人当り最終エネルギー消費量)のヒストグラムをhist関数…

都道府県別の1人当り最終エネルギー消費量のデータ分析2 - 山口県、大分県、岡山県のエネルギー消費量は外れ値レベル。

www.crosshyou.info の続きです。 今回は、Pratio(15-64歳人口割合), Shotoku(1人当り県民所得), Energy(1人当り最終エネルギー消費量)の3つの変数について、箱ひげ図やヒストグラムを描いでみます。 まず、前段階として、9年間の値を平均して都道府県別のデ…

都道府県別の1人当り最終エネルギー消費量のデータ分析1 - R言語で基本統計量を計算する。

www.e-stat.go.jp 今回は、都道府県別の1人当り最終消費エネルギーのデータを分析してみたいと思います。データはs-Stat(政府統計の総合窓口)から取得しました。 1人当り最終エネルギー消費量の他に、15-64歳人口割合(%)と1人当り県民所得(平成23年基準)(千…

WHOの新型コロナウィルスのデータ分析2 - R言語で3月18日時点の全体の死亡率や地域別・国別の死亡率を計算する。

www.crosshyou.info の続きです。 前回から20日ほど経過しました。世界的に感染者数が拡大しています。 この3月18日時点のCoronavirus disease 2019(COVID-19) Situation Report - 58 のデータを使って、全体の死亡率などを計算してみましょう。 https://…

都道府県別の生活習慣病による死亡者数のデータ分析4 - 2015年度と2006年度の比較。東京はほとんど変わらず。

www.crosshyou.info の続きです。 今回は、2015年度と2006年度を比較して、どの都道府県が生活習慣病による死亡者が増えたのか、減ったのかをみてみたいと思います。 まず、2006年度の人口1万人当りの死亡者数を一つのベクトルにしてみます。 tapply関数とma…

読書記録 - 「統計分布を知れば世界がわかる 身長・体重から格差問題まで」松下貢 著(中公新書)

統計分布を知れば世界が分かる-身長・体重から格差問題まで (中公新書) 作者:松下 貢 発売日: 2019/10/16 メディア: 新書 正規分布、べき乗分布、対数正規分布という3つの分布について教えてくれる。 このブログをやっていて、都道府県別の人口や県内総生産…

都道府県別の生活習慣病による死亡者数のデータ分析3 - R言語のlm関数で重回帰分析。人口密度が高い県ほど死亡者数は少ない。

www.crosshyou.info の続きです。 前回は2006年度よりも2014年度のほうが死亡者が多かったことがわかりました。 今回は2015年度のデータで、総人口1万人当りの死亡者数と人口密度、県内総生産の関係を見てみます。 まずは、2015年度だけのデータフレームを作…

都道府県別の生活習慣病による死亡者数のデータ分析2 - R言語のplot関数で年別の人口1万人当りの死亡者数を見る。

www.crosshyou.info の続きです。 今回は年別で人口1万人当りの死亡者数を見てみます。 plot関数を使います。 あら、1975年度とか1983年度とかデータの無い年度も表示されてしまってます。df1$Yearを見てみましょう。 データが無い年度もファクタのレベルと…

都道府県別の生活習慣病による死亡者数のデータ分析1 - R言語のread.csv関数でCSVファイルのデータを読み込む。

今回は、都道府県別の生活習慣病による死者数のデータを分析してみたいと思います。 データは、政府統計の総合窓口、e-stat.go.jpから取得しました。 www.e-stat.go.jp 取得したデータは、 総人口(人), 生活習慣病による死亡者数(人), 可住地面積1km2当り人…

読書記録 - 「金融政策入門」 湯本雅士 著(岩波新書)

金融政策入門 (岩波新書) 作者:湯本 雅士 発売日: 2013/10/19 メディア: 新書 中央銀行の金融政策は難しい。 本文は力不足で半分も理解できなかったが、あとがきにある筆者の原則はなるほどと思った。忘れないように、簡単に書いてみる。 1.これまで持って…

都道府県別の趣味・娯楽の平均時間のデータ分析6 - R言語で重回帰分析。人口伸び率が大きいほど、一人当り県内総生産額が大きいほど、趣味・娯楽の時間は長い。

www.crosshyou.info の続きです。 今回は、趣味・娯楽時間の長さを性別、職業の有無に加えて、PopGr(人口伸び率)とGDPper(一人当り県民所得)の2変数も加えて重回帰分析をしてみようと思います。 まず、都道府県別のPopGrの2006年度と2011年度の平均値を作り…

都道府県別の趣味・娯楽の平均時間のデータ分析5 - R言語の interaction.plot関数で性別と職業の有無の交互作用を見る。

www.crosshyou.info の続きです。 今回はANOVA分析です。 Minutes ~ Gendar + Job + Minutes:Job というモデル式を分析します。aov関数を使います。 Gendar, Jobそして、Gendar:Jobも統計的に有意なファクターだとわかりました。 summary.lm関数でも表示して…

都道府県別の趣味・娯楽の平均時間のデータ分析4 - R言語のbarplot関数で、性別 x 仕事の有無 の棒グラフを作成する

www.crosshyou.info の続きです。 前回までの分析で、2006年度と2011年度では、趣味・娯楽の平均時間に有意な違いが無い、ということがわかりました。趣味・娯楽の平均時間は、男性か女性か、有業者か無業者かで違いがあることもわかりました。今回は性別と…

読書記録 - 「入門 公共政策学 - 社会問題を解決する「新しい知」」秋吉貴雄 著 (中公新書)

入門 公共政策学 - 社会問題を解決する「新しい知」 (中公新書) 作者:秋吉 貴雄 発売日: 2017/06/20 メディア: 新書 公共政策学は社会問題を解決するための学問で、政治学、法律学、経済学、社会学、心理学、環境科学、その他いろいろな学問を「社会問題を解…

都道府県別の趣味・娯楽の平均時間のデータ分析3 - 趣味・娯楽時間は神奈川県民が一番長く、岩手県民が一番短い。

www.crosshyou.info の続きです。 前回の分析で、趣味・娯楽の時間は女性よりも男性が長い、有業者よりも無業者のほうが長いことがわかりました。 今回は2006年度と2011年度で違いがあるかどうかを調べます。 まずは、2006年度だけのデータ、20011年度だけの…

都道府県別の趣味・娯楽の平均時間のデータ分析2 - R言語で2変数の分散と分布位置を比較する。var.test関数とwilcox.test関数

www.crosshyou.info の続きです。 前回の分析で男性のほうが趣味・娯楽の平均時間が長い、無業者のほうが有業者よりも趣味娯楽の平均時間が長い、という傾向にあることがわかりました。 今回は、このことを統計検定してみましょう。2つの平均値に差があるか…

都道府県別の趣味・娯楽の平均時間のデータ分析1 - R言語で基本統計量を算出する。男性のほうが趣味・娯楽の時間は多い。

今回は、都道府県別の趣味・娯楽時間のデータを分析してみたいと思います。 政府統計の総合口(e-stat)からデータを取得します。 www.s-stat.go.jp ですね。 度道府県別の人口増減率、1人当り県民所得、趣味・娯楽の平均時間(4種類ありました。男性/女性と有…

WHOの新型コロナウィルスのデータの分析1 - R言語で全体の死亡率や国別の死亡率を計算する。

今回は新型コロナウィルスの感染数と死者数のデータを使って死亡率を計算してみようと思います。 https://www.who.int/docs/default-source/coronaviruse/situation-reports/20200227-sitrep-38-covid-19.pdf?sfvrsn=9f98940c_2 このレポートに掲載されてい…

建設総合統計のデータ分析5 - R言語で重回帰分析。民間の建設額を公共の建設額で重回帰分析。

www.crosshyou.info の続きです。 今回は、Minkan(民間)をKoKen(公共建築), KoHou(公共住宅), KoDob(公共土木)という3つの変数で回帰分析してみます。 まずは、plot関数で散布図を描いてみます。 正の相関がある感じです。 cor関数で相関係数も調べましょう…

建設総合統計のデータ分析4 - R言語のlm関数で回帰分析。

www.crosshyou.info の続きです。 今回は、Total(総計)をresponse variable, Minkan(民間)をexplanatory variableにして回帰分析をしてみます。 まずは、plot関数で散布図を描きます。 正の相関の散布図です。 lm関数で回帰分析をしてみます。 モデルのp値は…

建設総合統計のデータ分析3 - R言語で2変数のデータ分析の練習。Minkan(民間)とKokyo(公共)を例にして。var.test関数、t.test関数、wilcox.test関数、cor.test関数。

www.crosshyou.info の続きです。 今回は2変数のデータ分析の練習をしてみます。Minkan(民間)とKokyo(公共)の2変数を例にします。 まずは、boxplot関数で2つ変数の箱ひげ図を見てみます。 Minkan(民間)のほうがvariance, 平均値が大きそうです。 次に、va…

建設総合統計のデータ分析2 - R言語で1変数のデータ分析の練習。Total(総計)を例にして。

www.crosshyou.info の続きです。 今回は、R言語で1変数のデータ分析の練習をします。 参考図書は、Michael J. CrawleyのStatistics An Introduction Using Rです。 Statistics: An Introduction Using R 作者:Michael J. Crawley 出版社/メーカー: Wiley …

建設総合統計のデータ分析1 - R言語で基本統計量と変動係数(CV)を算出。民間土木が一番変動が少なく、民間非居住用が一番変動が大きい。

いつものように、e-stat 政府統計の総合窓口(www.e-stat.go.jp)を閲覧していたら、建設総合統計というデータが新着でありました。 今回はこのデータを分析してみましょう。 建設総合統計じゃ、国内の建設活動を出来高ベースで把握することを目的として加工統…

景気動向指数の長期系列データの分析6 - 年代も加えてもう一度R言語で回帰分析。lm関数、gam関数、rpart関数

www.crosshyou.info の続きです。 今回は前回と同じく回帰分析をしょうと思いますが、explanatory variableに年代も加えてみたいと思います。 それと、前回は全部の期間のデータを使って回帰分析をしましたが、今回は半分とトレーニング用、半分をテスト用に…