Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2020-01-01から1年間の記事一覧

地域ブロック別の栄養素等摂取量のデータの分析1 - R言語でデータを取り込む。gather関数やseparate関数でデータフレームを整理整頓する。

今回は国民栄養・健康調査のデータを分析してみます。 政府統計の総合窓口(www.e-stat.go.jp)からデータを取得します。 たくさんデータベースがありましたが、今回は栄養素等摂取量 - エネルギー・栄養素等、地域ブロック別、平均値、標準偏差、中央値 - 総…

配当ランキングのデータ分析3 - R言語で株価のデータを分析する。分散が違うときは平均値を比べてはいけない。

www.crosshyou.info の続きです。 今回は株価のデータを分析してみます。 market別の株価の分布を見てみます。 東証に属する銘柄、リートやインフラファンドですが、株価が他と比べると特段に高いですね。Y軸を対数にしてグラフにしてみます。 tapply関数でm…

配当ランキングのデータ分析2 - R言語で配当データを分析する。

www.crosshyou.infoの続きです。 今回は配当利回りのデータをR言語で分析してみます。 まず、marketのデータをfactor関数でファクター型にしました。 market別の配当利回りの平均値をgroup_by関数とsummarise関数を使って算出してみます。 東証というのはリ…

配当ランキングのデータの分析1 - R言語でYahoo!ファイナンスのデータをウェブスクレイピングする。

Introduction to Data Science: Data Analysis and Prediction Algorithms with R (Chapman & Hall/CRC Data Science Series) (English Edition) 作者:Irizarry, Rafael A. 発売日: 2019/11/12 メディア: Kindle版 を読んでいるのですが、そこにウェブスクレ…

都道府県別の1人当りの県民所得と賃貸住宅の家賃のデータ分析7 - R言語のlm関数で重回帰分析をする。

www.crosshyou.info の続きです。 今回はR言語のlm関数で重回帰分析をしてみようと思います。 まずは、 rent_ko = a * rent_mi + b * income + c という線形重回帰モデルをみてみます。 incomeのp値は0.74488と0.05よりも大きいので、必要ないのですね。 そ…

都道府県別の1人当りの県民所得と賃貸住宅の家賃のデータ分析6 - R言語のlm関数を使わないで回帰分析をする。

www.crosshyou.infoの続きです。 今回は、rent_ko: 公営賃貸住宅の家賃をrent_mi: 民間賃貸住宅の家賃で回帰分析をしてみようと思います。R言語のlm関数で簡単に回帰分析ができますが、今回はlm関数を使わないでやってみます。 平均・分散から始める一般化線…

都道府県別の1人当りの県民所得と賃貸住宅の家賃のデータ分析5 - R言語で散布図マトリックスを作成する。

www.crosshyou.info の続きです。 今回はR言語でincome: 1人当りの県民所得、rent_ko: 公営賃貸住宅の家賃、rent_mi: 民間賃貸住宅の家賃の散布図マトリックスを作成してみます。 まずは、普通にplot関数で作成します。 rent_koとrent_miは相関が強いですが…

都道府県別の1人当りの県民所得と賃貸住宅の家賃のデータ分析4 - R言語でヒストグラム(geom_histgram関数)などを描く

www.crosshyou.infoの続きです。 今回は、income: 1人当りの県民所得、rent_ko: 公営賃貸住宅の家賃、rent_mi: 民間賃貸住宅の家賃の分布をヒストグラム、デンシティープロット、箱ひげで確認します。 まずは、incomeのヒストグラムです。ggplot2のgeom_hist…

都道府県別の1人当りの県民所得と賃貸住宅の家賃のデータ分析3 - R言語のgeom_bar関数で棒グラフを描く。

www.crosshyou.info の続きです。 今回はincome: 1人当りの県民所得、rent_ko: 公営賃貸住宅の家賃、rent_mi: 民間賃貸住宅の家賃を棒グラフにして、どの都道府県が高いか、安いかをみてみます。 まずは、incomeからです。 1行目のmutate関数で、prefをincom…

都道府県別の1人当りの県民所得と賃貸住宅の家賃のデータ分析2 - R言語のsummary関数とtable関数でデータの概要を見る。

www.crosshyou.info の続きです。 今回は各変数の確認をしましょう。 まずは、調査年が何年なのかを確認します。table関数を使いました。 2006年度から2014年度までのデータです。全部47とありますので、どの年も47都道府県全てそろっています。 調査年がい…

都道府県別の1人当りの県民所得と賃貸住宅の家賃のデータ分析1 - R言語のread_csv関数でCSVファイルデータを読み込む。

今回は47都道府県別の1人当りの県民所得と賃貸住宅の家賃のデータを調べてみます。 まず、政府統計の総合窓口e-Statのウェブサイト(www.e-stat.go.jp)からデータを取得しました。 47度道府県を選択して、 このように、1人当りの県民所得(平成23年基準)(千円)…

都道府県別のパスポート発行数のデータ分析9 - 時系列の予測モデルのベンチマークモデル

www.crosshyou.info の続きです。 時系列データを予測する方法で、とっても単純ないくつかの方法があるそうです。 3.1 Some simple forecasting methods | Forecasting: Principles and Practice (otexts.com) このサイトを参考にしてます。 一つ目は、平均…

都道府県別のパスポート発行数のデータ分析8 - R言語のmonthdays関数を使って月別の1日平均発行数を算出する。

www.crosshyou.info の続きです。 今までは、月間のトータル発行数をグラフにしていましたが、月は2月は28日、8月などは31日と月によって日数が違います。 そこで、その影響を除くために1日当りの発行数を算出しようと思います。 monthdays関数というのでで…

都道府県別のパスポート発行数のデータ分析7 - R言語のseasonplot関数でシーズナリティグラフを描く。

www.crosshyou.info の続きです。 今までは時系列分析をしたことがなかったのですが、 https://otexts.com/fpp2/ otexts.com というOnline Bookを見つけたので、この本を参考にいろいろやってみようと思います。 まず、東京都のパスポート発行数のデータだけ…

都道府県別のパスポート発行数のデータ分析6 - 全部のデータを使って、年や月別の発行数に違いはあるのか?を検証する。

www.crosshyou.info の続きです。 今回は47都道府県全部のデータを使って、年、月にパスポート発行数に違いがあるのかどうかをANOVAで検定してみます。 p値が0.005586と0.05よりも小さい値なので、年によって発行数に違いがあると言えそうです。 TukeyHSD関…

都道府県別のパスポート発行数のデータ分析5 - R言語のstrptime関数でyyyy/mm/ddという文字列型のデータを日付型のデータに変換する。

www.crosshyou.info の続きです。 前回は東京都のデータで、年によって、月によって発行数に違いがあるかどうかを調べました。 今回は47都道府県全部のデータをもう少し分析しやすく修正してみます。 まずは、もういちど、データがどのようなものか確認しま…

都道府県別のパスポート発行数のデータ分析4 - R言語で年による発行数、月による発行数に違いはあるかどうかを検定する。

www.crosshyou.info 前回のグラフで、東京都のパスポート発行数は年によって、月によって発行数に違いがありそうなことがわかりました。 そこで、今回はR言語のaov関数、anova関数、TukeyHSD関数などを使って本当の年によって、月によって違いがあるのかどう…

都道府県別のパスポート発行数のデータ分析3 - R言語のvar.test関数とt.test関数で8月と11月のデータの違いを検定する。

www.crosshyou.info の続きです。 データの数が多いので、東京都だけのデータフレームを作ってこれから分析してみます。 prefは必要ないので削除しましょう。 2010年から2017年の8年間のデータです。一番少ない月で3万0833冊、一番多い月で6万9727冊の発行で…

都道府県別のパスポート発行数のデータ分析2 - パスポート発行は8月が一番多く、11月が一番少ない。

www.crosshyou.info の続きです。 summary関数でデータの要約を見てみます。 issueの最大値が67万1634って大きすぎのような気がします。 arrange関数でissueを大きい順に並び替えてみましょう。 あ。CSVファイルを作る際に削除していたと思っていた年間トー…

都道府県別のパスポート発行数のデータ分析1 - R言語のtidyverseパッケージのread_csv関数でデータを読み込む。

今回は都道府県別の旅券統計のデータを分析してみます。 政府統計の総合窓口(www.e-stat.go.jp)からデータを取得します。 旅券統計 旅券統計(国内)一般旅券月別・都道府県別発行数 | 統計表・グラフ表示 | 政府統計の総合窓口 (e-stat.go.jp) データをダウ…

全国主要都市の交通事故と犯罪発生件数のデータ分析9 - R言語のglm関数でロジスティクス回帰分析をする。

www.crosshyou.info の続きです。 前回は線形回帰分析でkeihou(人口10万人当りの刑法犯認知件数)をkoutuu(人口千人当りの交通事故)とregion8(三大都市圏とその他)で回帰分析しました。 今回は、region7(三大都市圏とその他)をkeihouとkoutuuでロジスティクス…

全国主要都市の交通事故と犯罪発生件数のデータ分析8 - R言語のlm関数で回帰分析をする。

www.crosshyou.info の続きです。 今回はR言語のlm関数を使って回帰分析をします。 response variable(反応変数)はkeihou(人口10万人当りの刑法犯認知件数)で、explanatory variables(説明変数)はkoutuu(人口千人当りの交通事故件数)とregion(地域), japanpa…

全国主要都市の交通事故と犯罪発生件数のデータ分析7 - R言語でlm関数とanova関数を使わないでANOVA分析をする。

www.crosshyou.info の続きです。 前回は、R言語のlm関数とanova関数でANOVA(分散分析)をしましたが、今回はこの二つの関数を使わないでANOVA(分散分析)をしてみます。 下記の本「平均・分散から始める一般線形化モデル入門」作者:馬場真哉を参考にしてみま…

全国主要都市の交通事故と犯罪発生件数のデータ分析6 - R言語のlm関数とanova関数でANOVA(分散分析)、t.test関数でt検定をする。

www.crosshyou.info の続きです。 今回は分散分析(ANOVA)をしてみたいと思います。 koutuu(人口10万人当りの交通事故件数)やkeihou(人口千人当りの刑法犯認知件数)が地域によって違いがあるのかどうかを調べます。 まず、データフレームを絞りこんで、2005年…

全国主要都市の交通事故と犯罪発生件数のデータ分析5 - R言語のfilter関数とarrange関数とselect関数で交通事故と犯罪件数のランキングを作成する。

www.crosshyou.info の続きです。 今回はどの都市が一番、交通事故や犯罪認知件数が多いか、少ないかをみてみましょう。 R言語のdplyrパッケージのfilter関数とarrange関数を使います。 2005年のkoutuu(人口10万人当りの交通事故件数)の多い都市はどこでしょ…

全国主要都市の交通事故と犯罪発生件数のデータ分析4- R言語のggplot2パッケージのgeom_point関数で散布図を描く。

www.crosshyou.info の続きです。 今回は、R言語のggplot2パッケージのgeom_point関数で散布図を描いてみます。 まずは、単純にkoutuu(人口10万人当りの交通事故件数)とkeihou(人口千人当りの刑法犯認知件数)です。 まず、あとでいろいろな観点からkoutuuとk…

全国主要都市の交通事故と犯罪発生件数のデータ分析3 - R言語のgeom_boxplot関数で箱ひげ図を描く。京都府は以外に犯罪が多い。

www.crosshyou.info の続きです。 今回は、koutuu(人口10万人当りの交通事故)とkeihou(人口千人当りの刑法犯認知件数)とカテゴリカル変数の関係を見てみます。 R言語のggplot2パッケージのgeom_boxplot関数を使います。 まずは、yearとkoutuuです。 だんだん…

全国主要都市の交通事故と犯罪発生件数のデータ分析2 - R言語のgeom_bar関数で棒グラフ、geom_histogram関数でヒストグラムを作成。

www.crosshyou.info の続きです。 今回はデータをグラフにしてどんなもんか見てみたいと思います。 glimpse関数で変数名をデータの内容を確認します。 glimpse関数はstr関数と同じような働きをします。 prefのデータは都道府県ですね。各都道府県でデータの…

全国主要都市の交通事故と犯罪発生件数のデータ分析1 - R言語でデータを読み込む。

今回は全国主要都市の交通事故と犯罪発生件数のデータ分析をしてみようと思います。 政府統計の総合窓口(www.e-stat-go.jp)からデータをダウンロードしました。 対象は、特別区(東京23区のことです)、県庁所在市、政令指定都市、中核市です。 105の地域があ…

鉄道車両生産動態統計調査の分析3 - R言語のgroup_by関数とsummarise関数を使う。「その他の新幹線」は1台当りの車両の金額は11億3600万円

www.crosshyou.info の続きです。 前回作成した、車両タイプを絞り込んだデータフレームを使って、車両タイプごとの1台当りの車両の金額を調べてみます。 group_by関数でtrain_type: 車両タイプでグループ化して、summarise関数とmean関数で平均値を計算し…