crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

データ分析

都道府県別の定期健康診断結果報告のデータ分析9 - R言語で非階層クラスタリング

UnsplashのWexor Tmgが撮影した写真 www.crosshyou.info の続きです。前回はR言語で階層クラスタリングをしました。今回は非階層クラスタリングをしてみて、前回の結果を比較してみます。 k-means法というクラスタリング手法で、kmeans()関数で実行可能です…

都道府県別の定期健康診断結果報告のデータ分析8 - R言語で階層クラスタリング

UnsplashのSora Saganoが撮影した写真 www.crosshyou.info 前回までは回帰分析をしていましたが、 今回はR言語でクラスタリングをしてみようと思います。 まず、クラスタリング用のデータフレームとして、aggregate()関数とmean()関数を使って3年間の平均の…

都道府県別の定期健康診断結果報告のデータ分析7 - R言語でパネルデータを回帰分析する。

UnsplashのLeopold Stengerが撮影した写真 www.crosshyou.info 前回は年と都道府県も説明変数に加えてtworatioを重回帰分析してみました。その結果、l_num: 健康診断を実施した事業場数の対数変換値はtworatioを説明する有意な変数ではないことがわかりまし…

都道府県別の定期健康診断結果報告のデータ分析6 - R言語で回帰モデルの不均一分散に適応した標準誤差やF検定をする。

UnsplashのGanapathy Kumarが撮影した写真 www.crosshyou.info の続きです。 前回の重回帰モデルに年と都道府県を説明変数に加えて、l_numの係数がどうなるかを見てみます。 まず、yearをas.factor()関数でファクター型に変換した変数をつくります。 yfがフ…

都道府県別の定期健康診断結果報告のデータ分析5 - R言語で回帰モデルの均一分散を調べたり、複数の回帰モデルの表を作成する。

UnsplashのYoksel Zokが撮影した写真 www.crosshyou.info の続きです。 前回は tworatio: 2回以上実施した事業場数の割合をnum: 検査を実施した事業所の数で回帰分析してみました。その結果、事業所の数が大きいほど、割合は低下している傾向があることがわ…

都道府県別の定期健康診断結果報告のデータ分析4- R言語で棒グラフを描いたり、単純線形回帰分析をしたりする。

UnsplashのCristina Anne Costelloが撮影した写真 www.crosshyou.info 今回は、上のブログの続きです。 前回は、散布図や箱ひげ図を描きました。今回は、barplot()関数を使って棒グラフを描いてみます。 まずは、ritsu: 所見のあった人数の割合を都道府県ご…

都道府県別の定期健康診断結果報告のデータ分析3 - R言語で散布図や箱ひげ図を描いたり、ANOVA分析をしたりする。

UnsplashのJean Girouxが撮影した写真 www.crosshyou.info 前回はR言語でヒストグラムを描きました。今回は散布図を描いでみます。 plot()関数で、データフレームの散布図にしたい変数を指定すると、上の画面のような散布図のマトリックスが描かれます。 rit…

都道府県別の定期健康診断結果報告のデータ分析2 - R言語でヒストグラムを描く

Photo by Thijs Boom on Unsplash www.crosshyou.info この記事は上の記事の続きです。 今回は、R言語に読み込んだデータをグラフにしてみます。tidyverseパッケージを使わずに、通常のグラフィック関数でやってみます。 まずは、それぞれの変数の分布状況を…

都道府県別の定期健康診断結果報告のデータ分析1 - R言語にデータを取り込む

Photo by Dana Luig on Unsplash 今回は、都道府県別の定期健康診断結果報告のデータを調べてみます。 政府統計の総合窓口(www.e-stat.go.jp)のウェブサイトからデータをダウンロードします。 定期健康診断結果報告は、労働安全衛生法に基づく定期健康診断結…

都道府県別の教育費のデータの分析10 - Rのplmパッケージでパネルデータ分析

Photo by Colin Watts on Unsplash www.crosshyou.info の続きです。 今回はパネルデータ分析をします。 まず、plmパッケージを読み込みます。 このplmパッケージを使うとパネルデータ分析が簡単にできます。 まずは、通常のデータフレームをpdata.frame()関…

都道府県別の教育費のデータの分析9 - 時系列の回帰分析モデルで、Serial Correlationの有無をチェックする。

Photo by Alex Quezada on Unsplash www.crosshyou.info 前回は時系列データを回帰分析モデルで分析しました。 今回はそのモデルのSerial Correlationの有無をチェックします。 前回は、3つのモデルを作成してパラメータをOLSで推計しました。 OLSでの推計…

都道府県別の教育費のデータの分析8 - Rで時系列データの分析。回帰式のモデルにトレンド変数やラグ変数を追加する。

Photo by Redd on Unsplash www.crosshyou.info の続きです。 いままでは、都道府県別のデータを使って分析してきました。 今回は年別の平均値を使って、時系列データの分析をしてみます。 まずは、年別の平均値のデータフレームを作ります。 2001年から2014…

都道府県別の教育費のデータの分析7 - Heteroskedasticityのチェック

Photo by Annie Spratt on Unsplash www.crosshyou.info の続きです。 前回は、log(GdpPop) = beta_0 + beta_1 * log(EdPop) + beta_2 * log(Area) + u という重回帰分析のモデルを考えました。 回帰分析で重要な仮定の一つが「誤差項の分散が独立変数とは関…

都道府県別の教育費のデータの分析6 - Rで重回帰分析 - 一人当り教育費が多いほど、一人当たり県内総生産額は少ない?

Photo by Tobias Stonjeck on Unsplash www.crosshyou.info の続きです。 今回は説明変数を複数にして、重回帰分析をしてみましょう。 まずは、log(Gdp) = log(Ed) + log(Pop) + log(Area) + u というモデルを分析してみます。 log(Pop)だけが有意な変数にな…

都道府県別の教育費のデータの分析5 - 回帰分析の係数の標準誤差を確認する。

Photo by Jeremy Bezanger on Unsplash www.crosshyou.info の続きです。 前回は、回帰分析のモデル、level -level, log - lelvel, level - log, log -log の4つもモデルを比較してみました。 今回は、OLSで推計した回帰式の係数の標準誤差を確認します。 s…

都道府県別の教育費のデータの分析4 - level - level, log -level, level - log, log - log モデルの回帰分析式

Photo by Ray Hennessy on Unsplash www.crosshyou.info の続きです。 前回は、単回帰分析で SST(total sum of squares) = SSE(explained sum of squares) + SSR(residual sum of squares)などの関係をみてみました。 今回は、Gdp, Edを対数変換して回帰分析…

都道府県別の教育費のデータの分析3 - Rで単回帰分析(Simple Regression Analysis)

Photo by Wolfgang Hasselmann on Unsplash www.crosshyou.info の続きです。 今回は単回帰分析(Sinple Regression Analysis)をRを使ってやってみます。 まず、前回作成したデータフレームから分析用のデータフレームを作ります。 複数年のデータでしたが、…

都道府県別の教育費のデータの分析2 - Rでデータをグラフにする。ggplot2パッケージのgeom_point(), geom_boxplot(), geom_line(), geom_histogram()

Photo by Antonio Sessa on Unsplash www.crosshyou.info の続きです。 前回はデータをRに読み込みました。 今回はそのデータをいろいろグラフにしてみます。 まずは、都道府県別のed: 教育費(都道府県財政と市町村財政の合計)です。 mutate()関数の中でreor…

都道府県別の教育費のデータの分析1 - Rにデータを読み込ませる。

Photo by Vadym Chumak on Unsplash 今回は、都道府県別の教育費のデータを分析しようと思います。 データは、政府統計の総合窓口(www.e-stat.go.jp)のウェブサイトから取得します。 まずは、47の都道府県を選択します。 教育費は都道府県財政の値と市町村財…

都道府県別の建設総合統計のデータの分析2 - Rの pivot_longer()関数で 横長型のデータフレームを縦長型に変換

Photo by Drew Bae on Unsplash www.crosshyou.info 前回はCSVファイルのデータを取り込みました。 今回は取り込んだデータをいろいろと調べてみようと思います。 はじめに前回作成したデータフレームがどんなものだったか確認します。 横にhokkaido, aomori…

都道府県別の建設総合統計のデータの分析1 - CSVのデータファイルをRに取り込む

Photo by Mikita Yo on Unsplash いつものように、政府統計の総合窓口(www.e-stat.go.jp)を閲覧すると、建設総合統計のデータベースが更新されているようでした。 建設総合統計は、国内の建設活動を出来高ベースで把握することを目的とした加工統計とのこと…

全国統一の小売物価統計のデータ分析6 - Serial Correlation の有無を調べる。AR(1)の系列相関テストと、ダービン・ワトソン検定

Photo by Al Pangestu on Unsplash www.crosshyou.info 前回はdynlmパッケージのdynlm()関数を使って、時系列データの回帰分析をしました。 時系列データの回帰分析では、系列相関(Serial Correlation)があると上手く分析できませんので、今回は前回の回帰分…

全国統一の小売物価統計のデータ分析5 - dynlmパッケージのdynlm()関数で時系列データの回帰分析

Photo by Allyson Beaucourt on Unsplash www.crosshyou.info の続きです。 前回の分析で、年や月は統計的に有意な影響を価格には及ぼしていないことがわかりました。 今回は一番高い価格の外車のデータに絞って、時系列分析をしてみます。 まず、外車だけの…

全国統一の小売物価統計のデータ分析4- carパッケージのlinearHypothesis()関数で回帰分析のF検定をする。年も月も有意でない。

Photo by Dan Freeman on Unsplash www.crosshyou.info の続きです。 前回の分析で月別や年別に物価に違いがあることがわかりました。 今回は統計的にその違いが有意なのかどうかを確認します。 lm()関数で回帰分析のモデルを作りました。 carパッケージの読…

全国統一の小売物価統計のデータ分析3 - R言語のplot()関数とbarplot()関数で基本的なグラフを描く。5,6,7月が物価が安い月だった。

Photo by Simon Maage on Unsplash www.crosshyou.info の続きです。 このように、name_codeに対応して、sinryou_kenpoのようにそれを表す名前を付与したCSVファイルを作成しました。 これをRに読み込みます。 このデータフレームを前回作成してあるdata_ful…

全国統一の小売物価統計のデータ分析2 - 読み込んだデータを分析しやすいように整える。

Photo by Leo Mendes on Unsplash www.crosshyou.info の続きです。 前回はCSVファイルのデータをRに読み込ませました。 今回はデータを分析しやすいように整えます。 やるべきことは3つありました。 1。NAの行を削除する 2。title_code, title, name, ti…

全国統一の小売物価統計のデータ分析1 - R言語にCSVファイルを読み込む。

Photo by Jeremy Thomas on Unsplash 政府統計の総合窓口、e-statのサイトを見ると、小売物価統計のデータベースが更新されたようです。 今回はこのデータをダウンロードして分析してみます。 小売物価統計調査(動向編)というのが更新されたようです。 月次[…

小売物価統計調査のデータ分析5 - R言語のlm()関数で重回帰分析をする。そして、scatterplot3d()関数で3D散布図を描く

Photo by Ian Parker on Unsplash www.crosshyou.info の続きです。 今回は、R言語のlm()関数で重回帰分析をしてみます。 前回までは、sougou: 総合をhouse: 住居、utility: 水道・光熱費とそれぞれ一つの説明変数で回帰分析していました。今回は、house: 住…

小売物価統計調査のデータ分析4- OLSの3つの特性とSST(total sum of squares), SSE(explained sum of squares), SSR(residual sum of squares), SER(standard error of the regression), 説明変数の標準誤差

Photo by Subtle Cinematics on Unsplash www.crosshyou.info の続きです。 今回は、 Introductory Econometrics: A Modern Approach 作者:Wooldridge, Jeffrey M. Cengage Learning Amazon Introductory Econometorics: A Modef\rn Approace 7e, by Jeffrey…

小売物価統計調査のデータ分析3 - R言語のlm()関数で単回帰分析。マニュアル計算でも切片と傾きを求める。

Photo by Simon Berger on Unsplash www.crosshyou.info の続きです。 前回はいろいろなグラフを作成しました。今回は分析的なことをしてみましょう。 まず、sougou: 総合物価指数と他の種類の物価の相関を調べてみます。 一番相関が無いのは、utility: 光熱…