2021-08-01から1ヶ月間の記事一覧
高地文明―「もう一つの四大文明」の発見 (中公新書 2647) 作者:山本 紀夫 中央公論新社 Amazon 一般に知られている四大文明は、黄河文明、エジプト文明、インダス文明、メソポタミア文明の4つで、これらの文明は大河があることによって、穀類の大量栽培が可…
Photo by Luca Bravo on Unsplash www.crosshyou.info This post is following of above post. I will makse some graphs for data visualization using R. Fist, let's see how our data are distributed. I use ggplot() + geom_histogram() First, emp(em…
Photo by Trevor McKinnon on Unsplash In this post, I will analyze OECD Gender wage gap data. From the OECD web site, I downloaded the CSV data file like below. I will use R to analyze this data. First, I load tidyverse packages Then, I use…
Photo by shay cohen on Unsplash www.crosshyou.info の続きです。前回は都道府県別の平均値のデータフレームで回帰分析しましたが、今回は生のデータフレームで回帰分析してみます。 まず、変数間の散布図マトリックスをみてみます。 相関係数マトリックス…
Photo by Sajad Nori on Unsplash www.crosshyou.info の続きです。 今回は都道府県別の平均値のデータフレームを使って、回帰分析をしてみます。 まずは、east, big6, noseaというダミー変数を加えないで回帰分析してみます。 R言語のlm()関数を使います。 …
Photo by Tanya Grypachevskaya on Unsplash www.crosshyou.info の続きです。 まず、R言語のgroup_by()関数とsummarize()関数を使って、年ごとの平均値を計算してみます。 2002年、2005年、2008年、2011年、2014年と3年ごとに5年間ぶんのデータがあったので…
Photo by Tim Mossholder on Unsplash www.crosshyou.info の続きです。 今回はriyou以外の各変数の分布をみてみます。 まずは、mitsudo: 可住地面積1平方キロメートル当たりの人数、つまり人口密度です。 右のほうに外れ値っぽい分布があるのがわかります…
Photo by Rob Sheahan on Unsplash www.crosshyou.info の続きです。 riyou: 一般病院病床利用率(%)について、もう少しグラフをみてみます。 まずは、year: 調査年との関係です。 全体として、年を追うごとに一般病院病床利用率は低くなっていることがわかり…
Photo by L J on Unsplash www.crosshyou.info の続きです。 今回はgridExtraパッケージのgrid.arrange()関数でグラフを並べて表示できることを知ったので、忘れないように実践します。 riyou: 一般病院病床利用率(%)をグラフにします。 まずは、ヒストグラ…
Photo by Federico Bottos on Unsplash 新型コロナウイルスの影響で病床利用率がひっ迫している、というニュースをよく見聞きしますので、普段の病床利用率はどんなものなのか調べてみようと思いました。 政府統計の総合窓口(www.e-stat.go.jp)からデータを…
Photo by Toni Lluch on Unsplash www.crosshyou.info This post is following of above post.In this post I will do Bootstrap and make confidence inerval of regression. First, let's check coefficients for static regression model again. Intercep…
Photo by Jeremy Bishop on Unsplash www.crosshyou.info This post is following of above post.In this post, I will do time-series data regression using R. Firstly, I converted avg_gr_us in 10000 value. Then, I converted df_year2 data frame to…
Photo by V Srinivasan on Unsplash www.crosshyou.info This post is following of the above post. In this post, let's do simple linaer regression anaysis using R. First, I use df_country data frame. Coefficients of avg_gr_us is -1.002e-04, it…
OECD Household disposable income data analysis 4 - make a data frame by country and by year using R.
Photo by Olga Tsai on Unsplash www.crosshyou.info This post is following of above post. In this post, let's make average value data frame by country and by year. First, I make a data frame for average value by country using group_by() func…
Photo by Lorena Schmidt on Unsplash www.crosshyou.info This post is following of above post. In this post, let's make some graphs to understand data distributions, data relationship. Fisrt, a histgram of gr_us. ecdf plot of gr_us. boxplot …
Photo by CHUTTERSNAP on Unsplash www.crosshyou.info This post is following of above post. In the previous post, we made a dafa frame called a "df". We see there are two values in subject, GROSSADJ and NET, two values in measure, AGRWTH and…
Photo by Bob Brewer on Unsplash In this post, I will analyze OECD Household disposable income. Household accounts - Household disposable income - OECD Data I got below CSV file from the web site. I will import this data into R. First of al…
Photo by Matt Anderson on Unsplash www.crosshyou.info の続きです。 前回の続きで、今度は交差項を含んだ回帰分析をします。 まずは、per_shobuをincとその他で回帰分析します。 p-valueが1.387e-13とかなり小さいの有意なモデルです。Multiple R-sauared…
Photo by Sam Mgrdichian on Unsplash www.crosshyou.info の続きです。 前回までの分析で気づいたことは、1人当たり県民所得が大きいところは1人当たりの書籍・文房具販売額も大きいということです。 相関係数を確認してみると、 というように相関係数は0.8…
Photo by Thor Alvis on Unsplash www.crosshyou.info の続きです。 今回はR言語でデータを可視化します。 ggplot2パッケージでのチャートをいくつか作ってみます。 per_shobu: 1人当たり年間書籍・文房具販売額(千円)のチャートです。geom_barでバーチャー…
Photo by Jan Haerer on Unsplash www.crosshyou.info の続きです。 今回は各変数の基本的な記述統計量をみてみます。 最小値はmin()関数、最大値はmax関数、平均値はmean()関数、中央値はmedian()関数、標準変数はsd()関数、パーセンタイル値は、quantile()…
Photo by Wil Stewart on Unsplash 今回は都道府県別の書籍・文房具の販売金額のデータを分析しようと思います。 データは政府統計の総合窓口、e-statから取得しました。(www.e-stat.go.jp) 47都道府県を選択して、 総人口、15~64歳の男性の割合、15~64歳の…
Photo by JJ Ying on Unsplash www.crosshyou.info This post is following of above post.In this post, I woll do time series data regression using R , dynlm package. Firstly, I wll make time series data. Then, let's see how data is looking. Le…
Photo by Yoksel Zok on Unsplash www.crosshyou.info This post is following of above post.In the previous post, we see it is better to convert all variables to logarithm to make more normal distribition looking.So, let's make new variables.…
Photo by Robert Lukeman on Unsplash www.crosshyou.info This post is following og above post. We have five combinations for value, 1. ACCI & NBR 2. DEATH & HAB 3. DEATH & VEH 4. DEATH & NBR 5. INJURE & NBR So, I will make five sub data fram…
コロナ感染者が日ごとに増加していますね。。 年齢別では30代以下が7割との報道がありましたが、 感染者急増 30代以下が7割超 - Yahoo!ニュース 職業別ではどうなっているのでしょうか? 気になったので、東京都のデータで調べてみました。 上の画像の東京都…