www.crosshyou.info

政府統計の総合窓口のデータや、OECDのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

データ分析

都道府県ごとの企業の土地取得状況等に関する調査のデータ分析1 - CSVファイルを読み込む

Generated by Bing Image Creator: Photograph of exotic Japan, blue background, more blight 今回は、政府統計の総合窓口(e-stat.go.jp)のサイトから都道府県ごとの企業の土地取得状況等に関する調査のデータを分析してみます。 企業の土地取得状況等に関…

都道府県別の長屋建住宅数のデータの分析6 - 回帰分析を R の infer パッケージの枠組みで実行して p値を計算する。

Generated by Bing Image Creator: Japanese river fall and blue sky and green and red and yellow forests www.crosshyou.info の続きです。 今回は、前回、前々回で実行した回帰分析を、infer パッケージの枠組みで実行してみます。 Full infer Pipeline…

都道府県別の長屋建住宅数のデータの分析5 - Rで回帰分析。木造の長屋建住宅数/非木造の長屋建住宅数は2013年度は2003年度と比較して低下。

Generated by Bing Image Creator: Photographic of summer festival, beautiful flowers and landscape www.crosshyou.info の続きです。 今回は非説明変数をmoku_not(木造の長屋建住宅数 / 非木造の長屋建住宅数)にしてみます。 回帰分析をする前に、散布…

都道府県別の長屋建住宅数のデータの分析4 - 回帰分析によると、人口が増えると長屋建住宅数は増え、県内総生産額が増えると長屋建住宅数は減る。

Generated by Bing Image Creator : Photographic autumn festival www.crosshyou.info の続きです。 今回は、回帰分析をしてみます。 被説明変数をl_totalにして、説明変数をyear, l_pop, l_gdpにしてみましょう。 まず、散布図を描いてみます。 散布図を見…

都道府県別の長屋建住宅数のデータの分析3 - Rで都道府県別ランキングのグラフを作成。

Generated by Bing Image Creator: Photograph of African field with wild animals and beautiful flowers. www.crosshyou.info の続きです。 木造の長屋建住宅数/非木造の長屋建住宅数、人口当たりの長屋建住宅数、県内総生産額当たりの長屋建住宅数の変数…

都道府県別の長屋建住宅数のデータの分析2 - Rのmutate()関数で新しい変数を作成し、ggplot()+geom_histogram(), hist()関数でヒストグラムを描く。

Generated by Bing Image Creator: landscape photograph, large river, blue ocean, white clouds. www.crosshyou.info の続きです。 まず、数値型変数を対数変換した新しい変数を作ります。ついでに木造の長屋と非木造の長屋の比率の変数も作ります。 新し…

都道府県別の長屋建住宅数のデータの分析1 - Rのread_csv()関数でCSVファイルを読み込み、skim()関数で様子を確認

Generated by Bing Image Creator: rice field, blue sky, little flower 今回は、都道府県別の長屋建住宅数のデータを分析してみようと思います。 政府統計の総合窓口、e-statのウェブサイトからデータを取得します。 地域のところをクリックします。 デー…

都道府県別の雇用動向調査のデータ分析8 - Rで主成分分析をして散布図を描く。

Bing Image Creatorで生成。Photograph, Small River, Green Grass, Blue Flowers www.crosshyou.info の続きです。 前回は階層的クラスタリングをしてみました。 今回は主成分分析をしてみます。prcomp()機能で簡単に実行できます。 第1主成分と第2主成分だ…

都道府県別の雇用動向調査のデータ分析7 - 階層的クラスタリングをすると、和歌山県が特別な存在だとわかった。

Bing Image Creatorから生成。Big Mountain, White Snow, Blue Sky, Photo www.crosshyou.info このポストは、上のポストの続きです。 前回のポストでは、男性と女性の入職者比率が若い世代では違いはありませんでしたが、老年の世代では違いがあることがわ…

都道府県別の雇用動向調査のデータ分析6 - 男性と女性で若年層、老年層の入職者比率に違いはあるのか?

Bing Image Creatorから生成(Natural Rainforest and a Bird) www.crosshyou.info このポストは上のポストの続きです。 前回のポストで、若年層の入職者比率では男女の違いはなさそうでしたが、老年層の入職者比率では違いがありそうでした。 今回はもう少し…

都道府県別の雇用動向調査のデータ分析5 - 若年層の入職者比率と老年層の入職者比率

Bing Image Creator から生成:Photographic Flower Field www.crosshyou.info このポストは、上のポストの続きです。 前回のポストでは、年によってtotalの入職者数に統計的な違いは無いことがわかりました。 今回は、分析の観点を変えて、若年層の入職者数…

都道府県別の雇用動向調査のデータ分析4 - Rのinferパッケージのワークフローで、ANOVA分析。年によって入職者数に違いがあるとは言えない。

Bing Image Creator から作成:Clean River www.crosshyou.info このポストは上のポストの続きです。 前回の分析では、都道府県別で見たとき、男性の入職者数と女性の入職者数には違いがある、ということがわかりました。 今回は、年によって入職者数に違い…

都道府県別の雇用動向調査のデータ分析3 - 女性の入職者数と男性の入職者数に違いがあるかどうかをRで信頼区間を計算して調べる。

UnsplashのAlexander Sinnが撮影した写真 www.crosshyou.info の続きです。前回は女性の入職者数と男性の入職者数の分布状況をヒストグラムにしてみました。ヒストグラムの分布形状は女性と男性で違いがあるようには見えませんでした。 今回はこれを、Rを使…

都道府県別の雇用動向調査のデータ分析2 - 入職者数のヒストグラムを男性・女性別に重ねてヒストグラムにする。

UnsplashのSigmundが撮影した写真 www.crosshyou.info の続きです。 前回はCSVファイルにあるデータをRに読み込ませて、分析しやすいようにデータフレームを整えました。 今回はデータをグラフにしてみます。 まず、total(全体の入職者数)をヒストグラムにし…

都道府県別の雇用動向調査のデータ分析1 - Rのread_csv()関数でCSVファイルを読み込み、filter()関数やmutate()関数でデータを整え、skim()関数でデータを確認する。

Bing Image Creator から作成 今回は、都道府県別の雇用動向調査のデータを分析します。 政府統計の総合窓口(e-stat)のホームページからデータをダウンロードします。 入職者のところをクリックしてみます。 性、都道府県、職歴、年齢別入職者数のDBのところ…

都道府県別の医療施設調査の病院数のデータ分析7 - Rで階層的クラスタリングをしてみる。

UnsplashのJan Cantyが撮影した写真 www.crosshyou.info 今回は、Rで階層的クラスタリングをしてみます。 R言語でクラスタリングしてみた - Qiita を参考にしています。 まずは、クラスリング用のマトリックスオブジェクトを作成します。 chg: 病院数の変化…

都道府県別の医療施設調査の病院数のデータ分析6 - 線形回帰分析の係数の信頼区間は、理論ベースよりもシミュレーションベースのほうがいいよ。

UnsplashのKwang Mathurosemontriが撮影した写真 www.crosshyou.info 今回は、per_chg: 人口10万人当たりの病院数の変化をper1999: 1999年の人口10万人当たりの病院数と、y1999: 1999年の病院数で回帰分析をしてみましょう。 まずは、lm()関数で回帰分析して…

都道府県別の医療施設調査の病院数のデータ分析5 - 人口10万人当たりの病院数の変化を見る。福井県が大幅に減少。

UnsplashのAhmed Zayanが撮影した写真 www.crosshyou.info の続きです。 今回は1999年の人口10万人当たりの病院数と2019年の人口10万人当たりの病院数を比べてみましょう。 1999年の人口10万人当たりの病院数を求めるためには、1999年の都道府県別の人口のデ…

都道府県別の医療施設調査の病院数のデータ分析4 - 病院数と人口10万人当たりの病院数の回帰分析をRのlm()関数で実行する。

UnsplashのFlorentina Tilvicが撮影した写真 www.crosshyou.info 今回は、病院数と人口10万人当たりの病院数の関係性をみてみましょう。 まず、散布図を描きます。 ggplot() + geom_point()関数で散布図を作成しました。 あんまり関係なさそうです。 今回は …

都道府県別の医療施設調査の病院数のデータ分析3 - Rのinferパッケージを利用して、相関係数の検定を行う。

UnsplashのBob Brewerが撮影した写真 www.crosshyou.info 前回は、cor.test()関数を使って病院の数の変化幅と、開始年の病院の数の相関を検定しました。結果は、相関係数は-0.725と負の強い相関があり、95%信頼区間は-0.838 ~ -0.553でした。 今回は、infer…

都道府県別の医療施設調査の病院数のデータ分析2 - Rで棒グラフや散布図を描く。相関関係の検定をcor.test()関数で行う。

UnsplashのJoseph Chanが撮影した写真 www.crosshyou.info の続きです。 前回は、CSVファイルのデータをRのread_csv()関数で読み込み、summary()関数で平均値などの統計値を見ました。 1999年から病院の数は減り続けていることがわかりました。 そして、病院…

都道府県別の医療施設調査の病院数のデータ分析1 - RにCSVファイルのデータを 読み込む。

Unsplashのaboodi vesakaranが撮影した写真 今回は都道府県別の医療施設調査のデータを分析してみます。 政府統計の総合窓口(www.e-stat.go.jp)のウェブサイトからCSVファイルをダウンロードしました。 このようなCSVファイルです。年ごとの病院数と、2019年…

都道府県別の工業統計調査のデータの分析7 - RでHeteroskedasticity Robust Inference とWLS(Weighted Least Square)

UnsplashのWolfgang Hasselmannが撮影した写真 www.crosshyou.info の続きです。 前回は、Rのlm()関数で線形回帰分析をしました。そして、そのモデルはHeteroskedasticityだとわかりました。このときの対処方法は、ひとつは、Heteroskedasticity Robustな標…

都道府県別の工業統計調査のデータの分析6 - Rのlm()関数で線形回帰分析を実行して、Heteroskedasticityをチェックした。

UnsplashのEugene Golovesovが撮影した写真 www.crosshyou.info の続きです。 今回は、Rで回帰分析をしてみたいと思います。 被説明変数を gdp : 県内総生産額にして、説明変数を num_jin, sta_num, sal_sta, inp_num, out_inp, add_staにしてみます。 まず…

都道府県別の工業統計調査のデータの分析5 - クラスタリングするときはデータを標準化することが大事

UnsplashのMarjolein vVが撮影した写真 www.crosshyou.info の続きです。 前回はクラスタリング分析をしたのですが、少し気になる結果になりました。 それは、 このように、inp_numの値ではっきりとグループが分かれたことです。 考えてみると、クラスタリン…

都道府県別の工業統計調査のデータの分析4 - Rでクラスタリング分析 - 東京都と沖縄県は似ている。

UnsplashのKatie Aziが撮影した写真 www.crosshyou.info の続きです。 今回は、クラスタリング分析をしてみます。 まず、クラスタリング分析をするためのマトリックスオブジェクトを作成します。 今回は、num_jin : 人口当たりの事業所の数、sta_num : 事業…

都道府県別の工業統計調査のデータの分析3 - ひとつひとつの工場の規模が大きいのは山口県

UnsplashのAnthony DELANOIXが撮影した写真 www.crosshyou.info の続きです。 引き続き、各変数をグラフにしていきます。まずは、input : 原材料使用額(百万円単位)です。 summary()関数で基本統計値を確認します。 一番少ないところは、3434億円、一番多い…

都道府県別の工業統計調査のデータの分析2 - 事業所の数は大阪府が多い、現金給与総額は愛知県が多い。

UnsplashのWolfgang Hasselmannが撮影した写真 www.crosshyou.info 今回のブログは前回の続きです。前回はCSVファイルのデータをRに読み込ませました。 それでは、一つ一つの変数を詳しくみていきましょう。 まずは、num: 事業所の数です。summary()関数で基…

都道府県別の工業統計調査のデータの分析1 - データをRに読み込ませる。

UnsplashのOpal Siegalが撮影した写真 今回からしばらくは、都道府県別の工業統計調査のデータを分析してみたいと思います。 データは、政府統計の総合窓口、e-stat.go.jp から取得します。 こんな感じのデータです。 これをCSVファイルに出力します。 この…

都道府県別の世帯土地統計のデータの分析7 - Rのdist()関数、hclust()関数、plot()関数、cutree()関数で階層的クラスタリング分析をする。

UnsplashのRap Dela Reaが撮影した写真 www.crosshyou.info の続きです。 今回は、Rで階層的クラスタリング分析をしてみます。 まず、クラスタリング分析をするためのデータフレームを用意します。 setaiの種類を総数だけにして、l_shoyu, l_noshoyu, l_hoka…