www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

データ分析

都道府県別の雇用動向調査のデータ分析4 - Rのinferパッケージのワークフローで、ANOVA分析。年によって入職者数に違いがあるとは言えない。

Bing Image Creator から作成:Clean River www.crosshyou.info このポストは上のポストの続きです。 前回の分析では、都道府県別で見たとき、男性の入職者数と女性の入職者数には違いがある、ということがわかりました。 今回は、年によって入職者数に違い…

都道府県別の雇用動向調査のデータ分析3 - 女性の入職者数と男性の入職者数に違いがあるかどうかをRで信頼区間を計算して調べる。

UnsplashのAlexander Sinnが撮影した写真 www.crosshyou.info の続きです。前回は女性の入職者数と男性の入職者数の分布状況をヒストグラムにしてみました。ヒストグラムの分布形状は女性と男性で違いがあるようには見えませんでした。 今回はこれを、Rを使…

都道府県別の雇用動向調査のデータ分析2 - 入職者数のヒストグラムを男性・女性別に重ねてヒストグラムにする。

UnsplashのSigmundが撮影した写真 www.crosshyou.info の続きです。 前回はCSVファイルにあるデータをRに読み込ませて、分析しやすいようにデータフレームを整えました。 今回はデータをグラフにしてみます。 まず、total(全体の入職者数)をヒストグラムにし…

都道府県別の雇用動向調査のデータ分析1 - Rのread_csv()関数でCSVファイルを読み込み、filter()関数やmutate()関数でデータを整え、skim()関数でデータを確認する。

Bing Image Creator から作成 今回は、都道府県別の雇用動向調査のデータを分析します。 政府統計の総合窓口(e-stat)のホームページからデータをダウンロードします。 入職者のところをクリックしてみます。 性、都道府県、職歴、年齢別入職者数のDBのところ…

都道府県別の医療施設調査の病院数のデータ分析7 - Rで階層的クラスタリングをしてみる。

UnsplashのJan Cantyが撮影した写真 www.crosshyou.info 今回は、Rで階層的クラスタリングをしてみます。 R言語でクラスタリングしてみた - Qiita を参考にしています。 まずは、クラスリング用のマトリックスオブジェクトを作成します。 chg: 病院数の変化…

都道府県別の医療施設調査の病院数のデータ分析6 - 線形回帰分析の係数の信頼区間は、理論ベースよりもシミュレーションベースのほうがいいよ。

UnsplashのKwang Mathurosemontriが撮影した写真 www.crosshyou.info 今回は、per_chg: 人口10万人当たりの病院数の変化をper1999: 1999年の人口10万人当たりの病院数と、y1999: 1999年の病院数で回帰分析をしてみましょう。 まずは、lm()関数で回帰分析して…

都道府県別の医療施設調査の病院数のデータ分析5 - 人口10万人当たりの病院数の変化を見る。福井県が大幅に減少。

UnsplashのAhmed Zayanが撮影した写真 www.crosshyou.info の続きです。 今回は1999年の人口10万人当たりの病院数と2019年の人口10万人当たりの病院数を比べてみましょう。 1999年の人口10万人当たりの病院数を求めるためには、1999年の都道府県別の人口のデ…

都道府県別の医療施設調査の病院数のデータ分析4 - 病院数と人口10万人当たりの病院数の回帰分析をRのlm()関数で実行する。

UnsplashのFlorentina Tilvicが撮影した写真 www.crosshyou.info 今回は、病院数と人口10万人当たりの病院数の関係性をみてみましょう。 まず、散布図を描きます。 ggplot() + geom_point()関数で散布図を作成しました。 あんまり関係なさそうです。 今回は …

都道府県別の医療施設調査の病院数のデータ分析3 - Rのinferパッケージを利用して、相関係数の検定を行う。

UnsplashのBob Brewerが撮影した写真 www.crosshyou.info 前回は、cor.test()関数を使って病院の数の変化幅と、開始年の病院の数の相関を検定しました。結果は、相関係数は-0.725と負の強い相関があり、95%信頼区間は-0.838 ~ -0.553でした。 今回は、infer…

都道府県別の医療施設調査の病院数のデータ分析2 - Rで棒グラフや散布図を描く。相関関係の検定をcor.test()関数で行う。

UnsplashのJoseph Chanが撮影した写真 www.crosshyou.info の続きです。 前回は、CSVファイルのデータをRのread_csv()関数で読み込み、summary()関数で平均値などの統計値を見ました。 1999年から病院の数は減り続けていることがわかりました。 そして、病院…

都道府県別の医療施設調査の病院数のデータ分析1 - RにCSVファイルのデータを 読み込む。

Unsplashのaboodi vesakaranが撮影した写真 今回は都道府県別の医療施設調査のデータを分析してみます。 政府統計の総合窓口(www.e-stat.go.jp)のウェブサイトからCSVファイルをダウンロードしました。 このようなCSVファイルです。年ごとの病院数と、2019年…

都道府県別の工業統計調査のデータの分析7 - RでHeteroskedasticity Robust Inference とWLS(Weighted Least Square)

UnsplashのWolfgang Hasselmannが撮影した写真 www.crosshyou.info の続きです。 前回は、Rのlm()関数で線形回帰分析をしました。そして、そのモデルはHeteroskedasticityだとわかりました。このときの対処方法は、ひとつは、Heteroskedasticity Robustな標…

都道府県別の工業統計調査のデータの分析6 - Rのlm()関数で線形回帰分析を実行して、Heteroskedasticityをチェックした。

UnsplashのEugene Golovesovが撮影した写真 www.crosshyou.info の続きです。 今回は、Rで回帰分析をしてみたいと思います。 被説明変数を gdp : 県内総生産額にして、説明変数を num_jin, sta_num, sal_sta, inp_num, out_inp, add_staにしてみます。 まず…

都道府県別の工業統計調査のデータの分析5 - クラスタリングするときはデータを標準化することが大事

UnsplashのMarjolein vVが撮影した写真 www.crosshyou.info の続きです。 前回はクラスタリング分析をしたのですが、少し気になる結果になりました。 それは、 このように、inp_numの値ではっきりとグループが分かれたことです。 考えてみると、クラスタリン…

都道府県別の工業統計調査のデータの分析4 - Rでクラスタリング分析 - 東京都と沖縄県は似ている。

UnsplashのKatie Aziが撮影した写真 www.crosshyou.info の続きです。 今回は、クラスタリング分析をしてみます。 まず、クラスタリング分析をするためのマトリックスオブジェクトを作成します。 今回は、num_jin : 人口当たりの事業所の数、sta_num : 事業…

都道府県別の工業統計調査のデータの分析3 - ひとつひとつの工場の規模が大きいのは山口県

UnsplashのAnthony DELANOIXが撮影した写真 www.crosshyou.info の続きです。 引き続き、各変数をグラフにしていきます。まずは、input : 原材料使用額(百万円単位)です。 summary()関数で基本統計値を確認します。 一番少ないところは、3434億円、一番多い…

都道府県別の工業統計調査のデータの分析2 - 事業所の数は大阪府が多い、現金給与総額は愛知県が多い。

UnsplashのWolfgang Hasselmannが撮影した写真 www.crosshyou.info 今回のブログは前回の続きです。前回はCSVファイルのデータをRに読み込ませました。 それでは、一つ一つの変数を詳しくみていきましょう。 まずは、num: 事業所の数です。summary()関数で基…

都道府県別の工業統計調査のデータの分析1 - データをRに読み込ませる。

UnsplashのOpal Siegalが撮影した写真 今回からしばらくは、都道府県別の工業統計調査のデータを分析してみたいと思います。 データは、政府統計の総合窓口、e-stat.go.jp から取得します。 こんな感じのデータです。 これをCSVファイルに出力します。 この…

都道府県別の世帯土地統計のデータの分析7 - Rのdist()関数、hclust()関数、plot()関数、cutree()関数で階層的クラスタリング分析をする。

UnsplashのRap Dela Reaが撮影した写真 www.crosshyou.info の続きです。 今回は、Rで階層的クラスタリング分析をしてみます。 まず、クラスタリング分析をするためのデータフレームを用意します。 setaiの種類を総数だけにして、l_shoyu, l_noshoyu, l_hoka…

都道府県別の世帯土地統計のデータの分析6 - Rで回帰分析。所得の大きいところほど土地の所有世帯数は多い。

UnsplashのAlfons Moralesが撮影した写真 www.crosshyou.info の続きです。前回は2つの変数どうしの相関係数を調べて、信頼区間をcor.test()関数とブートストラップ法で算出しました。 今回は、回帰分析をしてみようと思います。 回帰分析の非説明変数は、l…

都道府県別の世帯土地統計のデータの分析5 - Rのcor.test()関数とブートストラップ法で相関係数の信頼区間を調べる

Unsplashの2H Mediaが撮影した写真 www.crosshyou.info の続きです。 前回は、各変数の上位と下位の都道府県を見てみました。 今回は2つの変数間の相関係数について見てみます。 まず。データフレームを世帯の種類が「総数」だけにします。世帯の種類には注…

都道府県別の世帯土地統計のデータの分析4 - Rのfilter()関数や、select()関数でデータフレームを絞り込み、arrange()関数でデータフレームを並び替える。

UnsplashのWolfgang Hasselmannが撮影した写真 www.crosshyou.info の続きです。 今回は、各変数のランキングを見てみようと思います。 まずは、totalのランキングです。setaiの種類を「総数」だけに絞ってランキングします。 東京都、大阪府、神奈川県、愛…

都道府県別の世帯土地統計のデータの分析3 - Rのggplot() + geom_point()関数で、一人当たりの県民所得と土地の所有世帯数の散布図を描く。

UnsplashのShana Van Roosbroekが撮影した写真 www.crosshyou.info の続きです。 前回はそれぞれの変数の分布を見るために、ヒストグラムを作成しました。 今回は2つの変数の関係性を見るために、散布図を描いてみます。 まず、l_totalとshotokuをみてみま…

都道府県別の世帯土地統計のデータの分析2 - Rのggplot() + geom_histogram()関数で各変数のヒストグラムを描く。

UnsplashのGuillaume Chabrolが撮影した写真 www.crosshyou.info の続きです。 前回はデータのCSVファイルをRにインポートしました。 まず、skimrパッケージのskim()関数で各変数の基本統計量を一覧します。 282行、10列のデータフレームで、文字列型の変数…

都道府県別の世帯土地統計のデータの分析1 - Rのread_csv()関数でCSVファイルを読み込み、inner_join()関数でデータフレームを統合する。

UnsplashのJasmin Maagが撮影した写真 今回は、都道府県別の世帯土地統計のデータを分析してみようと思います。 政府統計の総合窓口(www.e-stat.go.jp)からデータを取得します。 たくさんデータセットがありましたが、今回は一番上の「世帯人員、土地の所有…

都道府県別の建築物リフォーム・リニューアル調査のデータ分析9 - Rでパネルデータ分析

UnsplashのYouSsef NaDramが撮影した写真 www.crosshyou.info の続きです。前回は、l_total: リフォーム・リニューアルの金額の自然対数値を被説明変数、l_shotoku23: 県民1人当たり所得の自然対数値、l_total_prev: 前年のl_total、yearを説明変数にして回…

都道府県別の建築物リフォーム・リニューアル調査のデータ分析8 - 前年の被説明変数値を含めての回帰分析すると、結果は全く違った結果になった。

UnsplashのArham Jainが撮影した写真 www.crosshyou.info の続きです。前回は、l_total: 建築物リフォーム・リニューアルの金額の自然対数値をl_shotoku23: 県民1人当たり所得とyear: 調査年度の2つの説明変数で回帰分析してみました。 今回は、前年度のl_to…

都道府県別の建築物リフォーム・リニューアル調査のデータ分析7 - リフォーム・リニューアルの金額を県民1人当たり所得で回帰分析してみる。

UnsplashのRedd Fが撮影した写真 www.crosshyou.info の続きです。 今回は、l_total: リフォーム・リニューアルの金額の対数変換値値をl_shotoku23: 平成23年基準の県民1人当たり所得の対数変換値で回帰分析してみます。1人当たり所得の所得が大きいほど、リ…

都道府県別の建築物リフォーム・リニューアル調査のデータ分析6 - Rのcaretパッケージでratioを予測するモデルを作る。その2

UnsplashのLeonid Antsiferovが撮影した写真 www.crosshyou.info の続きです。引き続き、caretパッケージでratioを予測するモデルを作成していきます。 まずは、linear regression modelで、もう少し複雑なモデルにしてみます。 l_totalの2乗項と、l_total x…

都道府県別の建築物リフォーム・リニューアル調査のデータ分析5 - Rのcaretパッケージでratioを予測するモデルを作る。その1

UnsplashのDiego PHが撮影した写真 www.crosshyou.info 前回は、l_totalを2016年度、2017年度、2018年度で回帰分析してみました。理論ベースでもbootstrapでのシミュレーションベースでも、年度によってl_totalの平均値には違いがあることが確認できました。…