www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

データ分析

都道府県別の睡眠の平均時間のデータの分析4 - Rのt.test()関数で平均値の差の検定とinferパッケージでANOVA。女子のほうが睡眠時間が短い。

Generated by Bing Imae Creator:realistic photo of a Chimonanthus praecox www.crosshyou.info の続きです。前回までで、だいたいの睡眠時間の様子がわかりましたので、今回は男性と女性で睡眠時間に差があるのかどうかを調べてみましょう。 平均値の違い…

都道府県別の睡眠の平均時間のデータの分析3 - Rのdplyrパッケージでグループ化して最大値・最小値を並び替え。

Generated by Bing Image Creator:Realistic Photo of winter flower park www.crosshyou.info の続きです。今回はRのdplyrパッケージで、データフレームをgroup_by()関数でグループ化して、slice_max()関数やslice_max()関数でグループごとの最大値や最小値…

都道府県別の睡眠の平均時間のデータの分析2- Rのpivot_longer()でデータフレームを縦長に変換して、ggplot2パッケージでデータの視覚化

Generated by Bing Image Creator: Beautiful Photo of colorful landscape of green grass field, yellow and blue flowers www.crosshyou.info の続きです。 今回は「百聞は一見に如かず」という言葉もありますので、Rのggplot2パッケージでデータをグラフ…

都道府県別の睡眠の平均時間のデータの分析 1 - RにCSVファイルのデータを読み込む。無業者の男子と有業者女子で1時間以上、平均睡眠時間に差がある。

Generated by Bing Image Creator: Beautiful Photo, tropical coral sea, colorful fishes 今回は、政府統計の総合窓口(e-stat)から都道府県別の睡眠時間のデータを分析してみましょう。 男性と女性で睡眠時間に差があるのか?10歳以上と15歳以上で差がある…

UCIのDry Bean Datasetのデータ分析4 - Rのlm()関数、rpartパッケージで回帰分析

Bing Image Creatorで生成:菜の花がいっぱい咲いている、月世界の写真 www.crosshyou.info の続きです。前の2回はClassificationをrpartパッケージとglmnetパッケージを使って実行しました。今回はRegressionを実行してみます。非説明変数をroundnessにして…

UCIのDry Bean Datasetのデータ分析3 - RのglmnetパッケージでElastic-Net Regression

Bing Image Creatorで生成: Photo of many flowers of morning glory on the wild grass field, background beautiful sky www.crosshyou.info の続きです。前回はRのrpartパッケージを使ってRegression Treeのモデルを推定してDERMASONとSIRAの分類をしてみ…

UCIのDry Bean Datasetのデータ分析2 - RのrpartパッケージでClassification Tree

Generated by Bing Image Creator: Photo of many iris flowers in water world in the dinosaur age www.crosshyou.info の続きです。 今回は、RのrpartパッケージでClassification TreeをつかってDERMASONとSIRAを区別してみます。 How to Fit Classificat…

UCIのDry Bean Datasetのデータ分析1 - データの視覚化

Generated by Bing Image Creator: Photo of many beans and bean flowers blooming in a field Dry Bean Dataset. (2020). UCI Machine Learning Repository. https://doi.org/10.24432/C50S4B. 今回は、UCIのDry Bean Datasetのデータで、Rを使ってClassif…

都道府県別の企業の土地取得状況等に関する調査のデータ分析7 - 県内総生産額との関係を回帰分析でみてみる

UnsplashのEthan Robertsonが撮影した写真 www.crosshyou.info の続きです。 今回は、県内総生産額との関係を調べてみます。 まず、政府統計の総合窓口から県内総生産額のデータをダウンロードします。 このようなファイルです。これをRにread_csv()関数で読…

都道府県別の企業の土地取得状況等に関する調査のデータ分析6 - Rで階層的クラスタリングと主成分分析

Generated by Bing Image Creator: Photo of very beautiful wooden building, blighter morning and blue sky and white could image www.crosshyou.info の続きです。 今回は、Rで階層的クラスタリングと主成分分析をしてみます。 まずはクラスタリング用…

都道府県別の企業の土地取得状況等に関する調査のデータ分析5 - 土地取得の企業数の変化率をRのlm()関数で重回帰分析。

Generated by Bing Image Creator: Taken from the ground of a clear, clean stream in Japan Photo. www.crosshyou.info の続きです。 前回は、num_chg_pct: 企業数の変化率と area_chg_pct: 面積の変化率の相関係数を調べました。その結果、両者に相関関…

都道府県別の企業の土地取得状況等に関する調査のデータ分析4 - Rで相関関係の有無をチェック。理論ベースとシミュレーションベースで。

Generated by Bing Image Creator: photo of amazon river from the ground view www.crosshyou.info 今回は、二つの変化率の相関についてみてみましょう。 はじめに散布図をRのggplot() + geom_point()関数で描いてみます。 geom_text() 関数もつかって都道…

都道府県別の企業の土地取得状況等に関する調査のデータ分析3 - Rで2006年と2008年の変化幅、変化率を調べる。

Generated by Bing Image Creator: Photo of morning sunshine grass field, butterflies, birds, white clouds in the blue sky www.crosshyou.info の続きです。今回は2008年と2006年の変化幅を調べてみます。 まず、pivot_wider()関数で2006年のデータと2…

都道府県別の企業の土地取得状況等に関する調査のデータ分析2- Rのarrange()関数でデータフレームを並び替える。

Generated by Bing Image Creator: Photographic landscape, small river and big mountains and blue sky www.crosshyou.info の続きです。 今回は各変数のランキングをみてみます。 まずは、num_total: 企業数【社】総数 総数です。 企業数が多いところは…

都道府県別の企業の土地取得状況等に関する調査のデータ分析1 - CSVファイルを読み込む

Generated by Bing Image Creator: Photograph of exotic Japan, blue background, more blight 今回は、政府統計の総合窓口(e-stat.go.jp)のサイトから都道府県ごとの企業の土地取得状況等に関する調査のデータを分析してみます。 企業の土地取得状況等に関…

都道府県別の長屋建住宅数のデータの分析6 - 回帰分析を R の infer パッケージの枠組みで実行して p値を計算する。

Generated by Bing Image Creator: Japanese river fall and blue sky and green and red and yellow forests www.crosshyou.info の続きです。 今回は、前回、前々回で実行した回帰分析を、infer パッケージの枠組みで実行してみます。 Full infer Pipeline…

都道府県別の長屋建住宅数のデータの分析5 - Rで回帰分析。木造の長屋建住宅数/非木造の長屋建住宅数は2013年度は2003年度と比較して低下。

Generated by Bing Image Creator: Photographic of summer festival, beautiful flowers and landscape www.crosshyou.info の続きです。 今回は非説明変数をmoku_not(木造の長屋建住宅数 / 非木造の長屋建住宅数)にしてみます。 回帰分析をする前に、散布…

都道府県別の長屋建住宅数のデータの分析4 - 回帰分析によると、人口が増えると長屋建住宅数は増え、県内総生産額が増えると長屋建住宅数は減る。

Generated by Bing Image Creator : Photographic autumn festival www.crosshyou.info の続きです。 今回は、回帰分析をしてみます。 被説明変数をl_totalにして、説明変数をyear, l_pop, l_gdpにしてみましょう。 まず、散布図を描いてみます。 散布図を見…

都道府県別の長屋建住宅数のデータの分析3 - Rで都道府県別ランキングのグラフを作成。

Generated by Bing Image Creator: Photograph of African field with wild animals and beautiful flowers. www.crosshyou.info の続きです。 木造の長屋建住宅数/非木造の長屋建住宅数、人口当たりの長屋建住宅数、県内総生産額当たりの長屋建住宅数の変数…

都道府県別の長屋建住宅数のデータの分析2 - Rのmutate()関数で新しい変数を作成し、ggplot()+geom_histogram(), hist()関数でヒストグラムを描く。

Generated by Bing Image Creator: landscape photograph, large river, blue ocean, white clouds. www.crosshyou.info の続きです。 まず、数値型変数を対数変換した新しい変数を作ります。ついでに木造の長屋と非木造の長屋の比率の変数も作ります。 新し…

都道府県別の長屋建住宅数のデータの分析1 - Rのread_csv()関数でCSVファイルを読み込み、skim()関数で様子を確認

Generated by Bing Image Creator: rice field, blue sky, little flower 今回は、都道府県別の長屋建住宅数のデータを分析してみようと思います。 政府統計の総合窓口、e-statのウェブサイトからデータを取得します。 地域のところをクリックします。 デー…

都道府県別の雇用動向調査のデータ分析8 - Rで主成分分析をして散布図を描く。

Bing Image Creatorで生成。Photograph, Small River, Green Grass, Blue Flowers www.crosshyou.info の続きです。 前回は階層的クラスタリングをしてみました。 今回は主成分分析をしてみます。prcomp()機能で簡単に実行できます。 第1主成分と第2主成分だ…

都道府県別の雇用動向調査のデータ分析7 - 階層的クラスタリングをすると、和歌山県が特別な存在だとわかった。

Bing Image Creatorから生成。Big Mountain, White Snow, Blue Sky, Photo www.crosshyou.info このポストは、上のポストの続きです。 前回のポストでは、男性と女性の入職者比率が若い世代では違いはありませんでしたが、老年の世代では違いがあることがわ…

都道府県別の雇用動向調査のデータ分析6 - 男性と女性で若年層、老年層の入職者比率に違いはあるのか?

Bing Image Creatorから生成(Natural Rainforest and a Bird) www.crosshyou.info このポストは上のポストの続きです。 前回のポストで、若年層の入職者比率では男女の違いはなさそうでしたが、老年層の入職者比率では違いがありそうでした。 今回はもう少し…

都道府県別の雇用動向調査のデータ分析5 - 若年層の入職者比率と老年層の入職者比率

Bing Image Creator から生成:Photographic Flower Field www.crosshyou.info このポストは、上のポストの続きです。 前回のポストでは、年によってtotalの入職者数に統計的な違いは無いことがわかりました。 今回は、分析の観点を変えて、若年層の入職者数…

都道府県別の雇用動向調査のデータ分析4 - Rのinferパッケージのワークフローで、ANOVA分析。年によって入職者数に違いがあるとは言えない。

Bing Image Creator から作成:Clean River www.crosshyou.info このポストは上のポストの続きです。 前回の分析では、都道府県別で見たとき、男性の入職者数と女性の入職者数には違いがある、ということがわかりました。 今回は、年によって入職者数に違い…

都道府県別の雇用動向調査のデータ分析3 - 女性の入職者数と男性の入職者数に違いがあるかどうかをRで信頼区間を計算して調べる。

UnsplashのAlexander Sinnが撮影した写真 www.crosshyou.info の続きです。前回は女性の入職者数と男性の入職者数の分布状況をヒストグラムにしてみました。ヒストグラムの分布形状は女性と男性で違いがあるようには見えませんでした。 今回はこれを、Rを使…

都道府県別の雇用動向調査のデータ分析2 - 入職者数のヒストグラムを男性・女性別に重ねてヒストグラムにする。

UnsplashのSigmundが撮影した写真 www.crosshyou.info の続きです。 前回はCSVファイルにあるデータをRに読み込ませて、分析しやすいようにデータフレームを整えました。 今回はデータをグラフにしてみます。 まず、total(全体の入職者数)をヒストグラムにし…

都道府県別の雇用動向調査のデータ分析1 - Rのread_csv()関数でCSVファイルを読み込み、filter()関数やmutate()関数でデータを整え、skim()関数でデータを確認する。

Bing Image Creator から作成 今回は、都道府県別の雇用動向調査のデータを分析します。 政府統計の総合窓口(e-stat)のホームページからデータをダウンロードします。 入職者のところをクリックしてみます。 性、都道府県、職歴、年齢別入職者数のDBのところ…

都道府県別の医療施設調査の病院数のデータ分析7 - Rで階層的クラスタリングをしてみる。

UnsplashのJan Cantyが撮影した写真 www.crosshyou.info 今回は、Rで階層的クラスタリングをしてみます。 R言語でクラスタリングしてみた - Qiita を参考にしています。 まずは、クラスリング用のマトリックスオブジェクトを作成します。 chg: 病院数の変化…