www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

データ分析

UCI の Adult データの分析6 - R の rpart パッケージで決定木での分類 (Classification)

Generated by Bing Image Creator: 遠くの空からの風景写真。牧場に牛が数頭いる。可愛い青い花がたくさん咲いている。 www.crosshyou.info の続きです。 今回は R の rpart パッケージで決定木の方法で分類に挑戦してみたいと思います。まず、rpart, rpart.…

UCI の Adult データの分析5 - R の FNN パッケージで、k-nearest neighbors での Classification

Generated by Bing Image Creator: 広い野原に小川と小道があって、菜の花がいっぱい咲いていて、空は青空の写真 www.crosshyou.info の続きです。 今回は、R の FNN パッケージで、k-nearest neighbors での分類をします。 まずは、FNN パッケージの読み込…

UCI の Adult データの分析4- R の glmnet パッケージを使って、 LASSO, Ridge, Elastic-Net Regression で income の分類に挑戦

Generated by Bing Image Creator: Photo of old times, beautiful mountains scenery, blue sky and white clouds, cheerful flowers www.crosshyou.info の続きです。前回は、 glmnet パッケージで income の分類をするための前準備でした。今回は、実際に…

UCI の Adult データの分析3 - R の glmnet パッケージを使って LASSO, Ridge, Elastic-Net Regression で分類するための前準備

Generated by Bing Image Creator: Long wide view of green grass field. Blue sky and a few white clouds. red flower, yellow flower and blue flower are shining. Photo www.crosshyou.info の続きです。前回と前々回で income と他の変数との関係をグ…

UCI の Adult データの分析2 - 2つのカテゴリカルデータの関係性は geom_col() でバーチャートで。

Generated by Bing Image Creator: Long wide view, wild garden of colorful flowers www.crosshyou.info の続きです。 前回は、データを R に読み込んで、income というカテゴリーデータと数値データの関係性を geom_histogram() でヒストグラムにしてみま…

UCI の Adult データの分析1 - R にデータを取り込み、ヒストグラムで分布を確認

Generated by Bing Image Creator: Very large cherry blossoms, long view from the blue sky, phot 今回は、UCI の Adult のデータを使って、Rの練習をしてみようと思います。 income が年間 $50k を超えるか、超えないかを判別するタスクです。 Becker,Ba…

都道府県別のパソコン所有数量のデータ分析9 - RのrpartパッケージでClassification

Generated by Bing Image Creator: Long view of beach and hibiscus flowers, photo, blue sky and white cloud www.crosshyou.info の続きです。今回は R の rpart パッケージで Classification をしてみましょう。まず、必要なパッケージの読み込みをしま…

都道府県別のパソコン所有数量のデータ分析8- Rのglmnetパッケージで Elastic-Net Multinomial Regression で Classification

Generated by Bing Image Creator: Beautiful close up phot, bulue tulips.www.crosshyou.info の続きです。今回はRのglmnetパッケージで multinomial recgression の方法で都道府県の classification を実行してみます。 まず、glmnet パッケージの読み込…

都道府県別のパソコン所有数量のデータ分析7 - RのFNNパッケージで、knn(k-Nearest Neighbor) Classification

Generated by Bing Image Creator: Beautiful long view of wild forest, many sunflowers, blue sky and white cloud, photo www.crosshyou.info の続きです。 しばらく回帰分析をしていたので、今回は気分を変えてclassificationをやってみましょう。 df_r…

都道府県別のパソコン所有数量のデータ分析6 - Rでパネルデータ分析 - 趣味・娯楽の時間とパソコン所有数量の関係

Generated by Bing Image Creator: A beautiful shiny long view of green grass field and colorful tiny flowers, photo. www.crosshyou.info の続きです。 今回は、仕事の平均時間や、趣味・娯楽の平均時間との関連性を調べてみましょう。 仕事の時間や、…

都道府県別のパソコン所有数量のデータ分析5 - Rでパネルデータ分析 - 大学・大学院卒者の割合とパソコン所有数量の関係

Generated by Bing Image Creator: A long quiet and joyful view of blue morning glory flowers and red rose flowers. www.crosshyou.info の続きです。 前回は1人当たり県民所得とパソコン所有数量の関係をパネルデータ分析の手法で調べてみました。今回…

都道府県別のパソコン所有数量のデータ分析4 - Rでパネルデータ分析 - 1人当たり県民所得とパソコン所有数量の関係

Generated by Bing Image Creator: A beautiful long and quiet view of cherry blossoms and rape blossoms from afarLandscape photo www.crosshyou.info の続きです。 今回はパネルデータ分析の手法で1人当たり県民所得とパソコン所有数量の関係を調べて…

都道府県別のパソコン所有数量のデータ分析3 - Rのlm()関数で回帰分析。所得や大学・大学院卒者の割合、趣味・娯楽の時間が大きいほど、パソコン所有数量も大きい。

Generated by Bing Inage Creator: flower of Lysichiton camtschatcensis schott, photo www.crosshyou.info の続きです。今回は回帰分析でパソコン所有数量が1人当たり県民所得などの変数と関連があるかを調べてみます。 まず、前回と同じように各変数の調…

都道府県別のパソコン所有数量のデータの分析2 - Rのggplot2パッケージでデータを視覚化して全体像をとらえる。

Generated by Bing Image Creator: Lavender Field photo, with blue sky and white clouds in the background www.crosshyou.info 今回のポストは上のポストの続きです。前回はデータをRに取り込むところまでやりました。今回はデータを視覚化してみましょ…

都道府県別のパソコン所有数量のデータの分析1 - Rにデータを読みこむ。

Generated by Bing Image Creator: picture of flower garden in the future, more realistic 今回は都道府県別のパソコン所有数量のデータの分析をしてみたいと思います。 まず、政府統計の総合窓口 e-stat のウェブサイトデータ表示 | 都道府県データ | 社…

都道府県別の睡眠の平均時間のデータの分析5 - Rで回帰分析 - 睡眠時間の平均値と県民一人当り県内総生産額は関連なさそう。

Generated by Bing Image Creator:beautiful clear phot of a flower, wisteria, background is Technopolis www.crosshyou.info の続きです。 前回は、男子と女子では、女子のほうが睡眠時間が短いこと、2001年と2011年では2011年のほうが睡眠時間が短いこ…

都道府県別の睡眠の平均時間のデータの分析4 - Rのt.test()関数で平均値の差の検定とinferパッケージでANOVA。女子のほうが睡眠時間が短い。

Generated by Bing Imae Creator:realistic photo of a Chimonanthus praecox www.crosshyou.info の続きです。前回までで、だいたいの睡眠時間の様子がわかりましたので、今回は男性と女性で睡眠時間に差があるのかどうかを調べてみましょう。 平均値の違い…

都道府県別の睡眠の平均時間のデータの分析3 - Rのdplyrパッケージでグループ化して最大値・最小値を並び替え。

Generated by Bing Image Creator:Realistic Photo of winter flower park www.crosshyou.info の続きです。今回はRのdplyrパッケージで、データフレームをgroup_by()関数でグループ化して、slice_max()関数やslice_max()関数でグループごとの最大値や最小値…

都道府県別の睡眠の平均時間のデータの分析2- Rのpivot_longer()でデータフレームを縦長に変換して、ggplot2パッケージでデータの視覚化

Generated by Bing Image Creator: Beautiful Photo of colorful landscape of green grass field, yellow and blue flowers www.crosshyou.info の続きです。 今回は「百聞は一見に如かず」という言葉もありますので、Rのggplot2パッケージでデータをグラフ…

都道府県別の睡眠の平均時間のデータの分析 1 - RにCSVファイルのデータを読み込む。無業者の男子と有業者女子で1時間以上、平均睡眠時間に差がある。

Generated by Bing Image Creator: Beautiful Photo, tropical coral sea, colorful fishes 今回は、政府統計の総合窓口(e-stat)から都道府県別の睡眠時間のデータを分析してみましょう。 男性と女性で睡眠時間に差があるのか?10歳以上と15歳以上で差がある…

UCIのDry Bean Datasetのデータ分析4 - Rのlm()関数、rpartパッケージで回帰分析

Bing Image Creatorで生成:菜の花がいっぱい咲いている、月世界の写真 www.crosshyou.info の続きです。前の2回はClassificationをrpartパッケージとglmnetパッケージを使って実行しました。今回はRegressionを実行してみます。非説明変数をroundnessにして…

UCIのDry Bean Datasetのデータ分析3 - RのglmnetパッケージでElastic-Net Regression

Bing Image Creatorで生成: Photo of many flowers of morning glory on the wild grass field, background beautiful sky www.crosshyou.info の続きです。前回はRのrpartパッケージを使ってRegression Treeのモデルを推定してDERMASONとSIRAの分類をしてみ…

UCIのDry Bean Datasetのデータ分析2 - RのrpartパッケージでClassification Tree

Generated by Bing Image Creator: Photo of many iris flowers in water world in the dinosaur age www.crosshyou.info の続きです。 今回は、RのrpartパッケージでClassification TreeをつかってDERMASONとSIRAを区別してみます。 How to Fit Classificat…

UCIのDry Bean Datasetのデータ分析1 - データの視覚化

Generated by Bing Image Creator: Photo of many beans and bean flowers blooming in a field Dry Bean Dataset. (2020). UCI Machine Learning Repository. https://doi.org/10.24432/C50S4B. 今回は、UCIのDry Bean Datasetのデータで、Rを使ってClassif…

都道府県別の企業の土地取得状況等に関する調査のデータ分析7 - 県内総生産額との関係を回帰分析でみてみる

UnsplashのEthan Robertsonが撮影した写真 www.crosshyou.info の続きです。 今回は、県内総生産額との関係を調べてみます。 まず、政府統計の総合窓口から県内総生産額のデータをダウンロードします。 このようなファイルです。これをRにread_csv()関数で読…

都道府県別の企業の土地取得状況等に関する調査のデータ分析6 - Rで階層的クラスタリングと主成分分析

Generated by Bing Image Creator: Photo of very beautiful wooden building, blighter morning and blue sky and white could image www.crosshyou.info の続きです。 今回は、Rで階層的クラスタリングと主成分分析をしてみます。 まずはクラスタリング用…

都道府県別の企業の土地取得状況等に関する調査のデータ分析5 - 土地取得の企業数の変化率をRのlm()関数で重回帰分析。

Generated by Bing Image Creator: Taken from the ground of a clear, clean stream in Japan Photo. www.crosshyou.info の続きです。 前回は、num_chg_pct: 企業数の変化率と area_chg_pct: 面積の変化率の相関係数を調べました。その結果、両者に相関関…

都道府県別の企業の土地取得状況等に関する調査のデータ分析4 - Rで相関関係の有無をチェック。理論ベースとシミュレーションベースで。

Generated by Bing Image Creator: photo of amazon river from the ground view www.crosshyou.info 今回は、二つの変化率の相関についてみてみましょう。 はじめに散布図をRのggplot() + geom_point()関数で描いてみます。 geom_text() 関数もつかって都道…

都道府県別の企業の土地取得状況等に関する調査のデータ分析3 - Rで2006年と2008年の変化幅、変化率を調べる。

Generated by Bing Image Creator: Photo of morning sunshine grass field, butterflies, birds, white clouds in the blue sky www.crosshyou.info の続きです。今回は2008年と2006年の変化幅を調べてみます。 まず、pivot_wider()関数で2006年のデータと2…

都道府県別の企業の土地取得状況等に関する調査のデータ分析2- Rのarrange()関数でデータフレームを並び替える。

Generated by Bing Image Creator: Photographic landscape, small river and big mountains and blue sky www.crosshyou.info の続きです。 今回は各変数のランキングをみてみます。 まずは、num_total: 企業数【社】総数 総数です。 企業数が多いところは…