www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

データ分析

UCI の Breast Cancer Wisconsin (Diagnostic) のデータ分析2 - ロジスティクス回帰と LASSO 回帰で判別

Bing Image Creator で生成: Early Spring in rural area, peaceful landscape, photo www.crosshyou.info の続きです。前回はデータを R に読み込んで、分析のための前処理をしました。 今回は実際に予測をしてみます。 はじめに、データの様子を見るために…

UCI の Breast Cancer Wisconsin (Diagnostic) のデータ分析1 - R にデータを読み込み、分析のための前処理をする

Bing Image Creator で生成: Tropical rainforest with a big flower, photo 今回は、UCI の Breast Cancer Wisconsin (Diagnostic) のデータを R で分析してみようと思います。Wolberg,William, Mangasarian,Olvi, Street,Nick, and Street,W.. (1995). Bre…

都道府県別の水質汚濁物排出量総合調査のデータ分析7 - R で階層的クラスタリング

Bing Image Creator で生成: Summer season, Landscape, Green Mountains which have snow on the top, yellow flowers, Photo www.crosshyou.info の続きです。 今回は、R で階層的クラスタリングをしてみようと思います。 まずは、クラスタリングのための…

都道府県別の水質汚濁物排出量総合調査のデータ分析6 - R で水質が改善した都道府県、悪化した都道府県を調べた。

Bing Image Creator で生成: Blue image landscape, Japanese local area, splendid moment, photo style www.crosshyou.info の続きです。 前回は、R でシミュレーションベースの回帰分析を実行しました。l_quality は l_quantity, l_fuka と関連があること…

都道府県別の水質汚濁物排出量総合調査のデータ分析5 - R の infer で tidy な 重回帰分析 (Multiple Regression Analysis)

Bing Image Creator で生成: North Area Landscape, breezing wind, photograph style www.crosshyou.info の続きです。前回は、R の infer パッケージを利用して、ANOVA(Analysis of Variance) 分析をしました。今回は、infer パッケージで Multiple Regres…

都道府県別の水質汚濁物排出量総合調査のデータ分析4 - R の infer で tidy な ANOVA(Analysis of Variance) 分析

Bing Image Creator で生成: Photo, landscape of higher mountains and great fall, a few flowers, white clouds, blue sky www.crosshyou.info の続きです。前回は箱ひげ図を作成して、生活環境項目 5 項目ごとのデータの分布を見ました。前々回はヒスト…

都道府県別の水質汚濁物質排出量総合調査のデータ分析3 - R で箱ひげ図を作成して、各生活環境項目別のデータを視覚化する

Bing Image Creatorで生成: Landscape, southern islands, green grass, white cloud, tiny flowers, photo www.crosshyou.info の続きです。前回は各年度別のヒストグラムを作成しました。年度によって大きな違いはなさそうでした。 今回は、five: 生活環境…

都道府県別の水質汚濁物質排出量総合調査のデータ分析2 - R でヒストグラムを作成して、各年度の分布を視覚化する

Bing Image Creatorで生成: Photo, Landscape in Summer season, quiet sense of wonder, hibiscus flowers www.crosshyou.info の続きです。 前回は各変数の度数や平均値などの統計量を調べました。 今回は変数のデータを視覚化してみます。 num: 事業場数…

都道府県別の水質汚濁物質排出量総合調査のデータ分析1- R に CSV ファイルのデータを読み込み、分析用のデータフレームを作成する。

Bing Image Creatorで生成: Photo, Spring Landscape, quiet flower garden今回は、都道府県別の水質汚濁物質排出量総合調査のデータを分析してみようと思います。政府統計の総合窓口(www.e-stat.go.jp)からデータを取得します。 こんな感じのデータです。 …

都道府県別の自動車(バス)輸送統計調査のデータ分析8 - R の princomp() 関数で主成分分析

Bing Image Generatorで生成: Photo, Winter snow field with red cameria www.crosshyou.info の続きです。 今回は、R で主成分分析をしてみようと思います。 Rによるデータサイエンス(第2版):データ解析の基礎から最新手法まで 作者:金 明哲 森北出版 Amaz…

都道府県別の自動車(バス)輸送統計調査のデータ分析7 - R で階層的クラスタリング

Bing Image Creator で生成: 風景写真、春の季節の穏やかな午後、小さな白い花が咲いている www.crosshyou.info の続きです。 前回、前々回で回帰分析をしました。バスの輸送人員の変化と人口の変化やエネルギー消費の変化と関係がないことがわかりました。 …

都道府県別の自動車(バス)輸送統計調査のデータ分析6 - エネルギー消費統計調査のデータも加えて回帰分析 - infer パッケージでシミュレーションベースの回帰分析

Bing Image Creator で生成: long far view photo, corn field and cotton flowers photo www.crosshyou.info の続きです。 前回は、輸送量の変化を人口の増減で回帰分析してみました。結果は人口は関係ない、という結果でした。 今回はさらに、 エネルギー…

都道府県別の自動車(バス)輸送統計調査のデータ分析5 - 人口の増減で回帰分析

Bing Image Creator で生成: 青い空に白い雲が3つあって、虹がかかっている。パンジーの花がたくさん咲いている、写真 www.crosshyou.info の続きです。 前回は輸送量の増えた地域、減った地域を調べてみました。 今回は、この増減が人口と関わりがあるのか…

都道府県別の自動車(バス)輸送統計調査のデータ分析4 - 2020年度と2022年度の比較で輸送量の増えた地域を探す

Bing Image Creator で生成: 春の日差しが暖かさを感じる。穏やかな日本の草原の写真 www.crosshyou.info の続きです。 前回の分析で、2020年度と2022年度では統計的に有意な違い、2022年度のほうが輸送量が増えていることがわかりました。 今回は、2020年度…

都道府県別の自動車(バス)輸送統計調査のデータ分析3 - R の lm() 関数で回帰分析をして、2020年度と2022年度に統計的に有意な違いがあるかどうかを調べる。

Bing Image Creator で生成: 幻想的な風景写真、春の小川 www.crosshyou.info の続きです。前回は各変数のヒストグラムを年度ごとにヒストグラムを作成しました。 その結果、どうやら、2020年度、2021年度、2022年度と年を経るごとに自動車(バス)の輸送量は…

都道府県別の自動車(バス)輸送統計調査のデータ分析2 - R のggplot() + geom_histogram() でヒストグラム

Bing Image Creator で生成: 透明感のある風景写真。大きな滝とスイセンの花 www.crosshyou.info の続きです。 前回は、CSV ファイルを R に読み込ませてデータフレームを作成しました。 今回は読み込んだデータの視覚化、ヒストグラムを描いてみます。 まず…

都道府県別の自動車(バス)輸送統計調査のデータ分析1 - Rにデータを読み込ませる。

Bing Image Creator で生成 : 風景写真、大きな入道雲と虹、ハイビスカスの花 今回は、都道府県別の自動車輸送統計調査のデータを分析してみます。 政府統計の総合窓口(e-stat)からデータを取得します。 このようなファイルです。 一般の乗合バス、高速の乗…

UCI の Adult データの分析6 - R の rpart パッケージで決定木での分類 (Classification)

Generated by Bing Image Creator: 遠くの空からの風景写真。牧場に牛が数頭いる。可愛い青い花がたくさん咲いている。 www.crosshyou.info の続きです。 今回は R の rpart パッケージで決定木の方法で分類に挑戦してみたいと思います。まず、rpart, rpart.…

UCI の Adult データの分析5 - R の FNN パッケージで、k-nearest neighbors での Classification

Generated by Bing Image Creator: 広い野原に小川と小道があって、菜の花がいっぱい咲いていて、空は青空の写真 www.crosshyou.info の続きです。 今回は、R の FNN パッケージで、k-nearest neighbors での分類をします。 まずは、FNN パッケージの読み込…

UCI の Adult データの分析4- R の glmnet パッケージを使って、 LASSO, Ridge, Elastic-Net Regression で income の分類に挑戦

Generated by Bing Image Creator: Photo of old times, beautiful mountains scenery, blue sky and white clouds, cheerful flowers www.crosshyou.info の続きです。前回は、 glmnet パッケージで income の分類をするための前準備でした。今回は、実際に…

UCI の Adult データの分析3 - R の glmnet パッケージを使って LASSO, Ridge, Elastic-Net Regression で分類するための前準備

Generated by Bing Image Creator: Long wide view of green grass field. Blue sky and a few white clouds. red flower, yellow flower and blue flower are shining. Photo www.crosshyou.info の続きです。前回と前々回で income と他の変数との関係をグ…

UCI の Adult データの分析2 - 2つのカテゴリカルデータの関係性は geom_col() でバーチャートで。

Generated by Bing Image Creator: Long wide view, wild garden of colorful flowers www.crosshyou.info の続きです。 前回は、データを R に読み込んで、income というカテゴリーデータと数値データの関係性を geom_histogram() でヒストグラムにしてみま…

UCI の Adult データの分析1 - R にデータを取り込み、ヒストグラムで分布を確認

Generated by Bing Image Creator: Very large cherry blossoms, long view from the blue sky, phot 今回は、UCI の Adult のデータを使って、Rの練習をしてみようと思います。 income が年間 $50k を超えるか、超えないかを判別するタスクです。 Becker,Ba…

都道府県別のパソコン所有数量のデータ分析9 - RのrpartパッケージでClassification

Generated by Bing Image Creator: Long view of beach and hibiscus flowers, photo, blue sky and white cloud www.crosshyou.info の続きです。今回は R の rpart パッケージで Classification をしてみましょう。まず、必要なパッケージの読み込みをしま…

都道府県別のパソコン所有数量のデータ分析8- Rのglmnetパッケージで Elastic-Net Multinomial Regression で Classification

Generated by Bing Image Creator: Beautiful close up phot, bulue tulips.www.crosshyou.info の続きです。今回はRのglmnetパッケージで multinomial recgression の方法で都道府県の classification を実行してみます。 まず、glmnet パッケージの読み込…

都道府県別のパソコン所有数量のデータ分析7 - RのFNNパッケージで、knn(k-Nearest Neighbor) Classification

Generated by Bing Image Creator: Beautiful long view of wild forest, many sunflowers, blue sky and white cloud, photo www.crosshyou.info の続きです。 しばらく回帰分析をしていたので、今回は気分を変えてclassificationをやってみましょう。 df_r…

都道府県別のパソコン所有数量のデータ分析6 - Rでパネルデータ分析 - 趣味・娯楽の時間とパソコン所有数量の関係

Generated by Bing Image Creator: A beautiful shiny long view of green grass field and colorful tiny flowers, photo. www.crosshyou.info の続きです。 今回は、仕事の平均時間や、趣味・娯楽の平均時間との関連性を調べてみましょう。 仕事の時間や、…

都道府県別のパソコン所有数量のデータ分析5 - Rでパネルデータ分析 - 大学・大学院卒者の割合とパソコン所有数量の関係

Generated by Bing Image Creator: A long quiet and joyful view of blue morning glory flowers and red rose flowers. www.crosshyou.info の続きです。 前回は1人当たり県民所得とパソコン所有数量の関係をパネルデータ分析の手法で調べてみました。今回…

都道府県別のパソコン所有数量のデータ分析4 - Rでパネルデータ分析 - 1人当たり県民所得とパソコン所有数量の関係

Generated by Bing Image Creator: A beautiful long and quiet view of cherry blossoms and rape blossoms from afarLandscape photo www.crosshyou.info の続きです。 今回はパネルデータ分析の手法で1人当たり県民所得とパソコン所有数量の関係を調べて…

都道府県別のパソコン所有数量のデータ分析3 - Rのlm()関数で回帰分析。所得や大学・大学院卒者の割合、趣味・娯楽の時間が大きいほど、パソコン所有数量も大きい。

Generated by Bing Inage Creator: flower of Lysichiton camtschatcensis schott, photo www.crosshyou.info の続きです。今回は回帰分析でパソコン所有数量が1人当たり県民所得などの変数と関連があるかを調べてみます。 まず、前回と同じように各変数の調…