www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2020-04-01から1ヶ月間の記事一覧

都道府県別の図書館数・博物館数・社会体育施設数のデータ分析5 - R言語のknn関数でk-NN algorithm

www.crosshyou.info の続きです。 今回は、「Machine Learning with R: Expert techniques for predictive modeling 3rd Edition」という本を参考にして、k-NN algorithmで人口がLargeがどうかを判定してみたいと思います。 コロナウイルスの影響で本屋さん…

都道府県別の図書館数・博物館数・社会体育施設数のデータ分析4 - R言語のglm関数でロジスティクス回帰分析

www.crosshyou.info の続きです。 今回は、R言語のglm関数でロジスティクス回帰分析をしてみたいと思います。 こちらの本を参考にしてやってみました。 Regression Analysis with R: Design and develop statistical nodes to identify unique relationships…

都道府県別の図書館数・博物館数・社会体育施設数のデータ分析3 - R言語のlm関数、tree関数、svm関数、gam関数、randomForest関数を使ってみる。

www.crosshyou.info の続きです。 今回は、R言語のlm関数、tree関数、svm関数、gam関数、randomForest関数を作って、perGDPをperLib, perMus, perGymで説明するモデルを作り、どのモデルが一番正確かを比較したいと思います。 まずは、lm関数、linear model(…

都道府県別の図書館数・博物館数・社会体育施設数のデータ分析2 - 人口の割に図書館・博物館・社会体育施設が多い都道府県はどこか?

www.crosshyou.info の続きです。 今回は、人口当たりの図書館数、博物館数、社会体育施設が多い都道府県、少ない都道府県を調べましょう。 2015年度のデータでみてみます。 order関数でデータフレームは並びかえできます。 人口当たりの図書館数が一番多い…

都道府県別の図書館数・博物館数・社会体育施設数のデータ分析1 - R言語でデータを取り込む

今回は、都道府県別の図書館数、博物館数、社会体育施設数のデータを分析しようと思います。 データは政府統計の総合窓口、e-statか取得しました。 www.e-stat.go.jp取得したデータは、以下のものです。 これをダウンロードすると、CSVファイルになります。 …

都道府県別の消防・教育・警察部門の職員数のデータ分析6 - 県内総生産額の伸び率を回帰分析する。

www.crosshyou.info の続きです。 今回はGDP(県内総生産額の伸び率)を他の変数で、回帰分析してみます。 hist関数で各変数のヒストグラムを描いてみます。sapply関数でいちどに描きます。 どの変数も中央が一番多い山型の分布です。 cor関数で変数同士の相関…

都道府県別の消防・教育・警察部門職員数のデータ分析5 - 2006年と2015年の伸び率の比較。教育部門の職員数は減少度合は大きい。

www.crosshyou.info の続きです。 今回は、各データの伸び率を都道府県ごとに比較したいと思います。 まず、table関数でデータの始めの年と終わりの年を確認します。 始めの年は2006年で、終わりの年は、2015年です。 2006年と2015年を比較して、伸び率を算…

都道府県別の消防・教育・警察部門職員数のデータ分析4 - 外れ値を除外した回帰分析と外れ値も含んだ回帰分析の比較。

www.crosshyou.info の続きです。 前回は外れ値を取り除きましたからそれを使って回帰分析をしてみたいと思います。 まずは、外れ値をデータフレームとして、一つにまとめます。data.frame関数でデータフレームは作成できます。 変数同士の相関係数を見てみ…

都道府県別の消防・教育・警察部門職員数のデータ分析3 - R言語のboxplot.stats()関数で外れ値の都道府県を発見する。

www.crosshyou.info の続きです。 前回は、perGDP, perFire, perEdu, perPoliceと人口当たりの県内総生産額、消防職員人数、教育職員人数、警察職員人数を調べました。 今回は、R言語のboxplot.stats関数を使って外れ値の都道府県がどこなのか、確認したいと…

都道府県別の消防・教育・警察部門職員数のデータ分析2 - 青森、秋田は消防部門の職員が多い

www.crosshyou.infoの続きです。今回は、都道府県ごとにデータを集約してみてみます。 tapply関数とmean関数を使って都道府県別の平均値を作ります。 plot関数で小さい順にグラフにしました。人口がとても大きな都道府県があることがわかります。 GDPも同じ…

都道府県別の消防・教育・警察部門職員数のデータ分析1 - 教育部門の職員数は年々減少、消防と警察は増加傾向。

今回は、都道府県別の消防部門、教育部門、警察部門の職員数のデータを分析してみたいと思います。 データは、政府統計の総合窓口e-Statから取得しました。 www.e-stat.go.jp 選択したデータ項目は以下のとおりです。 データのファイルは以下のようなもので…

都道府県別の最終学歴人口のデータ分析6 - R言語でいろいろなモデルのMSEを比較する。

www.crosshyou.infoの続きです。 今回は、linear model, random forest model, genaralized additive model, support vector regression model, tree regression modelのMSEを比較しようと思います。 こんどは、df3_scaledのデータフレームをトレーニング用…

都道府県別の最終学歴人口のデータ分析5 - R言語でRegression trees(tree関数)

www.crosshyou.infoのの続きです。 今回は、R言語でRegression trees分析をします。 treeパッケージの中のtree関数を使いますので、はじめにtreeパッケージを読み込みます。 そして、tree関数でRegression treeモデルを作ります。 summary関数で結果を見てみ…

都道府県別の最終学歴人口のデータ分析4 - R言語でSupport Vector Regression(svm関数)

www.crosshyou.info の続きです。今回も Regression Analysis with R: Design and develop statistical nodes to identify unique relationships within data at scale (English Edition) 作者:Ciaburro, Giuseppe 発売日: 2018/01/31 メディア: Kindle版 を…

都道府県別の最終学歴人口のデータ分析3 - R言語でGeneralized Additive Model(gam関数)を実行する。

www.crosshyou.info の続きです。 今回は、generalized additive modelをR言語のgam関数で実行してみます。 はじめに、mgcvパッケージをインストールします。 gam関数でモデルを作成します。 summary関数でどのような結果になったかみてみます。 Popuの係数…

都道府県別の最終学歴人口のデータ分析2 - R言語で線形回帰(lm関数)とランダムフォレスト(rondoForest関数)を実行する。

www.crosshyou.info の続きです。今回は、lm関数で線形回帰と、randomForest関数でランダムフォレストを実行してみようと思います。 前回は、各変数の最小値や最大値を確認しました。 各変数の値の大きさがバラバラだとランダムフォレストに適さないので、ま…

都道府県別の最終学歴人口のデータの分析1 - 教育費の差は最小の件と最大の件で2倍くらいある。

今回は都道府県別の最終学歴人口のデータを分析しようと思います。 この土日に Regression Analysis with R: Design and develop statistical nodes to identify unique relationships within data at scale 作者:Ciaburro, Giuseppe 発売日: 2018/01/31 メ…

都道府県別の災害被害額のデータ分析4 - 災害被害額は人口や県内総生産額とは関係ない。

www.crosshyou.info の続きです。 前回の分析で、人口(a11Popu)と県内総生産額(a11GDP)は対数にしたほうが分布が正規分布に近づくことがわかりましたので、この二つは対数に変換します。 log関数を使いました。 こうして作成した、la11Popuとla11GDP、そして…

都道府県別の災害被害額のデータ分析3 - 人口と県内総生産額は対数正規分布に近く、災害被害額は正規分布に近い。

www.crosshyou.info の続きです。 今回は、R言語のplot関数なので、前回に作成したデータをグラフにしてみます。 はじめにplot関数で小さい順に並びかえてグラフにしてみます。 sort関数で並び変えてplot関数でグラフにしています。abline関数で縦線と横線を…

都道府県別の災害被害額のデータ分析2 - 2011年度の被害額は文字通りの桁違い。

www.crosshyou.info の続きです。 前回は災害被害額の10年間の平均値の大きい都道府県が、宮城県、岩手県、福島県の東北3県だとわかりました。これは2011年の東日本大震災の影響ではないかと思いますので、確認してみようと思います。tapply関数とsum関数で…

都道府県別の災害被害額のデータ分析1 - 宮城県、岩手県、福島県はやっぱり多かった。

今回は都道府県別の自然災害額のデータを分析します。 政府統計の総合窓口、e-Statのウエブサイトからデータを取得します。 www.e-stat.go.jp 地域は47都道府県です。 総人口、県内総生産額、災害被害額のデータを選択しました。 こういうCSVファイルです。 …

消費動向調査のデータ分析9 - 仕事を探しているか、探していないかで暮らし向きに違いがあるかどうか?

www.crosshyou.info の続きです。今回は、仕事を探しているか、探していないかで暮らし向きに違いがあるかどうかをR言語を使って調べます。 始めに必要な表を抽出します。データフレームのsubscriptsのテクニックを使います。 この表から分析用のマトリック…

消費動向調査のデータ分析8 - 住宅ローンの有無や、持家か賃貸かで暮らし向きに違いがあるかどうか?

www.crosshyou.info の続きです。 今回は住宅ローンの有無や持家・賃貸で暮らし向きに違いがあるかどうかを調べましょう。 はじめに必要なデータを抽出します。R言語のデータフレームのsubscriptsのテクニックを使います。 この表から、ローン有り、ローン無…

消費動向調査のデータ分析7 - 住んでいるところの人口によって暮らし向きに違いがあるかどうか?

www.crosshyou.info の続きです。 今回は、住んでいるところの人口によって暮らし向きに違いがあるかどうかを検定します。 はじめに必要なデータを抽出します。 この表は、人口5万人以上の市 = 県庁所在地市 + 県庁所在地市以外 + 別掲大都市と 人口5万人…

消費動向調査のデータ分析6 - 地域によって暮らし向きに違いがあるかどうか?九州・沖縄地区は相対的に暮らし向きが良い。

www.crosshyou.info の続きです。 今回は地域によって暮らし向きに違いがあるかどうかを調べます。 はじめに、地域別のクロス表と抽出します。R言語のデータフレームのsubscriptsのテクニックを使います。 この表から、matrix関数でマトリックスを作成します…

消費動向調査のデータ分析5 - 給与所得者、事業所得者、年金所得者で暮らし向きに違いがあるかどうか?

www.crosshyou.infoの続きです。R言語で分析します。 今回は、給与所得者、事業所得者、年金所得者で暮らし向きに違いがあるかどうかを調べてみます。 まずは、必要なTableを抽出します。データフレームのsubscriptsで必要な部分だけを抽出します。 BestとBe…

消費動向調査のデータ分析4 - 収入の多い少ないで暮らし向きに違いがあるかどうか?

www.crosshyou.info の続きです。 今回は、収入の多い少ないで暮らし向きに違いがあるかどうかを調べます。 まずは、収入別のクロス表を抜き出します。 前回と同じように、BestとBetterを統合して、Goodに、WorseとWorstを統合してBadにします。 比率で表示…

消費動向調査のデータ分析3 - 正規雇用者・非正規雇用者・自営業者・無業者で暮らし向きに違いがあるか?に

www.crosshyou.info の続きです。 今回は雇用形態(正規雇用、非正規雇用、自営業、無職)で暮らし向きに違いがあるかどうかを調べます。 前回と同じような分析手順です。まずはTable4を抽出します。 必要な行は、3、4、5、7行のデータなのでこれらの行だけに…

読書記録 - 「社会学 - わたしと世間」加藤秀俊 著 (中公新書)

社会学 - わたしと世間 (中公新書) 作者:加藤 秀俊 発売日: 2018/04/18 メディア: 新書 社会学は、世間話だと第1章で述べていて、第2章で集団について、第3章でコミュニケーションについて、第4章で組織について、第5章で行動、第6章で自我、第7章で(社会学…

消費動向調査のデータ分析2 - 世帯主の年齢で暮らし向きに違いがあるか。

www.crosshyou.info の続きです。 今回はTable2、世帯主の年齢で暮らし向きに違いがあるかどうかを調べましょう。まずは、前回と同じように、Table2のマトリックスを作成します。 今回は、Bestの列の数が少ないので、BestとBetterを合計して、Goodに、Worse…