2020-04-01から1ヶ月間の記事一覧
www.crosshyou.info の続きです。 今回は、「Machine Learning with R: Expert techniques for predictive modeling 3rd Edition」という本を参考にして、k-NN algorithmで人口がLargeがどうかを判定してみたいと思います。 コロナウイルスの影響で本屋さん…
www.crosshyou.info の続きです。 今回は、R言語のglm関数でロジスティクス回帰分析をしてみたいと思います。 こちらの本を参考にしてやってみました。 Regression Analysis with R: Design and develop statistical nodes to identify unique relationships…
www.crosshyou.info の続きです。 今回は、R言語のlm関数、tree関数、svm関数、gam関数、randomForest関数を作って、perGDPをperLib, perMus, perGymで説明するモデルを作り、どのモデルが一番正確かを比較したいと思います。 まずは、lm関数、linear model(…
www.crosshyou.info の続きです。 今回は、人口当たりの図書館数、博物館数、社会体育施設が多い都道府県、少ない都道府県を調べましょう。 2015年度のデータでみてみます。 order関数でデータフレームは並びかえできます。 人口当たりの図書館数が一番多い…
今回は、都道府県別の図書館数、博物館数、社会体育施設数のデータを分析しようと思います。 データは政府統計の総合窓口、e-statか取得しました。 www.e-stat.go.jp取得したデータは、以下のものです。 これをダウンロードすると、CSVファイルになります。 …
www.crosshyou.info の続きです。 今回はGDP(県内総生産額の伸び率)を他の変数で、回帰分析してみます。 hist関数で各変数のヒストグラムを描いてみます。sapply関数でいちどに描きます。 どの変数も中央が一番多い山型の分布です。 cor関数で変数同士の相関…
www.crosshyou.info の続きです。 今回は、各データの伸び率を都道府県ごとに比較したいと思います。 まず、table関数でデータの始めの年と終わりの年を確認します。 始めの年は2006年で、終わりの年は、2015年です。 2006年と2015年を比較して、伸び率を算…
www.crosshyou.info の続きです。 前回は外れ値を取り除きましたからそれを使って回帰分析をしてみたいと思います。 まずは、外れ値をデータフレームとして、一つにまとめます。data.frame関数でデータフレームは作成できます。 変数同士の相関係数を見てみ…
www.crosshyou.info の続きです。 前回は、perGDP, perFire, perEdu, perPoliceと人口当たりの県内総生産額、消防職員人数、教育職員人数、警察職員人数を調べました。 今回は、R言語のboxplot.stats関数を使って外れ値の都道府県がどこなのか、確認したいと…
www.crosshyou.infoの続きです。今回は、都道府県ごとにデータを集約してみてみます。 tapply関数とmean関数を使って都道府県別の平均値を作ります。 plot関数で小さい順にグラフにしました。人口がとても大きな都道府県があることがわかります。 GDPも同じ…
今回は、都道府県別の消防部門、教育部門、警察部門の職員数のデータを分析してみたいと思います。 データは、政府統計の総合窓口e-Statから取得しました。 www.e-stat.go.jp 選択したデータ項目は以下のとおりです。 データのファイルは以下のようなもので…
www.crosshyou.infoの続きです。 今回は、linear model, random forest model, genaralized additive model, support vector regression model, tree regression modelのMSEを比較しようと思います。 こんどは、df3_scaledのデータフレームをトレーニング用…
www.crosshyou.infoのの続きです。 今回は、R言語でRegression trees分析をします。 treeパッケージの中のtree関数を使いますので、はじめにtreeパッケージを読み込みます。 そして、tree関数でRegression treeモデルを作ります。 summary関数で結果を見てみ…
www.crosshyou.info の続きです。今回も Regression Analysis with R: Design and develop statistical nodes to identify unique relationships within data at scale (English Edition) 作者:Ciaburro, Giuseppe 発売日: 2018/01/31 メディア: Kindle版 を…
www.crosshyou.info の続きです。 今回は、generalized additive modelをR言語のgam関数で実行してみます。 はじめに、mgcvパッケージをインストールします。 gam関数でモデルを作成します。 summary関数でどのような結果になったかみてみます。 Popuの係数…
www.crosshyou.info の続きです。今回は、lm関数で線形回帰と、randomForest関数でランダムフォレストを実行してみようと思います。 前回は、各変数の最小値や最大値を確認しました。 各変数の値の大きさがバラバラだとランダムフォレストに適さないので、ま…
今回は都道府県別の最終学歴人口のデータを分析しようと思います。 この土日に Regression Analysis with R: Design and develop statistical nodes to identify unique relationships within data at scale 作者:Ciaburro, Giuseppe 発売日: 2018/01/31 メ…
www.crosshyou.info の続きです。 前回の分析で、人口(a11Popu)と県内総生産額(a11GDP)は対数にしたほうが分布が正規分布に近づくことがわかりましたので、この二つは対数に変換します。 log関数を使いました。 こうして作成した、la11Popuとla11GDP、そして…
www.crosshyou.info の続きです。 今回は、R言語のplot関数なので、前回に作成したデータをグラフにしてみます。 はじめにplot関数で小さい順に並びかえてグラフにしてみます。 sort関数で並び変えてplot関数でグラフにしています。abline関数で縦線と横線を…
www.crosshyou.info の続きです。 前回は災害被害額の10年間の平均値の大きい都道府県が、宮城県、岩手県、福島県の東北3県だとわかりました。これは2011年の東日本大震災の影響ではないかと思いますので、確認してみようと思います。tapply関数とsum関数で…
今回は都道府県別の自然災害額のデータを分析します。 政府統計の総合窓口、e-Statのウエブサイトからデータを取得します。 www.e-stat.go.jp 地域は47都道府県です。 総人口、県内総生産額、災害被害額のデータを選択しました。 こういうCSVファイルです。 …
www.crosshyou.info の続きです。今回は、仕事を探しているか、探していないかで暮らし向きに違いがあるかどうかをR言語を使って調べます。 始めに必要な表を抽出します。データフレームのsubscriptsのテクニックを使います。 この表から分析用のマトリック…
www.crosshyou.info の続きです。 今回は住宅ローンの有無や持家・賃貸で暮らし向きに違いがあるかどうかを調べましょう。 はじめに必要なデータを抽出します。R言語のデータフレームのsubscriptsのテクニックを使います。 この表から、ローン有り、ローン無…
www.crosshyou.info の続きです。 今回は、住んでいるところの人口によって暮らし向きに違いがあるかどうかを検定します。 はじめに必要なデータを抽出します。 この表は、人口5万人以上の市 = 県庁所在地市 + 県庁所在地市以外 + 別掲大都市と 人口5万人…
www.crosshyou.info の続きです。 今回は地域によって暮らし向きに違いがあるかどうかを調べます。 はじめに、地域別のクロス表と抽出します。R言語のデータフレームのsubscriptsのテクニックを使います。 この表から、matrix関数でマトリックスを作成します…
www.crosshyou.infoの続きです。R言語で分析します。 今回は、給与所得者、事業所得者、年金所得者で暮らし向きに違いがあるかどうかを調べてみます。 まずは、必要なTableを抽出します。データフレームのsubscriptsで必要な部分だけを抽出します。 BestとBe…
www.crosshyou.info の続きです。 今回は、収入の多い少ないで暮らし向きに違いがあるかどうかを調べます。 まずは、収入別のクロス表を抜き出します。 前回と同じように、BestとBetterを統合して、Goodに、WorseとWorstを統合してBadにします。 比率で表示…
www.crosshyou.info の続きです。 今回は雇用形態(正規雇用、非正規雇用、自営業、無職)で暮らし向きに違いがあるかどうかを調べます。 前回と同じような分析手順です。まずはTable4を抽出します。 必要な行は、3、4、5、7行のデータなのでこれらの行だけに…
社会学 - わたしと世間 (中公新書) 作者:加藤 秀俊 発売日: 2018/04/18 メディア: 新書 社会学は、世間話だと第1章で述べていて、第2章で集団について、第3章でコミュニケーションについて、第4章で組織について、第5章で行動、第6章で自我、第7章で(社会学…
www.crosshyou.info の続きです。 今回はTable2、世帯主の年齢で暮らし向きに違いがあるかどうかを調べましょう。まずは、前回と同じように、Table2のマトリックスを作成します。 今回は、Bestの列の数が少ないので、BestとBetterを合計して、Goodに、Worse…