crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

データ分析

都道府県別の消費者物価指数・教養娯楽のデータの分析8 - R言語のsvm関数でSupport Vector Machine Regressionをする。

www.crosshyou.info の続きです。 今回はR言語のsvm関数でSupport Vector Machine Regressionをしてみます。 まず、e1071パッケージの読み込みをします。 svm関数でモデルを作ります。 summary関数で結果をみてみます。 あんまりよくわからない出力ですが、…

都道府県別の消費者物価指数・教養娯楽のデータの分析7- R言語のrpart関数でRegression Tree(決定木分析)をする

www.crosshyou.info の続きです。 今回はR言語のrpart関数でregression tree分析をしてみます。 まず、rpartパッケージの読み込みをします。 rpart関数でregression treeモデルを作成します。 plot関数とtext関数で結果を見てみます。 決定木のグラフは左がY…

都道府県別の消費者物価指数・教養娯楽のデータの分析6 - R言語でRidge Regressionをする

www.crosshyou.info の続きです。 今回はRidge Regressionをしてみます。 Regression Analysis with R: Design and develop statistical nodes to identify unique relationships within data at scale 作者:Ciaburro, Giuseppe 発売日: 2018/01/31 メディア…

都道府県別の消費者物価指数・教養娯楽のデータの分析5- R言語のlm関数で回帰分析をする。

www.crosshyou.info の続きです。 前回作成したデータフレーム、df0108: 2008年と2001年の差分のデータを使って分析していきます。 diff_goraku: 消費者物価指数・教養娯楽のデータの変化幅の大きいところ、小さいところはどこでしょうか?R言語のarrange関…

都道府県別の消費者物価指数・教養娯楽のデータの分析4 - R言語のhist関数でヒストグラムと度数分布表を作る。

www.crosshyou.info の続きです。 2001年と2008年のgoraku: 消費者物価指数・教養娯楽の比較をしてみます。 どこの都道府県が大きく変化したのでしょうか? 2001年のデータフレームを作ります。 同様に2008年だけのデータフレームを作ります。 inner_join関…

都道府県別の消費者物価指数・教養娯楽のデータの分析3 - R言語のplot関数でグラフを描く。教養娯楽の物価指数は低下傾向。

www.crosshyou.info の続きです。 今回はいろいろなグラフを作ってみます。 まずは、goraku: 消費者物価指数・教養娯楽とyear: 調査年のグラフです。R言語のplot関数で簡単に作成できます。 2005年が基準年なので、どの都道府県も100です。全体に年を追うご…

都道府県別の消費者物価指数・教養娯楽のデータの分析2 - R言語のinner_join関数で2つのデータフレームを結合する

www.crosshyou.info の続きです。 このようなCSVファイルを用意しました。今後も日本語が文字化けしてしまう事態が想定されますので、都道府県コードと英語の都道府県名を用意しました。せっかくなので、ew(東日本か西日本か)とbig3(東京都、愛知県、大阪府)…

都道府県別の消費者物価指数・教養娯楽のデータの分析1 - R言語のread_csv関数でデータを読み込む。何故か文字化けする。

今回は都道府県別の消費者物価指数、その中の教養娯楽のデータを分析してみます。 政府統計の総合窓口(e-stat)のからデータをダウンロードしました。 www.e-stat.go.jp まず、都道府県を指定して、 総人口、県内総生産額、消費者物価指数の総合と教養娯楽の4…

都道府県別の小学校費のデータの分析5 - 総人口、小学校数が多いほど小学校費の県内総生産額に対する割合は高い。

www.crosshyou.info の続きです。 前回の分析では、小学校費の県内総生産額に対する割合は、人口や県内総生産額とは無関係だとわかりました。 そこで、今回は小学校の数を説明変数に加えてみます。 まず、政府統計の総合窓口、www.e-stat.go.jp のサイトから…

都道府県別の小学校費のデータの分析4 - R言語のlm関数で回帰分析 - 県内総生産額が大きいほど一人当たり小学校費も大きい。

www.crosshyou.info の続きです。 前回の分析で、小学校費は、人口の少ない県のほうが一人当たり小学校費が多く、県内総生産額の小さい県のほうが県内総生産額に占める割合が高いことがわかりました。 これをR言語の回帰分析関数のlm関数で分析してみます。 …

都道府県別の小学校費のデータの分析3 - 一人当たり小学校費は人口の少ない県ほど多い。小学校費の県内総生産額に対する割合は県内総生産額の大きな県ほど低い。

www.crosshyou.info の続きです。 pref: 都道府県ごとのper: 県民一人当たりの小学校費をみてみましょう。 島根県、高知県、鹿児島県などが金額が多く、神奈川県、埼玉県、大阪府、東京都などが金額が少ないことがわかります。 人口が多い県ほど少ない感じで…

都道府県別の小学校費のデータの分析2 - R言語でヒストグラム、箱ひげ図、散布図を描く。

www.crosshyou.info の続きです。 今回は、県民一人当たりの小学校費と、県内総生産額に対する割合を算出してみましょう。 まず、都道府県財政の小学校費と市町村財政の小学校費を合計した変数を作ります。mutate関数を使ってみました。totalという変数名に…

都道府県別の小学校費のデータの分析1 - R言語にデータを読み込ませる。都道府県財政の小学校費は減少傾向。市町村財政の小学校費は横ばい傾向。

今回は都道府県別の小学校費のデータを分析します。 政府統計の総合窓口(www.e-stat.go.jp)からデータを取り込みます。 47都道府県を選択します。 総人口(人)、可住地面積(ha)、県内総生産額(H17年基準、百万円)、小学校費(都道府県財政、千円)、小学校費(市…

短時間労働者の給与のデータの分析10 - R言語のmgcv::gam関数でGeneralized Additive Model, e1071::svm関数でSupport Vector Machine Model

www.crosshyou.info の続きです。 mgcvパッケージの読み込みをしてgam関数をつかって、generlized additive modelを作って男性、女性を予測してみます。 gam関数をつかってモデルを作ります。 このモデルでpredict関数を使い予測してみましょう。 confusionM…

短時間労働者の給与のデータの分析9 - R言語のrandomForest関数でランダムフォレストモデルを作り、男性、女性を予測する。

www.crosshyou.info の続きです。 今回はランダムフォレストを使って男性、女性を予測します。 まずは、randomForestパッケージの読み込みです。 randomForest関数でモデルを作ります。 plot関数で作成されたモデルをみてみます。 predict関数で予測します。…

短時間労働者の給与のデータの分析8 - R言語のrpart関数でdecision tree(決定木)モデルを作り、男性、女性を予測する。

www.crosshyou.info の続きです。 今回はrpart関数で決定木モデルをつくり、男性、女性を予測してみます。 rpartパッケージの読み込みをします。 rpart関数でモデルを作ります。 plot関数とtext関数でモデルをグラフであらわします。 wageが1082よりも小さく…

短時間労働者の給与のデータの分析7 - R言語のcaret::train関数でLDA(linear discriminant analysis)モデルで男性、女性を予測する。

www.crosshyou.info の続きです。前回はknn3関数でk-nearest neighborのアルゴリズムで男性か女性かを予測してみました。正解率は、68%でした。 今回はcaretパッケージのtrain関数をつかって、linear discriminant analysis(LDA)のモデルでやってみましょう…

短時間労働者の給与のデータの分析6 - R言語のknn3関数、k-nrearest neighborモデルで男性か女性かを分類するモデルを作る。

www.crosshyou.info の続きです。前回はlm関数で男性か女性かを分類するモデルを作りました。正解率は88%でした。 今回はknn3関数でk-nearest neighborsモデルを作り、同じようにやってみます。 まず。knn3関数はcaretパッケージにあるので、caretパッケージ…

短時間労働者の給与のデータの分析5 - R言語でクラシフィケーション。男性か女性かをlm関数で予測するモデルを作る。

www.crosshyou.info の続きです。前回の分析で、女性の給与は男性よりも確かに低いことがわかりました。 今回は、R言語のlm関数で男性か女性かを分類するモデルを作ってみます。 まず、mutate関数とifelse関数でgendarをm, f ではなくて1, 0という2つの数値…

短時間労働者の給与のデータの分析4 - R言語のlm関数で回帰分析をする。女性の時給は男性の時給よりも有意に低い。

www.crosshyou.info の続きです。 今回はR言語のlm関数を使って、wage: 1時間当たりの給与額を他の変数で回帰分析しようと思います。gendar: 男女の区別 がwageに影響しているのかどうかを確かめます。 summary関数でlm_model1を見てみましょう。 一番下のp…

短時間労働者の給与のデータの分析3 - R言語でグラフを描いて、給与額とその他の変数の関係を視覚化する。女性のほうが給与額は低い。

www.crosshyou.info の続きです。 前回はR言語gather関数とinner_join関数でロング型のデータフレームを作りました。 そのデータフレームにもう少し手を加えます。 このデータフレームは、企業規模にallという全部のものと産業コードにTという全産業というも…

短時間労働者の給与のデータの分析2 - R言語のgather関数とinner_join関数を使う。

www.crosshyou.info の続きです。 今回はR言語のgather関数とinner_join関数を使ってデータフレームをワイド型からロング型に変換します。 ワイド型というのは、 こんな感じのデータです。 ロング型というのは こんな感じのデータです。 前回作成したデータ…

短時間労働者の給与のデータの分析1 - R言語にCSVファイルを読み込ませて、データを整える。

賃金構造基本統計調査 平成21年賃金構造基本統計調査 短時間労働者 都道府県別1 短時間労働者の1時間当たり所定内給与額及び年間賞与その他特別給与額 全国 | 統計表・グラフ表示 | 政府統計の総合窓口 (e-stat.go.jp) 今回はこのデータの分析をしてみようと…

SPDR S&P 500 ETFのリターンをセクターSPDR ETFのリターンで分析する6 - R言語のknn3関数でk-nearest neighbor法でリターンを予測する。

www.crosshyou.info 今回は、R言語のknn3関数でk-nearest neighbor法でSPYのリターンを予測してみます。 このように、kの値を5から255まで5ずつ増やした数列として用意しました。 このようにsapply関数の中で、knn3関数、predict関数、confusionMatrix関数を…

SPDR S&P 500 ETFのリターンをセクターSPDR ETFのリターンで分析する5 - R言語のlm関数で線形回帰分析でリターンを予測してみる。

www.crosshyou.info の続きです。 今回は、R言語のlm関数で線形回帰分析でリターンを予測してみます。 はじめに、df_train, df_testの各データフレームから、今回の分析では使わない同じ週のリターンの変数を削除しておきます。 lm関数でモデルを作成します…

SPDR S&P 500 ETFのリターンをセクターSPDR ETFのリターンで分析する4 - ただのあてずっぽうでリターンを予測してみる。

www.crosshyou.info の続きです。 今回はSPDR S&P 500 ETFのリターンを、ただのguessで予測してみます。 ます、dfをトレーニング用とテスト用の2つのデータフレームにわけます。 半々にわけようと思いましたので、n <- round(nrow(df)*0.5)でnをdfの行数の…

SPDR S&P 500 ETFのリターンをセクターSPDR ETFのリターンで分析する3 - R言語のggplot2でグラフをいくつか描いてみる。

www.crosshyou.info の続きです。 今回は、R言語のggplot2パッケージを使って、グラフをいくつか描いてみます。 まずは、geom_histogram関数でヒストグラムを描いてみます。 次は、geom_boxplot関数とgeom_density関数で箱ひげ図と密度関数です。 SPDR S&P 5…

SPDR S&P 500 ETFのリターンをセクターSPDR ETFのリターンで分析する2 - R言語のmatrix関数やrbind関数やcbind関数をつかって、リターンのデータを用意する。

www.crosshyou.info の続きです。 前回はpdfetch_YAHOO関数でYahoo FinanceからSPDRの株価データを取得しました。 今回は株価データからリターンのデータを計算しようと思います。 str関数で前回作成した、raw_dataのデータ構造を確認します。 xtsというオブ…

SPDR S&P 500 ETFのリターンをセクターSPDR ETFのリターンで分析する1 - R言語のpdfetchパッケージでデータを取得する。

R言語のpdffetchパッケージを使うと、米国のYahoo Finance(Yahoo Finance - Stock Market Live, Quotes, Business & Finance News)の株価データを簡単に取得できることを知りました。 Using R for Introductory Econometrics 作者:Heiss, Florian 発売日: 20…

都道府県別の個人企業経済調査のデータの分析8 - R言語でconfusionMatrixを作成する。Accuracy, Sensitivity, Specificityとは?

www.crosshyou.info の続きです。 前回はロジスティクス回帰分析で、売上高が伸びているかどうか、というのをsaiyou: 採用人数で回帰する分析モデルをつくりました。 今回は結果をもう少し詳しくみてみます。 まず、saiyouとchg_net_dummy: 売上高が伸びてい…