www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2021-03-01から1ヶ月間の記事一覧

SPDR S&P 500 ETFのリターンをセクターSPDR ETFのリターンで分析する6 - R言語のknn3関数でk-nearest neighbor法でリターンを予測する。

www.crosshyou.info 今回は、R言語のknn3関数でk-nearest neighbor法でSPYのリターンを予測してみます。 このように、kの値を5から255まで5ずつ増やした数列として用意しました。 このようにsapply関数の中で、knn3関数、predict関数、confusionMatrix関数を…

SPDR S&P 500 ETFのリターンをセクターSPDR ETFのリターンで分析する5 - R言語のlm関数で線形回帰分析でリターンを予測してみる。

www.crosshyou.info の続きです。 今回は、R言語のlm関数で線形回帰分析でリターンを予測してみます。 はじめに、df_train, df_testの各データフレームから、今回の分析では使わない同じ週のリターンの変数を削除しておきます。 lm関数でモデルを作成します…

SPDR S&P 500 ETFのリターンをセクターSPDR ETFのリターンで分析する4 - ただのあてずっぽうでリターンを予測してみる。

www.crosshyou.info の続きです。 今回はSPDR S&P 500 ETFのリターンを、ただのguessで予測してみます。 ます、dfをトレーニング用とテスト用の2つのデータフレームにわけます。 半々にわけようと思いましたので、n <- round(nrow(df)*0.5)でnをdfの行数の…

SPDR S&P 500 ETFのリターンをセクターSPDR ETFのリターンで分析する3 - R言語のggplot2でグラフをいくつか描いてみる。

www.crosshyou.info の続きです。 今回は、R言語のggplot2パッケージを使って、グラフをいくつか描いてみます。 まずは、geom_histogram関数でヒストグラムを描いてみます。 次は、geom_boxplot関数とgeom_density関数で箱ひげ図と密度関数です。 SPDR S&P 5…

SPDR S&P 500 ETFのリターンをセクターSPDR ETFのリターンで分析する2 - R言語のmatrix関数やrbind関数やcbind関数をつかって、リターンのデータを用意する。

www.crosshyou.info の続きです。 前回はpdfetch_YAHOO関数でYahoo FinanceからSPDRの株価データを取得しました。 今回は株価データからリターンのデータを計算しようと思います。 str関数で前回作成した、raw_dataのデータ構造を確認します。 xtsというオブ…

SPDR S&P 500 ETFのリターンをセクターSPDR ETFのリターンで分析する1 - R言語のpdfetchパッケージでデータを取得する。

R言語のpdffetchパッケージを使うと、米国のYahoo Finance(Yahoo Finance - Stock Market Live, Quotes, Business & Finance News)の株価データを簡単に取得できることを知りました。 Using R for Introductory Econometrics 作者:Heiss, Florian 発売日: 20…

都道府県別の個人企業経済調査のデータの分析8 - R言語でconfusionMatrixを作成する。Accuracy, Sensitivity, Specificityとは?

www.crosshyou.info の続きです。 前回はロジスティクス回帰分析で、売上高が伸びているかどうか、というのをsaiyou: 採用人数で回帰する分析モデルをつくりました。 今回は結果をもう少し詳しくみてみます。 まず、saiyouとchg_net_dummy: 売上高が伸びてい…

都道府県別の個人企業経済調査のデータの分析7 - R言語のglm関数でロジスティクス回帰分析をする。採用人数が多いほど、売上高が伸びる確率が高い。

www.crosshyou.info の続きです。 今回は、2019年から2020年へ売り上げが伸びた都道府県、減少した都道府県という2値をとるダミー変数を作ってR言語のglm関数でロジスティクス回帰分析をしてみようと思います。 まず、2値をとるダミー変数を作ります。 前回…

都道府県別の個人企業経済調査のデータの分析6 - R言語で回帰分析をする。生活・レジャー産業の割合が高いほど、宿泊・飲食サービス産業の割合が低いほど、1企業当たりの売上高は伸びた。

www.crosshyou.info の続きです。 前回の回帰分析モデルから、重要でない変数をstep関数で削除してみます。 このlm_2をsummary関数で表示してみます。 life_leisure_r: 生活・レジャー産業の割合、sonota_serv_r: その他サービス業の割合、hotel_resstau_r: …

都道府県別の個人企業経済調査のデータの分析5 - R言語で回帰分析をする。準備として相関係数ランキングを作成した。

www.crosshyou.info の続きです。 今回はR言語のlm関数で回帰分析をしてみます。 前回の分析では、2020年の1企業当たりの売上高が増えているところもあれば、減っているところもありました。この増減を他の変数で回帰分析してみようと思います。 まず、2020…

都道府県別の個人企業経済調査のデータの分析4 - 1企業当たりの売上高の大きなところは奈良県、大阪府、愛知県など。

www.crosshyou.info の続きです。 今回は都道府県別にsales: 1企業当たりの売上高をみてみます。 2019年と2020年の平均値の大きい順にprefを並び替えています。 mutate(pref = reorder(pref, sales, FUN = mean))の部分です。 theme(axis.text = element_tex…

都道府県別の個人企業経済調査のデータの分析3 - R言語のvar.test関数、t.test関数で2019年と2020年の1企業当りの売上高を比較する。

www.crosshyou.info の続きです。 sales: 1企業当りの売上高【千円】のヒストグラムを描いてみます。 ggplot2パッケージを使って、ggplot関数とgeom_histogram関数を使います。 binwdth = 1000 として百万円ごとの度数です。 facet_grid関数を追加して、2019…

都道府県別の個人企業経済調査のデータの分析2 - R言語のsummary関数、mean関数、var関数、sd関数などで基本統計量を調べる。

www.crosshyou.info の続きです。 今回はsales: 1企業当りの売上高【千円】について調べてみましょう。 まずは、summary関数で平均値や中央値を確認しましょう。 最小値は239万6千円、最大値が3245万9千円、中央値が1100万4千円、平均値が1239万9千円です。 …

都道府県別の個人企業経済調査のデータの分析1 - R言語でデータを読み込む。

今回は、個人企業経済調査というデータの分析をしてみます。 政府統計の総合窓口(www.e-stat.go.jp)のサイトからデータを取得します。 個人企業経済調査は、個人企業の経営の実態を明らかにし、中小企業振興のための基礎資料などを得ることを目的として実施…

都道府県別のエンゲル係数のデータの分析5 - R言語のlm関数で回帰分析をする。

www.crosshyou.info の続きです。 今回はR言語のlm関数で線形回帰分析をします。 engel: エンゲル係数を、gdp_pop: 1人当たりの県内総生産額【百万円】とmf: 男女比率、working: 15~64歳人口割合【%】という3つの変数を使って回帰分析します。 summary関数…

読書記録 - 「リスクの正体 --- 不安の時代を生き抜くために」 神里達博 著 岩波新書

リスクの正体――不安の時代を生き抜くために (岩波新書) 作者:神里 達博 発売日: 2020/06/20 メディア: 新書 もともとは朝日新聞に連載されていたコラムのようです。 日本が遭遇した様々な出来事、私たちの安心安全が脅かされるような、についてのコラムです…

都道府県別のエンゲル係数のデータの分析4 - R言語でエンゲル係数とその他の変数の関係を調べる。散布図と相関係数。

www.crosshyou.info の続きです。 今回は、engel: エンゲル係数と各変数の関係を見ていきます。 まずは、gdp_pop: 1人当たりの県内総生産額(平成17年基準)【百万円】からです。 geom_smooth(method = "lm")を加えて、線形回帰分析の回帰直線を重ねています。…

都道府県別のエンゲル係数のデータの分析3 - R言語で都道府県のエンゲル係数ランキングを作る。

www.crosshyou.info の続きです。 今回は、どの都道府県のengel: エンゲル係数が高いのか低いのか調べます。 調査年度による違いはあまりないですので、3年平均で比較します。 京都府と兵庫県が0.268でトップです。和歌山県、青森県、大阪府、愛知県と続きま…

都道府県別のエンゲル係数のデータの分析2 - R言語で各変数のヒストグラムを描く。調査年による違いがあるとは言えないことをANOVA分析で確認する。

www.crosshyou.info の続きです。 今回は、各変数のヒストグラムを描いて、データの分布形状を確かめます。 まずはengel: エンゲル係数からです。 少し右側の裾野が広い分布です。 year: 調査年別でもみておきます。 調査年は2005, 2006, 2007年です。目立っ…

都道府県別のエンゲル係数のデータの分析1 - R言語でデータを読み込み、エンゲル係数を計算する。

今回は都道府県別のエンゲル係数を計算してみようと思います。 エンゲル係数は、家計の消費支出に占める食料費の割合で、この係数が高いほど生活水準が低いとされるようです。エンゲル係数とは - コトバンク (kotobank.jp) データは政府統計の総合窓口、e-st…

都道府県別の1住宅当たり延べ面積のデータの分析5 - 前回調査の延べ面積のデータを加えて回帰分析をしてみる。

www.crosshyou.info の続きです。 前回の回帰分析で1人当たりの県内総生産額が大きいほど1住宅当たり延べ面積が広いことがわかりました。 今回は、前回調査の1住宅当たり延べ面積のデータを説明変数に加えても1人当りの県内総生産額が有意な説明変数なのかど…

都道府県別の1住宅当たり延べ面積のデータの分析4 - R言語のlm関数で回帰分析。家の広さは、裕福なほど広い。

www.crosshyou.info の続きです。 今回はnobe: 1住宅当たりの延べ面積(m2)を他の変数で回帰分析します。 前回の分析で東京都が特殊な感じだったので、東京都なら1、そうでないなら0のダミー変数を作っておきました。 lm関数で回帰分析モデルを作ります。 sum…