crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

データ分析

Real estate valuation data set の分析1 - データをR言語に取り込む

今回は、上の画像、UCI Machine Learning Repositoryの中にあった、Real Estate valuation data setのデータを分析しようと思います。 URLは、 https://archive.ics.uci.edu/ml/datasets/Real+estate+valuation+data+set です。 Citation requestがYeh, I. C…

東証の業種別空売りデータの分析6 - 前日比を空売り比率で回帰分析する。

www.crosshyou.info の続きです。 今回は前日比を規制有りの空売り比率と規制無しの空売り比率で回帰分析をしてみたいと思います。R言語のlm関数を使います。 規制無しの空売り比率と前日比の相関係数が、0.3965843ですので、この相関係数をどれだけ上回る回…

東証の業種別空売りデータの分析5 - 空売り比率と前日比の相関をR言語のcor.test関数で調べる。

www.crosshyou.info の続きです。 今回は、空売り比率と前日比の相関関係を調べてみます。 まずは、R言語のplot関数で散布図を描いてみます。 規制有りと前日比は相関なさそうで、規制有りと前日比は少し相関ありそうです。 cor.test関数で相関係数を調べて…

東証の業種別空売りデータの分析3 - R言語でVarianceを調べる。F test、標準誤差、信頼区間、Bootstrap

www.crosshyou.info の続きです。 今回は各データのVariance(分散)を調べてみます。 まずは、規制有りのVarianceと規制無しのVarianceを調べてみます。 var関数でVarianceはわかります。規制有りのVarianceは33.4、規制無しのVarianceは4.87です。かなり違い…

東証の業種別空売り集計データの分析1 - R言語でデータを読み込み基本統計量を出す。

今回は東証の業種別空売りデータを分析しようと思います。 空売り集計 | 日本取引所グループ このサイトからPDFファイルをダウンロードしました。 こういうデータです。 それと、 リアルタイム株価指数値一覧 | 日本取引所グループ このサイトの業種別指数の…

東京都の新型コロナ陽性者数のデータ分析9 - R言語のglm関数で退院済フラグを性別と年代でロジスティクス回帰分析

www.crosshyou.info の続きです。 今回は、R言語のglm関数で退院済フラグをresponse variableに、性別と年代をexplanatory variablesにしてロジスティクス回帰分析をしてみます。 まず、退院済フラグ、性別と年代だけのデータフレームを作ります。 head関数…

東京都の新型コロナ陽性者数のデータ分析8 - R言語のfisher.test関数で性別と退院済フラグのクロス表分析をする。

www.crosshyou.info の続きです。 今回は、性別と退院済フラグのクロス表分析をします。 性別の調査中と不明を削除しましょう。 table関数でクロス表を作ります。 男性のほうが退院済フラグが1の比率が多いようです。 prop.table関数で見てみましょう。 男性…

東京都の新型コロナ陽性者数のデータ分析7 - R言語のchisq.test関数で年代と退院済フラグのクロス表分析とglm関数で回帰分析をする。

www.crosshyou.info の続きです。 今回は年代と退院済フラグでクロス表を作成します。 年代の不明を削除して、100歳以上を90代と一緒にして、90代以上にしましょう。 クロス表を作成します。 prop.table関数で比率をみてみます。 年代が上がるほど、退院済フ…

東京都の新型コロナ陽性者数のデータ分析6 - R言語のchisq.test関数で年代と性別のクロス表分析をする。

www.crosshyou.info の続きです。 今回は、年代と性別でクロス表分析をします。 性別の調査中と不明、年代の不明を削除しましょう。 まず、年代の不明を削除しました。 次に、性別の調査中と不明を削除します。 性別の100歳以上を90代と合計して、90代以上と…

東京都の新型コロナ陽性者数のデータ分析5 - R言語のchisq.test関数で曜日と退院済フラグのクロス表分析をする。

www.crosshyou.infoの続きです。 今回は曜日 x 退院済フラグでクロス表を作ります。 これは、不要なデータを削除する必要はないですね。 prop.table関数で比率を見ましょう。 金曜日が退院済フラグが0、退院していない人が多いです。 barplot関数でグラフに…

東京都の新型コロナ陽性者数のデータ分析4 - R言語のchisq.test関数で曜日と性別のクロス表分析をする。

www.crosshyou.infoの続きです。 今回は、曜日と性別でクロス表分析をします。 まずは普通にtable関数で集計します。 調査中と不明は削除しましょう。 集計用に作成した曜日と性別で集計します。 prop.table関数で男女の比率を見てみます。 prop.table関数で…

東京都の新型コロナ陽性者数のデータ分析3 - R言語のchisq.test関数で曜日と年代のクロス表分析をする。

www.crosshyou.info の続きです。 前回は、1変数について陽性者数を集計しました。 今回は、2変数で集計してみます。 曜日 x 年代、曜日 x 性別、曜日 x 退院済、年代 x 性別、年代 x 退院済、性別 x 退院済、の6つです。 10歳未満と10代を統合、90代と100歳…

東京都の新型コロナ陽性者数のデータ分析2 - R言語のtable関数を使い各変数で集計する。

www.crosshyou.infoの続きです。 今回はR言語のtable関数を使って集計をしてみます。 まずは公表_日付で集計しました。 数が多いですから、plot関数でグラフにします。 テレビでよく見るようなグラフになりました。 曜日で集計してみます。 曜日の順番がバラ…

GDPギャップのデータ分析6 - GDPギャップを潜在成長率と資本投入と労働投入で回帰分析をする。」

www.crosshyou.info の続きです。 GDPギャップを回帰分析してみましょう。 R言語のlm関数を使います p-valueは3.126e-07と0.05よりも小さいので有意なモデルです。 InterceptはP値が0.05よりも大きいですね。削除してみます。 update関数で、-1とすれば切片…

GDPギャップのデータ分析5 - GDPギャップと相関関係のある変数をR言語のcor.test関数で調べる。

www.crosshyou.infoの続きです。 各変数間の散布図マトリックスをみてみます。 R言語のpairs関数で散布図マトリックスを描きます。散らばっているというよりは、ぐにゃぐにゃしている感じですね。 cor関数で相関係数マトリックスをみてみます。 GDPギャップ…

GDPギャップのデータ分析4 - 80年台、90年台、2000年台、2010年台と10年ごとの年台で差があるのか。

www.crosshyou.infoの続きです。 前回は四半期ごとの違いはありませんでした。 今回は、1980年台、1990年台、2000年台、2010年台と10年ごとに区切った年台ごとに差があるかどうかを調べます。 まず、年台を表す変数を作成します。 こうして作成したdf$Nendai…

GDPギャップのデータ分析3 - 第1四半期、第2四半期、第3四半期、第4四半期で差があるのか

www.crosshyou.infoの続きです。今回は第1四半期、第2四半期、第3四半期、第4四半期で差があるのかどうかを調べようと思います。 R言語のaov関数とsummary関数を使います。 GDPギャップからみていきます。 Pr(>F)が0.997ですから四半期によってGDPギャップに…

GDPギャップのデータ分析2 - R言語でグラフを描く

www.crosshyou.info の続きです。 今回はそれぞれのデータのグラフを描いてみます。plot関数を使います。 GDPギャップのグラフです。マイナスの時が多いようです。 GDPの潜在成長率のグラフです。最近は1%のちょっと下あたりです。 TFPのグラフです。長期的…

GDPギャップのデータの分析1 - R言語でデータを読み込む

今回から、GDPギャップのデータを分析しようと思います。 月例経済報告 - 内閣府 のサイトからExcelファイルを取得しました。 このようなファイルでした。 このようなCSVファイルにしました。これをR言語のread.csv関数で読み込みます。 read.csv関数でデー…

全国主要都市の第1次、第2次、第3次産業就業者数のデータ分析8 - 1人当り課税所得の変化幅を回帰分析する。

www.crosshyou.info 今回はchgperInc, 1人当り課税所得の変化幅を他の変数で回帰分析してみようと思います。 前回の散布図マトリックスから、直線的な相関関係というよりは複雑な関係がありそうなので、交差項や2乗項を入れて回帰分析してみます。 step関数…

全国主要都市の第1次、第2次、第3次産業就業者数のデータ分析7 - R言語でヒストグラムや箱ひげ図を描く

www.crosshyou.info の続きです。 今回は前回作成した変化幅の変数をヒストグラムや箱ひげ図でグラフにします。 まず、作成した5つの変化幅の変数を一つのデータフレームにまとめます。R言語のdata.frame関数を使います。 summary関数で各変数の平均値などを…

全国主要都市の第1次、第2次、第3次産業就業者数のデータ分析6 - 1985年から2015年の30年間で第2次産業から第3次産業へと就業者が移動している。

www.crosshyou.info の続きです。 今回は2015年と昔の年を比較して、どのように変化してきたか調べてみます。 まずはYearを確認します。 1985年度が一番古いです。1985年度と2015年度でどれだけ変化があったかを調べます。 まずは人口密度から調べます。 人…

全国主要都市の第1次、第2次、第3次産業就業者数のデータ分析5 - 東京23区かどうかは人口密度と1人当り課税所得を見ればわかる。

www.crosshyou.infoの続きです。 今回は、R言語のglm関数でロジスティクス回帰分析をして、東京23区かそうじゃないかを見分けようと思います。 predict関数で予測をして、table関数で実際の値と比較してみます。 予測で1と予測したのが23区です。1と1のとこ…

全国主要都市の第1次、第2次、第3次産業就業者数のデータ分析4 - R言語のlm関数で回帰分析

www.crosshyou.info の続きです。 今回はlogperInc(1人当り課税所得を対数変換した値)をlogMitsu(人口密度を対数変換した値), Ratio1(第1次産業就業者数の割合), Ratio2(第2次産業就業者数の割合), Tko(東京23区かどうか)の4つの変数で回帰分析をしてみます…

全国主要都市の第1次、第2次、第3次産業就業者数のデータ分析3 - 1人当りの課税所得は差が大きい。

www.crosshyou.info の続きです。 前回の分析で東京都の23区は他とはかなり違いがあることがわかりましたので、まず、東京都23区かどうかという変数を作ろうと思います。R言語のgrepl関数を使いました。 東京都の中には八王子市も含まれていますので、八王子…

全国主要都市の第1次、第2次、第3次産業就業者数のデータ分析2 - 東京都の23区は他の道府県の都市とはあきらかに違う。

www.crosshyou.info の続きです。 今回は前回作成した、人口密度、1人当り課税所得、就業者の割合のランキングをみてみようと思います。最新の年度でみてみようと思いますので、まず、table関数で年度を調べます。 2015年度が最新です。2015年度のデータでラ…

全国主要都市の第1次、第2次、第3次産業就業者数データの分析1 - 東京都千代田区にも第1次産業就業者はいる。

今回からは、全国主要都市の第1次、第2次、第3次産業の就業者数のデータを分析しようと思います。 データは、政府統計の総合窓口e-statから取得しました。 www.e-stat.go.jp選択した都市は、 特別区、県庁所在市、政令指定都市、中核市の合計102都市です。 …

都道府県別の睡眠・食事・仕事の平均時間のデータ分析5 - R言語のlm関数とrlm関数で回帰分析

www.crosshyou.info の続きです。 今回は各変数の2006年度から2011年度の変化幅を作成します。 始めのコードで2011年度から2006年度を引き算し、 2行目のコードでpaste関数を使ってもともとの変数名に_Chgを使たしています。 3行名のコードでgsub関数で余計…

都道府県別の睡眠・食事・仕事の平均時間のデータ分析4 - 仕事時間の減少幅は、もともとの仕事時間の長さと関係あり

www.crosshyou.info の続きです。 前回の分析で仕事時間については、2006年度と2011年度で変化が有意にあるとわかりましたので、変化幅を計算してみます。 names関数で都道府県の名前を付与しています。 sort関数で小さい順に並び替えます。 青森県と佐賀県…

都道府県別の睡眠・食事・仕事の平均時間データの分析3 - 仕事時間は男女ともに2006年度よりも2011年度のほうが短い。

www.crosshyou.info の続きです。 今回は、2006年度と2011年度で睡眠時間、食事時間、仕事時間に違いがあるかどうかを調べます。 はじめに、2006年度のデータと2011年度のデータで、都道府県が同じ順番で並んでいるのかを確認します data2006$Pref == data20…