Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2020-06-01から1ヶ月間の記事一覧

Real estate valuation data set の分析1 - データをR言語に取り込む

今回は、上の画像、UCI Machine Learning Repositoryの中にあった、Real Estate valuation data setのデータを分析しようと思います。 URLは、 https://archive.ics.uci.edu/ml/datasets/Real+estate+valuation+data+set です。 Citation requestがYeh, I. C…

東証の業種別空売りデータの分析6 - 前日比を空売り比率で回帰分析する。

www.crosshyou.info の続きです。 今回は前日比を規制有りの空売り比率と規制無しの空売り比率で回帰分析をしてみたいと思います。R言語のlm関数を使います。 規制無しの空売り比率と前日比の相関係数が、0.3965843ですので、この相関係数をどれだけ上回る回…

東証の業種別空売りデータの分析5 - 空売り比率と前日比の相関をR言語のcor.test関数で調べる。

www.crosshyou.info の続きです。 今回は、空売り比率と前日比の相関関係を調べてみます。 まずは、R言語のplot関数で散布図を描いてみます。 規制有りと前日比は相関なさそうで、規制有りと前日比は少し相関ありそうです。 cor.test関数で相関係数を調べて…

東証の業種別空売りデータの分析4 - データが正規分布をしているかどうか。skewとkurtosisの観点から。

www.crosshyou.infoの続きです。 今回は、規制有り、規制無し、前日比の各データの分布が正規分布かどうかを調べます。 skewとkurtosisを計算してこの値が有意に0と違っていれば正規分布では無いとわかります。 skewは分子は、 m3 = sum((y - ybar)^3) / n …

東証の業種別空売りデータの分析3 - R言語でVarianceを調べる。F test、標準誤差、信頼区間、Bootstrap

www.crosshyou.info の続きです。 今回は各データのVariance(分散)を調べてみます。 まずは、規制有りのVarianceと規制無しのVarianceを調べてみます。 var関数でVarianceはわかります。規制有りのVarianceは33.4、規制無しのVarianceは4.87です。かなり違い…

東証の業種別空売りデータの分析2 - R言語で算術平均、幾何平均、調和平均、中央値を計算する。

www.crosshyou.infoの続きです。 今回は、Michael J. Crawley著 Statistics An introduction using Rの第3章、Central Tendencyを参考にして分析の練習をしてみます。 まずは、hist関数でヒストグラムを描きます。 規制有りは左の裾野が広く、規制無しと前日…

東証の業種別空売り集計データの分析1 - R言語でデータを読み込み基本統計量を出す。

今回は東証の業種別空売りデータを分析しようと思います。 空売り集計 | 日本取引所グループ このサイトからPDFファイルをダウンロードしました。 こういうデータです。 それと、 リアルタイム株価指数値一覧 | 日本取引所グループ このサイトの業種別指数の…

東京都の新型コロナ陽性者数のデータ分析9 - R言語のglm関数で退院済フラグを性別と年代でロジスティクス回帰分析

www.crosshyou.info の続きです。 今回は、R言語のglm関数で退院済フラグをresponse variableに、性別と年代をexplanatory variablesにしてロジスティクス回帰分析をしてみます。 まず、退院済フラグ、性別と年代だけのデータフレームを作ります。 head関数…

東京都の新型コロナ陽性者数のデータ分析8 - R言語のfisher.test関数で性別と退院済フラグのクロス表分析をする。

www.crosshyou.info の続きです。 今回は、性別と退院済フラグのクロス表分析をします。 性別の調査中と不明を削除しましょう。 table関数でクロス表を作ります。 男性のほうが退院済フラグが1の比率が多いようです。 prop.table関数で見てみましょう。 男性…

東京都の新型コロナ陽性者数のデータ分析7 - R言語のchisq.test関数で年代と退院済フラグのクロス表分析とglm関数で回帰分析をする。

www.crosshyou.info の続きです。 今回は年代と退院済フラグでクロス表を作成します。 年代の不明を削除して、100歳以上を90代と一緒にして、90代以上にしましょう。 クロス表を作成します。 prop.table関数で比率をみてみます。 年代が上がるほど、退院済フ…

東京都の新型コロナ陽性者数のデータ分析6 - R言語のchisq.test関数で年代と性別のクロス表分析をする。

www.crosshyou.info の続きです。 今回は、年代と性別でクロス表分析をします。 性別の調査中と不明、年代の不明を削除しましょう。 まず、年代の不明を削除しました。 次に、性別の調査中と不明を削除します。 性別の100歳以上を90代と合計して、90代以上と…

東京都の新型コロナ陽性者数のデータ分析5 - R言語のchisq.test関数で曜日と退院済フラグのクロス表分析をする。

www.crosshyou.infoの続きです。 今回は曜日 x 退院済フラグでクロス表を作ります。 これは、不要なデータを削除する必要はないですね。 prop.table関数で比率を見ましょう。 金曜日が退院済フラグが0、退院していない人が多いです。 barplot関数でグラフに…

東京都の新型コロナ陽性者数のデータ分析4 - R言語のchisq.test関数で曜日と性別のクロス表分析をする。

www.crosshyou.infoの続きです。 今回は、曜日と性別でクロス表分析をします。 まずは普通にtable関数で集計します。 調査中と不明は削除しましょう。 集計用に作成した曜日と性別で集計します。 prop.table関数で男女の比率を見てみます。 prop.table関数で…

東京都の新型コロナ陽性者数のデータ分析3 - R言語のchisq.test関数で曜日と年代のクロス表分析をする。

www.crosshyou.info の続きです。 前回は、1変数について陽性者数を集計しました。 今回は、2変数で集計してみます。 曜日 x 年代、曜日 x 性別、曜日 x 退院済、年代 x 性別、年代 x 退院済、性別 x 退院済、の6つです。 10歳未満と10代を統合、90代と100歳…