www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2019-10-01から1ヶ月間の記事一覧

プロ野球の勝敗データの分析6 - R言語でクロス表(2 x 2)のファイ係数を計算する関数を作成する。整数の桁あふれは as.numeric関数で対応。

www.crosshyou.info の続きです。 今回は、ファイ係数を計算する関数を作ってみます。 実は、 www.crosshyou.info のときにも関数を作ってみたのですが、何故かエラーになったんです。 そのとき作った関数が これです。 そして、この関数を実行したら、 と「…

都道府県別の凶悪犯認知件数の分析3 - R言語で回帰分析。今回は対数値で回帰分析。可住地面積が広いほうが件数は少ない。

www.crosshyou.info の続きです。 今回は対数値のavgArea, avgGDPで回帰分析してみます。 log(avgArea):log(avgGDP)の項目はいらないですね。削除します。 model2を採用します。 I(log(avgGDP)^2)はいらないですね。 model3を採用します。 I(log(avgArea)^2)…

都道府県別の凶悪犯認知件数の分析2 - R言語で人口10万人当りの凶悪犯認知件数を計算して回帰分析。経済活動が活発なほど件数は多い。

www.crosshyou.info の続きです。 今回は、人口10万人当りの凶悪犯認知件数を算出して、これを可住地面積と県内総生産額で回帰分析してみます。 大阪府は人口10万人当りの件数でも一番多いですね。 一番少ないのは山形県です。 グラフにしてみます。 大阪府…

都道府県別の凶悪犯認知件数の分析1 - R言語で基本統計値を調べる。大阪府では1年で1000件以上も発生している。

今回は都道府県別の凶悪犯認知件数を分析します。 e-stat, 政府統計の総合窓口からデータを取得しました。 説明変数として、総人口、可住地面積、県内総生産額も一緒に取得しました。 このようなExcelファイルを作成しました。これをread.csv関数でR言語に読…

プロ野球の勝敗データの分析5 - 引き分けが多いのは粘り強さの証なのか?勝ちきれない詰めの甘さなのか? >>> どちらでもない。

www.crosshyou.info の続きです。 今回は勝利数を引き分け数で回帰分析してみます。 引き分け数が多いチームほど勝利数が多ければ、引き分けが多いのは粘り強さの証になりますし、逆に引き分けが多いチームほど勝利数が少なければ、引き分けが多いのは勝ちき…

プロ野球の勝敗データの分析4 - 2 x 2のクロス表のファイ係数を計算する。

www.crosshyou.info の続きです。 今回は 2 x 2 のクロス表で関連性の強さを見る指標、ファイ係数を計算しようと思います。 bellcurve.jpこのサイトに このように計算式が載っていました。これを使って計算します。 まずは、Aクラス・Bクラス x セリーグ・パ…

プロ野球の勝敗データの分析3 - R言語のtapply関数でクロス表を作成して、chisq.test関数でカイ二乗検定。

www.crosshyou.info の続きです。 今回はクロス表を作って、カイ二乗検定をしてみます。 勝利数を Aクラス・Bクラス x セリーグ・パリーグ、 Aクラス・Bクラス x 関東・非関東 セリーグ・パリーグ x 関東・非関東 この3つのクロス表で分類してカイ二乗検定…

プロ野球の勝敗データの分析2 - R言語で勝利数の平均値の違いを調べる。AクラスとBクラスでは有意な違いがある。

www.crosshyou.info の続きです。 前回は、セリーグ、パリーグで勝利数の平均値に有意な違いは無いことがわかりました。今回は、関東の球団かそうじゃないか、AクラスかBクラスかで勝利数に違いがあるかを調べます。 var.test関数でvarianceが同じかどうか確…

プロ野球の勝敗データの分析1 - R言語のvar.test関数とt.test関数で二つの変数の分散・平均値が同じかどうかを調べる。

今回はプロ野球の勝敗データを分析してみようと思います。 npb.jpこのサイトにあった の画像にある勝敗データを使おうと思います。 まず、Excelにデータを転記しました。 関東にある球団か、そうでないかという変数、Kantouと各リーグ上位をAクラス、下位をB…

都道府県別の老人福祉費と児童福祉費の分析10 - R言語で、老人福祉費 / 児童福祉費 の回帰分析その2 やっぱり面積だけが関係あり。

www.crosshyou.info 今回は前回の続きで、こんどは人口、面積、県内総生産の対数値、logPop, logArea, logGDPで回帰分析をしてみたいと思います。前回は北海道の面積が他と比べて圧倒的に大きかったので、その影響が大きく出ていました。今回はどうでしょう…

都道府県別の老人福祉費と児童福祉費の分析9 - R言語で、老人福祉費 / 児童福祉費 という比率を計算。沖縄県以外はどこも老人福祉費のほうが多い。

www.crosshyou.info の続きです。 今回は、老人福祉費 / 児童福祉費 という比率を計算してみます。 まず、老人福祉費と児童福祉が同じ都道府県の順番で並んでいるか確認します。 == で同じかどうかをテストしました。すべてTRUEなので同じですね。sumでTRUE…

都道府県別の老人福祉費と児童福祉費の分析8 - R言語で一人当り児童福祉費を重回帰分析。東京都を含めるか除外するかでモデルが違ってくる。

www.crosshyou.info の続きです。 今回は一人当りの児童福祉費(ChildpM)を重回帰分析します。 説明変数は対数をとった面積(logArea)と対数をとった県内総生産(logGDP)です。 まずは、一番複雑なモデルから。 logArea:logGDPの交差項は不要のようです。削除し…

都道府県別の老人福祉費と児童福祉費の分析7 - R言語で重回帰分析。一人当りの老人福祉費は面積が大きい県ほど多い。GDPの大きい県ほど少ない。

www.crosshyou.info の続きです。 今回は一人当りの老人福祉費を面積(対数をとったもの)と県内総生産(対数をとったもの)の二つの変数で回帰分析してみたいと思います。 まずは、それぞれの変数との散布図を描いてみます。 面積は関係なさそうですが、GDPは関…

日銀の短観データの分析6 - R言語で棒グラフと1標準誤差、信頼区間を表示する。

www.crosshyou.info の続きです。 今回は棒グラフと信頼区間を表示してみたいと思います。 Statistics: An Introduction Using R 作者: Michael J. Crawley 出版社/メーカー: Wiley 発売日: 2019/12/09 メディア: ペーパーバック この商品を含むブログを見る…

日銀の短観データの分析5 - R言語でANOVA。繊維や紙・パルプは景気が悪く、対事業所サービスや通信は景気がいい。

www.crosshyou.info の続きです。 今回の説明変数はIndus, 業種です。summary関数でどういう業種があるか見てみます。 33種類の業種があります。今回は前回までとは違ったアプローチでANOVAをやってみたいと思います。 いつものように参考図書は、 Statistic…

日銀の短観データの分析4- R言語でANOVA。中小企業は景況感は悪い。

www.crosshyou.info の続きです。 今回は、大企業、中堅企業、中小企業という企業規模の違い、Scaleをexplanatory variableにしてANOVAをしてみます。企業規模の違いで短観の数値に違いはあるでしょうか? まずは、グラフで様子を確認しましょう。 黒い点が…

日銀の短観データの分析3 - R言語でANOVA。製造業よりも非製造業のほうが景気はいいようだ。

www.crosshyou.info の続きです。今回もANOVAをします。今度は、Sector(製造業、非製造業、全産業)を説明変数にして、Value、短観の値を反応変数にします。 またグラフでSectorによって短観の値に違いがあるか見てみましょう。 黒い点が製造業で黒い水平線が…

日銀の短観データの分析2 - R言語でANOVA。最近と先行きに違いはある。先行きのほうが悲観的。

www.crosshyou.info の続きです。今回もANOVAです。explanatoly variables(説明変数)をType(最近、先行きの2値をとるカテゴリカル変数)にresponse variable(反応変数)はValue(短観の値)です。 まずは、前回と同じくグラフで見てみます。 黒い点が最近、赤い…

日銀の短観データの分析1 - R言語でANOVA。6月調査と9月調査に違いがあるとは言えない。

今回は先日発表された日銀の短観データを分析してみます。 日銀のウェブサイトからダウンロードしたファイルは、上のようなものでした。 これを こんな感じにデータを組みなおして、read.csv関数でR言語で読み込み、分析してみます。 summary関数でそれぞれ…

都道府県別の老人福祉費と児童福祉費の分析6 - R言語で回帰分析の続き。一人当りの老人福祉費と児童福祉を計算した。

www.crosshyou.info の続きです。 児童福祉費と人口は関係ありましたね。児童福祉費と面積はどうでしょうか? p-valueは0.1507なので有意ではないですね。面積は児童福祉費には関係ないようです。 では、県内総生産を見てみましょう。 p-valueが2.2e-16より…

都道府県別の老人福祉費と児童福祉費の分析5 - R言語で回帰分析をする。

www.crosshyou.info の続きです。 今回はR言語で回帰分析をします。老人福祉費または児童福祉を人口、面積、県内総生産の3つの変数で回帰分析します。事前の予想は、人口と県内総生産は関係あるけど、面積は関係ないんでは?と思います。 早速やってみます。…

都道府県別の老人福祉費と児童福祉費の分析4 -R言語で Variance(分散)を調べ、standard error(標準誤差)とconfidence interval(信頼区間)を求める。

www.crosshyou.info の続きです。 今回は、variance(分散)を調べます。上に画像のある、Michael J. CrawleyのStatistics An Introduction using Rを参考にします。 varianceはvar関数で簡単にわかります。 10年間平均の老人福祉の対数の分散は、 0.07579028…