Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2019-01-01から1年間の記事一覧

日銀短観2019年12月調査のデータ分析6 - 企業の規模(大企業/中堅企業/中小企業)でANOVA。企業規模によって景況感は違いがある。

www.crosshyou.info の続きです。 今回は、企業の規模、大企業、中堅企業、中小企業の3つの企業規模で短観の値に違いがあるのかどうか、ANOVA(ANalyis Of VAriance)をしてみます。 まずは、現状(Now)のそれぞれの平均値を見てみましょう。tapply関数とmean…

日銀短観2019年12月調査のデータ分析5 - 現状と先行きの回帰分析。

www.crosshyou.info の続きです。 今回は、現状と先行きで回帰分析をしてみようと思います。 先行きを反応変数、現状を説明変数にしてみます。 まずは、plot関数で散布図を描いてみましょう。 右肩上がりの散布図です。現状(Now)と先行き(Next)には正の相関…

日銀短観2019年12月調査のデータ分析4 - 現状の変化幅と先行きの変化幅に有意な違いはあるのか? 変化幅には有意な違いは無し。

www.crosshyou.info の続きです。 前回は現状(Now)と先行き(Next)の水準そのものに有意な違いがあるかどうかを調べました。その結果、現状と先行きには有意な違いがあり、先行きのほうが低いということがわかりました。 今回は、変化幅で同じように分析して…

日銀短観2019年12月調査のデータ分析3 - 現状と先行きに有意な違いはあるのか?先行きのほうが現状よりも有意に悪い。

www.crosshyou.info の続きです。 今回は現状と先行きに統計的に有意な違いがあるのかどうかを調べます。 まずは、summary関数でデータフレームを確認しましょう。 今回もMichael J. CrawleyのStatistics An Introduction Using R Second Edition Statistics…

日銀短観2019年12月調査のデータ分析2 - The Central Limit Theorem(中心極限定理)を実感する。

www.crosshyou.info の続きです。 今回は、central limit theoremを実感してみたいと思います。日本語だと中心極限定理ですね。 Michael J. Crawley の Statistics: An Introduction Using R Statistics: An Introduction Using R 作者:Michael J. Crawley …

日銀短観2019年12月調査のデータ分析1 - R言語でヒストグラムや箱ひげ図を作成する。

今回は先日発表発表された日銀短観2019年12月調査のデータを分析してみようと思います。 短観 : 日本銀行 Bank of Japan 上の画像のZIPファイルの中にあるExcelファイルをダウンロードしました。 こういうファイルです。 これをR言語で分析しようと思います…

日経平均とドル円と売買代金の分析7 - 年ごとに日経平均の月次変化に違いはあるのか?棒グラフに標準誤差を表示

www.crosshyou.info の続きです。 いままで、YearMonthを無視して分析してきましたので、今回は年によって日経平均の月次変化に違いがあるかどうか、ANOVA分析をしてみたいと思います。 head関数ではじめの数データを表示してみました。左から4文字が年です…

日経平均とドル円と売買代金の分析6 - ドル円の水準は日経平均の上げ下げに関連あり。

www.crosshyou.info の続きです。 日経平均の前月比変化を前月のドル円や売買代金の水準及び前月比から回帰分析するのは難しいようでした。今回は、前月の日経平均の前月比、前々月のドル円、売買代金の前月比を加えてみます。 まず、NAの行の無い作業用のデ…

日経平均とドル円と売買代金の分析5 - こんどはロジスティック回帰分析で。こちらもダメ

www.crosshyou.info の続きです。 今度はChgNikkeiが1以上なら1、そうでないなら0という2値をとる変数にしてロジスティック回帰分析をしてみます。 まずは2値を取る変数を作成します。 dfChgNikke >= 1 でTRUEとFALSEの論理ベクトルを作り、それをidxとして…

日経平均とドル円と売買代金の分析4 - 前月のドル円と売買代金の変化で今月の日経平均の変化を重回帰分析しようとしたがダメだった。

www.crosshyou.info の続きです。 今回は、前月のドル円と売買代金の変化から、今月の日経平均の変化を重回帰分析してみたいと思います。 まず、重回帰分析に必要なデータを用意します。 まず、上の画像のように、PChgYen, PChgDaikinという前月のドル円、売…

日経平均とドル円と売買代金の分析3 - R言語でヒストグラムや箱ひげ図、quantile - quantile plotを描く

www.crosshyou.info の続きです。 今回は月次の変化率のヒストグラムや箱ひげ図を描いてみます。 hist関数でヒストグラムが作成できます。 日経平均は左側、ドル円は右側の裾野が広いですね。売買代金は右側に裾野が広いです。 箱ひげ図はboxplot関数です。 …

読書記録 - 「モンテーニュ 人生を旅するための7章」(岩波新書) 宮下志朗

モンテーニュ 人生を旅するための7章 (岩波新書) 作者:宮下 志朗 出版社/メーカー: 岩波書店 発売日: 2019/07/20 メディア: 新書 いろいろと名言があった。 人間はだれでも、人間としての存在の完全なかたちを備えている。 世界でいちばん高い玉座の上にあが…

日経平均とドル円と売買代金の分析2- R言語で平均値の標準誤差(Standard Error)と信頼区間(Conficence Interval)を求める。

www.crosshyou.info の続きです。 今回は、Michael J. CrawleyのStatistics: An Introduction Using Rを参考にして、日経平均、ドル円、売買代金の月次変化率の平均値の標準誤差と信頼区間を求めてみようと思います。 Statistics: An Introduction Using R …

日経平均とドル円と売買代金の分析1- 売買代金が一番変動が大きく、ドル円が一番変動が小さい。

今回は、日経平均とドル円と売買代金のデータを分析してみようと思います。 日経新聞電子版からデータをCSVファイルで取得しました。 こういうデータです。Nikkeiが日経平均、Yenがドル円、Daikinが一日当りの売買代金平均(10億円)です。2014年12月から2019…

国立科学博物館の標本データベースの日本の鳥類の標本の分析5 - ウグイスとスズメを比べると、スズメは北海道が多い。1~3月はスズメが多く、10~12月はウグイスが多い。

www.crosshyou.info の続きです。 今回はウグイスとスズメについて調べてみます。 まずは、ウグイス、スズメだけの作業用のデータフレームを作成します。 ウグイスは124、スズメは121の標本があります。 それでは、都道府県別の標本数を見てみます。table関…

国立科学博物館の標本データベースの日本の鳥類の標本の分析4 - メジロは東京、ヒヨドリは東北の標本が多く、2,3,4月はヒヨドリが多く、1973年はヒヨドリがとっても多かった。

www.crosshyou.info の続きです。 今回はメジロとヒヨドリでは、標本の年、月、都道府県に差があるか調べてみます。 まずは、メジロとヒヨドリだけの作業用のデータフレームを作ります。 Nameには、アオアシシギなど不要のファクタ水準があるので、削除しま…

国立科学博物館の標本データベースの日本の鳥類の標本の分析3 - Mokuのデータが怪しいことに気が付いた。

www.crosshyou.info の続きです。 今回は、Moku(目), Zoku(属), Shu(種)について調べます。 まず、Mokuは何種類あるか、標本数の多いMokuは何か調べてみましょう。 levels関数とlevels関数でMokuの種類数を調べます。 Mokuは214種類ですね。どのMokuが一番多…

国立科学博物館の標本データベースの日本の鳥類の標本の分析2 - 月と日付のデータを整える。8月に採取された標本が一番少ない。

www.crosshyou.info の続きです。今日は月と日付のデータを整えます。 Monthを確認します。 空白、**, 20は明らかにおかしいですね。NAにします。空白は1番目、**は2番目、20は8番目です。 こうして1から12までにしました。これを文字列型にしてから数値…

国立科学博物館の標本データベースの日本の鳥類の標本の分析1 - メジロの標本、北海道の標本、1930年代の標本が一番多い。

国立科学博物館の標本データベースからCSVファイルをダウンロードできることを発見しましたので、データをダウンロードして遊んでみようと思います。 詳細検索(鳥類) | 標本・資料統合データベース から日本の標本を検索してみました。 こんなCSVファイルが…

内閣支持率のデータ分析2 - R言語のbarplot関数の練習。beside = TRUE/FALSE とlegend.text = TRUEが大事

www.crosshyou.info の続きです。 今回はbarplot関数の練習をしてみようと思います。 習うより慣れろの精神でいろいろやってみます。 まずはデータを確認します。 1列目は文字(ファクター)で、2、3、4列目が数値データですね。 まずは、barplot(df)とし…

内閣支持率のデータ分析1 - 各社で支持率は違うか、支持率の信頼区間をR言で調べる。

安倍晋三首相の在任日数が憲政史上最長になりました。 そこで今回は、各報道機関の世論調査、内閣支持率がどうなっているかを調べてみました。 こちらは、NHKの世論調査です。 http://www.nhk.or.jp/senkyo/shijiritsu/ 2019年11月8日から10日の調査で、1253…

乗用車ブランド通称名別順位のデータ分析4 - 日産とホンダの販売台数、順位に違いはあるか?

www.crosshyou.info の続きです。 tapply関数でメーカー別の販売台数を見てみましょう。 トヨタが204,628台でダントツですね。2位がホンダの63,507台、3位が日産の62,943台です。 メーカーごとの平均順位はどうでしょうか? トヨタが15.78で1位ですね。2位が…

乗用車ブランド通称名別順位のデータ分析3 - R言語でヒストグラムや箱ひげ図を作成する。1月と2月の販売台数をt.test関数、wilcox.test関数で検定。

www.crosshyou.info の続きです。 今回は販売台数をグラフにしてみましょう。 まずは、小さい順グラフ、ヒストグラム、箱ひげ図の3つのグラフを一度に作成する関数を作ります。 gpという名前の関数を作りました。 それでは販売台数をグラフにしてみます。 …

乗用車ブランド通称名別順位のデータ分析2 - R言語で自作関数を作成。標準偏差、標準誤差、変動係数、信頼区間などを算出。

www.crosshyou.info の続きです。 今回は標準偏差、標準誤差、変動係数などを計算する関数を作成してみます。 まずは、前回保存したCSVファイルを読み込んでsummary関数で様子を見てみます。 こうなりました。summary関数だと数値データは最小値、第1分位、…

乗用車ブランド通称名別順位のデータ分析1 - R言語のXMLパッケージのreadHTMLTable関数でWebから直接データを読み込む。

今回は、R言語のXMLパッケージのreadHTMLTable関数でWebの表形式のデータを直接読込んでみます。 参考図書は、Rクックブックです。 Rクックブック 作者: Paul Teetor,大橋真也,木下哲也 出版社/メーカー: オライリージャパン 発売日: 2011/12/22 メディア: …

都道府県別の凶悪犯認知件数の分析6 - R言語で県内総生産当りの凶悪犯認知件数を人口と可住地面積で回帰分析。

www.crosshyou.info の続きです。 今回は、県内総生産当りの凶悪犯認知件数を人口と可住地面積で回帰分析しようと思います。 まずは、県内総生産当りの凶悪犯認知件数を算出します。 avgGDPは百万円単位なので、百万をかけて1円当りの件数にしています。富山…

都道府県別の凶悪犯認知件数の分析5 - R言語で可住地面積当りの凶悪犯認知件数を人口と県内総生産で回帰分析。人口・県内総生産額の大きな県ほど件数は多い

www.crosshyou.info の続きです。 前回作成した、可住地面積10万ha当りの凶悪犯認知件数を人口と県内総生産で回帰分析してみます。 まずはplot関数で散布図を描いてみます。 右側の対数変換した後の散布図のほうが分析するにはよさそうですね。 県内総生産と…

都道府県別の凶悪犯認知件数の分析4 - R言語で可住地面積当りの凶悪犯認知件数を計算。度数分布表を出力する関数を作成。

www.crosshyou.info の続きです。 今回は可住地面積当りの凶悪犯認知件数を計算してみます。 10万ha当りの件数を算出しました。秋田県は8.4件、大阪府は780.5件です。100倍近い差がありますね。 グラフで分布をみてみます。 大きな値に外れ値がいっぱいある…

プロ野球の勝敗データの分析6 - R言語でクロス表(2 x 2)のファイ係数を計算する関数を作成する。整数の桁あふれは as.numeric関数で対応。

www.crosshyou.info の続きです。 今回は、ファイ係数を計算する関数を作ってみます。 実は、 www.crosshyou.info のときにも関数を作ってみたのですが、何故かエラーになったんです。 そのとき作った関数が これです。 そして、この関数を実行したら、 と「…

都道府県別の凶悪犯認知件数の分析3 - R言語で回帰分析。今回は対数値で回帰分析。可住地面積が広いほうが件数は少ない。

www.crosshyou.info の続きです。 今回は対数値のavgArea, avgGDPで回帰分析してみます。 log(avgArea):log(avgGDP)の項目はいらないですね。削除します。 model2を採用します。 I(log(avgGDP)^2)はいらないですね。 model3を採用します。 I(log(avgArea)^2)…