crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

データ分析

景気ウォッチャー調査地域別(現状)のデータ分析1 - データをR言語で読み取り、分析しやすいデータフレームにする。

今回は景気ウォッチャーのデータの分析をしてみようと思います。 内閣府のウェブからデータを取得しました。 ここからエクセルをダウンロードして、今回は、地域別(現状)のデータを使います。 R言語に読込ませるように、少し加工しました。 これをR言語で読…

都道府県別の生活保護被保護実世帯数データの分析6 - R言語で世帯数の伸び率をダミー変数を加えて回帰分析

www.crosshyou.info の続きです。 今回は、世帯数の伸び率をR言語で回帰分析してみたいと思います。 まずは、どのようなデータか再確認します。summary関数を使います。 最低で、1.143倍、最大で1.970倍、平均が1.459倍、中央値が1.517倍です。 hist関数でヒ…

都道府県別の生活保護被保護実世帯数データの分析5 - R言語でGeneralized Additive Model

www.crosshyou.info の続きです。 今回は、gam関数でgeneralized additive modelというのをやってみたいと思います。 Michael J. Crawley の Statistics: An introduction using R Statistics: An Introduction Using R 作者:Michael J. Crawley 出版社/メー…

都道府県別の生活保護被保護実世帯数データの分析4 - R言語で人口当りのデータで回帰分析

www.crosshyou.info の続きです。 前回は生活保護被保護実世帯数そのものを反応変数にして回帰分析をしました。 今回は、人口のデータで割って、人口当りのデータに直して回帰分析してみましょう。 まずは、各変数を人口で割ります。 人口は1000を掛けている…

都道府県別の生活保護被保護実世帯数データの分析3- R言語で回帰分析

www.crosshyou.info 今回はR言語のlm関数で回帰分析をしてみます。 反応変数は、生活保護被保護実世帯数(avgHogo)で、説明変数は人口(avgPop), 可住地面積(acgArea), 県内総生産額(avgGDP)です。 まずは、相関マトリックスを見てみます。 人口(avgPop)と県内…

都道府県別の生活保護被保護実世帯数データの分析2 - R言語で世帯数の伸び率を計算。全体で10年間で1.5倍以上の伸び。埼玉県が一番の伸び率。

www.crosshyou.info の続きです。 今回は、生活保護被保護世帯数の伸び率を計算してみようと思います。 まずは、全国合計の値を計算しましょう。 2006年度の世帯数の合計を計算します。 107万8368世帯です。 2015年度も同じようにします。 162万9754世帯です…

都道府県別の生活保護被保護実世帯数データの分析1 - R言語でCSVファイルのデータを読み込む。大阪府が一番多い。福井県が一番少ない。

今回は、都道府県別の生活保護被保護実世帯数データを分析してみようと思います。 データは、政府統計の総合窓口e-Statから取得します。 まず、47都道府県を選択し、 総人口、可住地面積、県内総生産額と生活保護被保護実世帯数の4つのデータを選択します。…

日銀短観2019年12月調査のデータ分析7 - R言語で企業の規模と現状の景況感で先行きの景況感を分析。(ANCOVA)

www.crosshyou.info の続きです。 今回は、企業の規模というカテゴリカル変数と現状の景況感という実数の変数を組み合わせて先行きの景況感を分析してみたいと思います。 ANCOVA(ANalysis of COVAriance)というものですね。 まずは、横軸に現状の景況感(Now)…

日銀短観2019年12月調査のデータ分析6 - 企業の規模(大企業/中堅企業/中小企業)でANOVA。企業規模によって景況感は違いがある。

www.crosshyou.info の続きです。 今回は、企業の規模、大企業、中堅企業、中小企業の3つの企業規模で短観の値に違いがあるのかどうか、ANOVA(ANalyis Of VAriance)をしてみます。 まずは、現状(Now)のそれぞれの平均値を見てみましょう。tapply関数とmean…

日銀短観2019年12月調査のデータ分析5 - 現状と先行きの回帰分析。

www.crosshyou.info の続きです。 今回は、現状と先行きで回帰分析をしてみようと思います。 先行きを反応変数、現状を説明変数にしてみます。 まずは、plot関数で散布図を描いてみましょう。 右肩上がりの散布図です。現状(Now)と先行き(Next)には正の相関…

日銀短観2019年12月調査のデータ分析4 - 現状の変化幅と先行きの変化幅に有意な違いはあるのか? 変化幅には有意な違いは無し。

www.crosshyou.info の続きです。 前回は現状(Now)と先行き(Next)の水準そのものに有意な違いがあるかどうかを調べました。その結果、現状と先行きには有意な違いがあり、先行きのほうが低いということがわかりました。 今回は、変化幅で同じように分析して…

日銀短観2019年12月調査のデータ分析2 - The Central Limit Theorem(中心極限定理)を実感する。

www.crosshyou.info の続きです。 今回は、central limit theoremを実感してみたいと思います。日本語だと中心極限定理ですね。 Michael J. Crawley の Statistics: An Introduction Using R Statistics: An Introduction Using R 作者:Michael J. Crawley …

日銀短観2019年12月調査のデータ分析1 - R言語でヒストグラムや箱ひげ図を作成する。

今回は先日発表発表された日銀短観2019年12月調査のデータを分析してみようと思います。 短観 : 日本銀行 Bank of Japan 上の画像のZIPファイルの中にあるExcelファイルをダウンロードしました。 こういうファイルです。 これをR言語で分析しようと思います…

日経平均とドル円と売買代金の分析7 - 年ごとに日経平均の月次変化に違いはあるのか?棒グラフに標準誤差を表示

www.crosshyou.info の続きです。 いままで、YearMonthを無視して分析してきましたので、今回は年によって日経平均の月次変化に違いがあるかどうか、ANOVA分析をしてみたいと思います。 head関数ではじめの数データを表示してみました。左から4文字が年です…

日経平均とドル円と売買代金の分析6 - ドル円の水準は日経平均の上げ下げに関連あり。

www.crosshyou.info の続きです。 日経平均の前月比変化を前月のドル円や売買代金の水準及び前月比から回帰分析するのは難しいようでした。今回は、前月の日経平均の前月比、前々月のドル円、売買代金の前月比を加えてみます。 まず、NAの行の無い作業用のデ…

日経平均とドル円と売買代金の分析5 - こんどはロジスティック回帰分析で。こちらもダメ

www.crosshyou.info の続きです。 今度はChgNikkeiが1以上なら1、そうでないなら0という2値をとる変数にしてロジスティック回帰分析をしてみます。 まずは2値を取る変数を作成します。 dfChgNikke >= 1 でTRUEとFALSEの論理ベクトルを作り、それをidxとして…

日経平均とドル円と売買代金の分析4 - 前月のドル円と売買代金の変化で今月の日経平均の変化を重回帰分析しようとしたがダメだった。

www.crosshyou.info の続きです。 今回は、前月のドル円と売買代金の変化から、今月の日経平均の変化を重回帰分析してみたいと思います。 まず、重回帰分析に必要なデータを用意します。 まず、上の画像のように、PChgYen, PChgDaikinという前月のドル円、売…

日経平均とドル円と売買代金の分析2- R言語で平均値の標準誤差(Standard Error)と信頼区間(Conficence Interval)を求める。

www.crosshyou.info の続きです。 今回は、Michael J. CrawleyのStatistics: An Introduction Using Rを参考にして、日経平均、ドル円、売買代金の月次変化率の平均値の標準誤差と信頼区間を求めてみようと思います。 Statistics: An Introduction Using R …

日経平均とドル円と売買代金の分析1- 売買代金が一番変動が大きく、ドル円が一番変動が小さい。

今回は、日経平均とドル円と売買代金のデータを分析してみようと思います。 日経新聞電子版からデータをCSVファイルで取得しました。 こういうデータです。Nikkeiが日経平均、Yenがドル円、Daikinが一日当りの売買代金平均(10億円)です。2014年12月から2019…

国立科学博物館の標本データベースの日本の鳥類の標本の分析5 - ウグイスとスズメを比べると、スズメは北海道が多い。1~3月はスズメが多く、10~12月はウグイスが多い。

www.crosshyou.info の続きです。 今回はウグイスとスズメについて調べてみます。 まずは、ウグイス、スズメだけの作業用のデータフレームを作成します。 ウグイスは124、スズメは121の標本があります。 それでは、都道府県別の標本数を見てみます。table関…

国立科学博物館の標本データベースの日本の鳥類の標本の分析4 - メジロは東京、ヒヨドリは東北の標本が多く、2,3,4月はヒヨドリが多く、1973年はヒヨドリがとっても多かった。

www.crosshyou.info の続きです。 今回はメジロとヒヨドリでは、標本の年、月、都道府県に差があるか調べてみます。 まずは、メジロとヒヨドリだけの作業用のデータフレームを作ります。 Nameには、アオアシシギなど不要のファクタ水準があるので、削除しま…

国立科学博物館の標本データベースの日本の鳥類の標本の分析3 - Mokuのデータが怪しいことに気が付いた。

www.crosshyou.info の続きです。 今回は、Moku(目), Zoku(属), Shu(種)について調べます。 まず、Mokuは何種類あるか、標本数の多いMokuは何か調べてみましょう。 levels関数とlevels関数でMokuの種類数を調べます。 Mokuは214種類ですね。どのMokuが一番多…

国立科学博物館の標本データベースの日本の鳥類の標本の分析1 - メジロの標本、北海道の標本、1930年代の標本が一番多い。

国立科学博物館の標本データベースからCSVファイルをダウンロードできることを発見しましたので、データをダウンロードして遊んでみようと思います。 詳細検索(鳥類) | 標本・資料統合データベース から日本の標本を検索してみました。 こんなCSVファイルが…

内閣支持率のデータ分析2 - R言語のbarplot関数の練習。beside = TRUE/FALSE とlegend.text = TRUEが大事

www.crosshyou.info の続きです。 今回はbarplot関数の練習をしてみようと思います。 習うより慣れろの精神でいろいろやってみます。 まずはデータを確認します。 1列目は文字(ファクター)で、2、3、4列目が数値データですね。 まずは、barplot(df)とし…

内閣支持率のデータ分析1 - 各社で支持率は違うか、支持率の信頼区間をR言で調べる。

安倍晋三首相の在任日数が憲政史上最長になりました。 そこで今回は、各報道機関の世論調査、内閣支持率がどうなっているかを調べてみました。 こちらは、NHKの世論調査です。 http://www.nhk.or.jp/senkyo/shijiritsu/ 2019年11月8日から10日の調査で、1253…

乗用車ブランド通称名別順位のデータ分析4 - 日産とホンダの販売台数、順位に違いはあるか?

www.crosshyou.info の続きです。 tapply関数でメーカー別の販売台数を見てみましょう。 トヨタが204,628台でダントツですね。2位がホンダの63,507台、3位が日産の62,943台です。 メーカーごとの平均順位はどうでしょうか? トヨタが15.78で1位ですね。2位が…

乗用車ブランド通称名別順位のデータ分析3 - R言語でヒストグラムや箱ひげ図を作成する。1月と2月の販売台数をt.test関数、wilcox.test関数で検定。

www.crosshyou.info の続きです。 今回は販売台数をグラフにしてみましょう。 まずは、小さい順グラフ、ヒストグラム、箱ひげ図の3つのグラフを一度に作成する関数を作ります。 gpという名前の関数を作りました。 それでは販売台数をグラフにしてみます。 …

乗用車ブランド通称名別順位のデータ分析2 - R言語で自作関数を作成。標準偏差、標準誤差、変動係数、信頼区間などを算出。

www.crosshyou.info の続きです。 今回は標準偏差、標準誤差、変動係数などを計算する関数を作成してみます。 まずは、前回保存したCSVファイルを読み込んでsummary関数で様子を見てみます。 こうなりました。summary関数だと数値データは最小値、第1分位、…

乗用車ブランド通称名別順位のデータ分析1 - R言語のXMLパッケージのreadHTMLTable関数でWebから直接データを読み込む。

今回は、R言語のXMLパッケージのreadHTMLTable関数でWebの表形式のデータを直接読込んでみます。 参考図書は、Rクックブックです。 Rクックブック 作者: Paul Teetor,大橋真也,木下哲也 出版社/メーカー: オライリージャパン 発売日: 2011/12/22 メディア: …

都道府県別の凶悪犯認知件数の分析6 - R言語で県内総生産当りの凶悪犯認知件数を人口と可住地面積で回帰分析。

www.crosshyou.info の続きです。 今回は、県内総生産当りの凶悪犯認知件数を人口と可住地面積で回帰分析しようと思います。 まずは、県内総生産当りの凶悪犯認知件数を算出します。 avgGDPは百万円単位なので、百万をかけて1円当りの件数にしています。富山…