crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

国立科学博物館の標本データベースの日本の鳥類の標本の分析5 - ウグイスとスズメを比べると、スズメは北海道が多い。1~3月はスズメが多く、10~12月はウグイスが多い。

www.crosshyou.info の続きです。 今回はウグイスとスズメについて調べてみます。 まずは、ウグイス、スズメだけの作業用のデータフレームを作成します。 ウグイスは124、スズメは121の標本があります。 それでは、都道府県別の標本数を見てみます。table関…

国立科学博物館の標本データベースの日本の鳥類の標本の分析4 - メジロは東京、ヒヨドリは東北の標本が多く、2,3,4月はヒヨドリが多く、1973年はヒヨドリがとっても多かった。

www.crosshyou.info の続きです。 今回はメジロとヒヨドリでは、標本の年、月、都道府県に差があるか調べてみます。 まずは、メジロとヒヨドリだけの作業用のデータフレームを作ります。 Nameには、アオアシシギなど不要のファクタ水準があるので、削除しま…

国立科学博物館の標本データベースの日本の鳥類の標本の分析3 - Mokuのデータが怪しいことに気が付いた。

www.crosshyou.info の続きです。 今回は、Moku(目), Zoku(属), Shu(種)について調べます。 まず、Mokuは何種類あるか、標本数の多いMokuは何か調べてみましょう。 levels関数とlevels関数でMokuの種類数を調べます。 Mokuは214種類ですね。どのMokuが一番多…

国立科学博物館の標本データベースの日本の鳥類の標本の分析2 - 月と日付のデータを整える。8月に採取された標本が一番少ない。

www.crosshyou.info の続きです。今日は月と日付のデータを整えます。 Monthを確認します。 空白、**, 20は明らかにおかしいですね。NAにします。空白は1番目、**は2番目、20は8番目です。 こうして1から12までにしました。これを文字列型にしてから数値…

国立科学博物館の標本データベースの日本の鳥類の標本の分析1 - メジロの標本、北海道の標本、1930年代の標本が一番多い。

国立科学博物館の標本データベースからCSVファイルをダウンロードできることを発見しましたので、データをダウンロードして遊んでみようと思います。 詳細検索(鳥類) | 標本・資料統合データベース から日本の標本を検索してみました。 こんなCSVファイルが…

内閣支持率のデータ分析2 - R言語のbarplot関数の練習。beside = TRUE/FALSE とlegend.text = TRUEが大事

www.crosshyou.info の続きです。 今回はbarplot関数の練習をしてみようと思います。 習うより慣れろの精神でいろいろやってみます。 まずはデータを確認します。 1列目は文字(ファクター)で、2、3、4列目が数値データですね。 まずは、barplot(df)とし…

内閣支持率のデータ分析1 - 各社で支持率は違うか、支持率の信頼区間をR言で調べる。

安倍晋三首相の在任日数が憲政史上最長になりました。 そこで今回は、各報道機関の世論調査、内閣支持率がどうなっているかを調べてみました。 こちらは、NHKの世論調査です。 http://www.nhk.or.jp/senkyo/shijiritsu/ 2019年11月8日から10日の調査で、1253…

乗用車ブランド通称名別順位のデータ分析4 - 日産とホンダの販売台数、順位に違いはあるか?

www.crosshyou.info の続きです。 tapply関数でメーカー別の販売台数を見てみましょう。 トヨタが204,628台でダントツですね。2位がホンダの63,507台、3位が日産の62,943台です。 メーカーごとの平均順位はどうでしょうか? トヨタが15.78で1位ですね。2位が…

乗用車ブランド通称名別順位のデータ分析3 - R言語でヒストグラムや箱ひげ図を作成する。1月と2月の販売台数をt.test関数、wilcox.test関数で検定。

www.crosshyou.info の続きです。 今回は販売台数をグラフにしてみましょう。 まずは、小さい順グラフ、ヒストグラム、箱ひげ図の3つのグラフを一度に作成する関数を作ります。 gpという名前の関数を作りました。 それでは販売台数をグラフにしてみます。 …

乗用車ブランド通称名別順位のデータ分析2 - R言語で自作関数を作成。標準偏差、標準誤差、変動係数、信頼区間などを算出。

www.crosshyou.info の続きです。 今回は標準偏差、標準誤差、変動係数などを計算する関数を作成してみます。 まずは、前回保存したCSVファイルを読み込んでsummary関数で様子を見てみます。 こうなりました。summary関数だと数値データは最小値、第1分位、…

乗用車ブランド通称名別順位のデータ分析1 - R言語のXMLパッケージのreadHTMLTable関数でWebから直接データを読み込む。

今回は、R言語のXMLパッケージのreadHTMLTable関数でWebの表形式のデータを直接読込んでみます。 参考図書は、Rクックブックです。 Rクックブック 作者: Paul Teetor,大橋真也,木下哲也 出版社/メーカー: オライリージャパン 発売日: 2011/12/22 メディア: …

都道府県別の凶悪犯認知件数の分析6 - R言語で県内総生産当りの凶悪犯認知件数を人口と可住地面積で回帰分析。

www.crosshyou.info の続きです。 今回は、県内総生産当りの凶悪犯認知件数を人口と可住地面積で回帰分析しようと思います。 まずは、県内総生産当りの凶悪犯認知件数を算出します。 avgGDPは百万円単位なので、百万をかけて1円当りの件数にしています。富山…

都道府県別の凶悪犯認知件数の分析5 - R言語で可住地面積当りの凶悪犯認知件数を人口と県内総生産で回帰分析。人口・県内総生産額の大きな県ほど件数は多い

www.crosshyou.info の続きです。 前回作成した、可住地面積10万ha当りの凶悪犯認知件数を人口と県内総生産で回帰分析してみます。 まずはplot関数で散布図を描いてみます。 右側の対数変換した後の散布図のほうが分析するにはよさそうですね。 県内総生産と…

都道府県別の凶悪犯認知件数の分析4 - R言語で可住地面積当りの凶悪犯認知件数を計算。度数分布表を出力する関数を作成。

www.crosshyou.info の続きです。 今回は可住地面積当りの凶悪犯認知件数を計算してみます。 10万ha当りの件数を算出しました。秋田県は8.4件、大阪府は780.5件です。100倍近い差がありますね。 グラフで分布をみてみます。 大きな値に外れ値がいっぱいある…

プロ野球の勝敗データの分析6 - R言語でクロス表(2 x 2)のファイ係数を計算する関数を作成する。整数の桁あふれは as.numeric関数で対応。

www.crosshyou.info の続きです。 今回は、ファイ係数を計算する関数を作ってみます。 実は、 www.crosshyou.info のときにも関数を作ってみたのですが、何故かエラーになったんです。 そのとき作った関数が これです。 そして、この関数を実行したら、 と「…

都道府県別の凶悪犯認知件数の分析3 - R言語で回帰分析。今回は対数値で回帰分析。可住地面積が広いほうが件数は少ない。

www.crosshyou.info の続きです。 今回は対数値のavgArea, avgGDPで回帰分析してみます。 log(avgArea):log(avgGDP)の項目はいらないですね。削除します。 model2を採用します。 I(log(avgGDP)^2)はいらないですね。 model3を採用します。 I(log(avgArea)^2)…

都道府県別の凶悪犯認知件数の分析2 - R言語で人口10万人当りの凶悪犯認知件数を計算して回帰分析。経済活動が活発なほど件数は多い。

www.crosshyou.info の続きです。 今回は、人口10万人当りの凶悪犯認知件数を算出して、これを可住地面積と県内総生産額で回帰分析してみます。 大阪府は人口10万人当りの件数でも一番多いですね。 一番少ないのは山形県です。 グラフにしてみます。 大阪府…

都道府県別の凶悪犯認知件数の分析1 - R言語で基本統計値を調べる。大阪府では1年で1000件以上も発生している。

今回は都道府県別の凶悪犯認知件数を分析します。 e-stat, 政府統計の総合窓口からデータを取得しました。 説明変数として、総人口、可住地面積、県内総生産額も一緒に取得しました。 このようなExcelファイルを作成しました。これをread.csv関数でR言語に読…

プロ野球の勝敗データの分析5 - 引き分けが多いのは粘り強さの証なのか?勝ちきれない詰めの甘さなのか? >>> どちらでもない。

www.crosshyou.info の続きです。 今回は勝利数を引き分け数で回帰分析してみます。 引き分け数が多いチームほど勝利数が多ければ、引き分けが多いのは粘り強さの証になりますし、逆に引き分けが多いチームほど勝利数が少なければ、引き分けが多いのは勝ちき…

プロ野球の勝敗データの分析4 - 2 x 2のクロス表のファイ係数を計算する。

www.crosshyou.info の続きです。 今回は 2 x 2 のクロス表で関連性の強さを見る指標、ファイ係数を計算しようと思います。 bellcurve.jpこのサイトに このように計算式が載っていました。これを使って計算します。 まずは、Aクラス・Bクラス x セリーグ・パ…

プロ野球の勝敗データの分析3 - R言語のtapply関数でクロス表を作成して、chisq.test関数でカイ二乗検定。

www.crosshyou.info の続きです。 今回はクロス表を作って、カイ二乗検定をしてみます。 勝利数を Aクラス・Bクラス x セリーグ・パリーグ、 Aクラス・Bクラス x 関東・非関東 セリーグ・パリーグ x 関東・非関東 この3つのクロス表で分類してカイ二乗検定…

プロ野球の勝敗データの分析2 - R言語で勝利数の平均値の違いを調べる。AクラスとBクラスでは有意な違いがある。

www.crosshyou.info の続きです。 前回は、セリーグ、パリーグで勝利数の平均値に有意な違いは無いことがわかりました。今回は、関東の球団かそうじゃないか、AクラスかBクラスかで勝利数に違いがあるかを調べます。 var.test関数でvarianceが同じかどうか確…

プロ野球の勝敗データの分析1 - R言語のvar.test関数とt.test関数で二つの変数の分散・平均値が同じかどうかを調べる。

今回はプロ野球の勝敗データを分析してみようと思います。 npb.jpこのサイトにあった の画像にある勝敗データを使おうと思います。 まず、Excelにデータを転記しました。 関東にある球団か、そうでないかという変数、Kantouと各リーグ上位をAクラス、下位をB…

都道府県別の老人福祉費と児童福祉費の分析10 - R言語で、老人福祉費 / 児童福祉費 の回帰分析その2 やっぱり面積だけが関係あり。

www.crosshyou.info 今回は前回の続きで、こんどは人口、面積、県内総生産の対数値、logPop, logArea, logGDPで回帰分析をしてみたいと思います。前回は北海道の面積が他と比べて圧倒的に大きかったので、その影響が大きく出ていました。今回はどうでしょう…

都道府県別の老人福祉費と児童福祉費の分析9 - R言語で、老人福祉費 / 児童福祉費 という比率を計算。沖縄県以外はどこも老人福祉費のほうが多い。

www.crosshyou.info の続きです。 今回は、老人福祉費 / 児童福祉費 という比率を計算してみます。 まず、老人福祉費と児童福祉が同じ都道府県の順番で並んでいるか確認します。 == で同じかどうかをテストしました。すべてTRUEなので同じですね。sumでTRUE…

都道府県別の老人福祉費と児童福祉費の分析8 - R言語で一人当り児童福祉費を重回帰分析。東京都を含めるか除外するかでモデルが違ってくる。

www.crosshyou.info の続きです。 今回は一人当りの児童福祉費(ChildpM)を重回帰分析します。 説明変数は対数をとった面積(logArea)と対数をとった県内総生産(logGDP)です。 まずは、一番複雑なモデルから。 logArea:logGDPの交差項は不要のようです。削除し…

都道府県別の老人福祉費と児童福祉費の分析7 - R言語で重回帰分析。一人当りの老人福祉費は面積が大きい県ほど多い。GDPの大きい県ほど少ない。

www.crosshyou.info の続きです。 今回は一人当りの老人福祉費を面積(対数をとったもの)と県内総生産(対数をとったもの)の二つの変数で回帰分析してみたいと思います。 まずは、それぞれの変数との散布図を描いてみます。 面積は関係なさそうですが、GDPは関…

日銀の短観データの分析6 - R言語で棒グラフと1標準誤差、信頼区間を表示する。

www.crosshyou.info の続きです。 今回は棒グラフと信頼区間を表示してみたいと思います。 Statistics: An Introduction Using R 作者: Michael J. Crawley 出版社/メーカー: Wiley 発売日: 2019/12/09 メディア: ペーパーバック この商品を含むブログを見る…

日銀の短観データの分析5 - R言語でANOVA。繊維や紙・パルプは景気が悪く、対事業所サービスや通信は景気がいい。

www.crosshyou.info の続きです。 今回の説明変数はIndus, 業種です。summary関数でどういう業種があるか見てみます。 33種類の業種があります。今回は前回までとは違ったアプローチでANOVAをやってみたいと思います。 いつものように参考図書は、 Statistic…

日銀の短観データの分析4- R言語でANOVA。中小企業は景況感は悪い。

www.crosshyou.info の続きです。 今回は、大企業、中堅企業、中小企業という企業規模の違い、Scaleをexplanatory variableにしてANOVAをしてみます。企業規模の違いで短観の数値に違いはあるでしょうか? まずは、グラフで様子を確認しましょう。 黒い点が…