台風の発生数と上陸数のデータの分析４ - 平均気温、台風発生数、台風上陸数で並び替え、と思ったら元のデータがダメだった。

の続きです。

今回は、前回作成したデータフレームの各変数を大きい順、小さい順に並び替えましょう。

まずは、沖縄の平均気温の高い順に並び替えます。

を参考にします。

f:id:cross_hyou:20190925192117j:plain

2019年の8月が一番高いですね！　次が1998年ですが。。。と思いましたがなんかおかしいですね。。。2019年のM7が4つもあります。。。

なんかもとのデータがダメですね。。

せっかく、いままで苦労したのに。。。

R言語で読み込んだときにちゃんと確認すべきでした。

方針を転換して、BornとLand、つまり台風の発生数と上陸数だけを分析の対象としましょう。

2つしか変数ないですから、データフレームよりもベクトルのほうが扱いやすいですね。hassnew, journewというベクトルがありますからこれで分析しましょう。

まずは、hassnew, journewをそれぞれカウントデータとして分析します。

上陸数を反応変数、発生数を説明変数にしましょう。

まずは、散布図を描きます。

f:id:cross_hyou:20190925193421j:plain

jitter関数をつかうことによってそれぞれのプロット点を微妙にずらしています。

両方とも0が圧倒的に多いです。発生数が多いほど上陸数は多いですね。

glm関数でfamily = poissonとして回帰分析します。

f:id:cross_hyou:20190925193742j:plain

hassnewの係数は0.4648でp値は2e-16よりも小さいです。hassnewが大きいほどjournewも大きいということですね。

回帰モデルの線を重ねてみます。

f:id:cross_hyou:20190925194155j:plain

f:id:cross_hyou:20190925194209j:plain

predict関数でモデルから推測される反応変数の値を取得することができます。

今回は以上です。

気温のデータがおかしかったのがショックです。分析する前にちゃんとチェックしないとダメですね。反省。