の続きです。前回作成した人口当りになおした図書館数や蔵書冊数、登録者数、貸出冊数の相関係数マトリックスをみてみます。
R言語のcorr関数です。
per_library:人口10万人当りの図書館数とper_book:一人当たりの蔵書冊数の相関係数は0.726となかなかの相関です。
per_libraryとper_people:一人当たりの登録者数、つまり登録者数比率は0.288です。
per_libraryとper_rental:一人当たりの図書館外貸出冊数の相関係数は0.109です。
per_bookとper_peopleは0.259
per_bookとper_rentalは0.496
per_peopleとper_rentalは0.346です。
pairs関数で散布図マトリックスをみてみます。
per_people:登録者の割合、これに注目して回帰分析してみましょう。
図書館登録者を増やすには、図書館の数を増やしたらいいのか、蔵書の数を増やしたらいいのか?
lm関数で回帰分析してみます。
はじめは複雑な2乗項と交互作用項を含んだ複雑なモデルを作りました。
p-valueが0.08と0.05よりも大きいので有意なモデルではないですね。。
per_library:per_bookの2乗項を削除してみます。
update関数で交互作用の項を削除して、anova関数でlm_model1とlm_model2を比較しました。p値は0.08214と0.05よりも大きいので2つのモデルに有意な違いはありません。なので、より単純なlm_model2を採用します。summary関数でみてみましょう。
う~ん、p値は0.1496とさらにおおきくなりましたね。。
step関数で一気にいらない項を削除します。
結局残ったのは、I(per_library^2)だけですね。summary関数でみてみます。
p-valueは0.03785と0.05よりも小さいので有意なモデルです。
per_people = 0.214922 + 0.003767 * per_library^2
というモデル式です。人口10万人当りの図書館数が増えるほど、図書館登録者数も増えるという、常識に反しない結果ですね。
でも,Adjusted R-squaredが0.07217と調整済み決定係数がほとんど0に近いですからあまり効果は無いのかもしれませんね。
今回は以上です。
はじめから読むには、
です。