Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

生産者の米穀在庫等調査の分析2 - 飯用で消費する比率の高い都道府県は?

今回は、前回に引き続き、生産者の米穀在庫等調査のデータの分析をします。前回の調査で、長崎県の農家は飯用で消費、つまり自分で消費してしまう量が多いことがわかりました。そこで今回は、飯用で消費する量と販売する量比率を各都道府県で計算したいと思います。

まずは、CSVファイルに保存してあるデータをread.csv関数でR言語に読込みます。summary関数で要約統計値を表示します。

f:id:cross_hyou:20181002123019j:plain

早速、消費量 / 販売量 を計算したいと思います。

f:id:cross_hyou:20181002123401j:plain

最小値は、0.79%です。最大値は23.69%です。平均値は7.18%、中央値は6.20%です。

ヒストグラムで分布を見てみましょう。hist関数です。

f:id:cross_hyou:20181002123658j:plain

f:id:cross_hyou:20181002123714j:plain

10%以下の都道府県が大半ですね。

小さい順に並び替えて棒グラフを作ってみましょう。sort関数とbarplot関数です。

f:id:cross_hyou:20181002124219j:plain

f:id:cross_hyou:20181002124242j:plain

barplot関数で棒グラフを作成した直後に、abline(h=10)と入力して、10の水準に水平線を引いています。

どこが飯比率が高いのか、並び替えてみましょう。order関数を使ってデータフレームを並び替えます。

f:id:cross_hyou:20181002124726j:plain

東京の農家が一番、飯比率が高いですね。神奈川や大阪も飯比率は高いです。

長崎の飯比率は2番目ですね。

逆に低いところはどこでしょうか?

f:id:cross_hyou:20181002125139j:plain

北海道が一番、飯比率は低く、山形、秋田、青森、新潟と米どころが並びますね。

販売量と飯比率は逆相関のような気がします。plot関数で散布図を描いてみます。

f:id:cross_hyou:20181002125458j:plain

f:id:cross_hyou:20181002125507j:plain

一番左上の点が北海道ですね。北海道を除いてやってみましょう。

f:id:cross_hyou:20181002125828j:plain

f:id:cross_hyou:20181002125838j:plain

こちらのほうが逆相関という感じでしょうか。。それぞれの相関係数を計算してみましょう。cor関数を使います。

f:id:cross_hyou:20181002130151j:plain

北海道も含めたデータの相関係数は、-0.468です。北海道を除いたデータの相関係数は、-0.733です。やはり、北海道を除いたほうが相関係数の絶対値は大きくなりますね。これらの相関が有意かどうかcor.test関数で確認します。

f:id:cross_hyou:20181002130607j:plain

北海道を含むデータのp-vaueは0.0007944 < 0.05 です。

北海道を含まないデータのp-valueは4.622e-09 < 0.05 です。

どちらも0.05より小さいp-valueなので逆相関であることは有意と言えます。