今回は、前回に引き続き、生産者の米穀在庫等調査のデータの分析をします。前回の調査で、長崎県の農家は飯用で消費、つまり自分で消費してしまう量が多いことがわかりました。そこで今回は、飯用で消費する量と販売する量比率を各都道府県で計算したいと思います。
まずは、CSVファイルに保存してあるデータをread.csv関数でR言語に読込みます。summary関数で要約統計値を表示します。
早速、消費量 / 販売量 を計算したいと思います。
最小値は、0.79%です。最大値は23.69%です。平均値は7.18%、中央値は6.20%です。
ヒストグラムで分布を見てみましょう。hist関数です。
10%以下の都道府県が大半ですね。
小さい順に並び替えて棒グラフを作ってみましょう。sort関数とbarplot関数です。
barplot関数で棒グラフを作成した直後に、abline(h=10)と入力して、10の水準に水平線を引いています。
どこが飯比率が高いのか、並び替えてみましょう。order関数を使ってデータフレームを並び替えます。
東京の農家が一番、飯比率が高いですね。神奈川や大阪も飯比率は高いです。
長崎の飯比率は2番目ですね。
逆に低いところはどこでしょうか?
北海道が一番、飯比率は低く、山形、秋田、青森、新潟と米どころが並びますね。
販売量と飯比率は逆相関のような気がします。plot関数で散布図を描いてみます。
一番左上の点が北海道ですね。北海道を除いてやってみましょう。
こちらのほうが逆相関という感じでしょうか。。それぞれの相関係数を計算してみましょう。cor関数を使います。
北海道も含めたデータの相関係数は、-0.468です。北海道を除いたデータの相関係数は、-0.733です。やはり、北海道を除いたほうが相関係数の絶対値は大きくなりますね。これらの相関が有意かどうかcor.test関数で確認します。
北海道を含むデータのp-vaueは0.0007944 < 0.05 です。
北海道を含まないデータのp-valueは4.622e-09 < 0.05 です。
どちらも0.05より小さいp-valueなので逆相関であることは有意と言えます。