の続きです。前回はデータファイルを整えるので終わってしまいました。
R言語のstr関数でデータフレームの構造を確認します。
ExPxとInPxがなぜか数値ではなく、ファクターとして取り込まれています。
数値データに変換してみましょう。
まず、ファクタ型から文字列型に変換します。as.character関数ですね。
次に、as.numeric関数で数値型に変換します。
警告メッセージ: 強制変換により NA が生成されました と表示されました。
これは、数値として認識されなかった観測がNAに強制的に変換されたということですね。head関数でどんな感じになってるかみてみます。
summary関数で基本統計量ををみてみます。
NAの無い変数はないですね。na.omit関数でNAある行を削除します。
summary関数でみてみます。
head関数もみてみましょう。
行の名前にPortのデータを入れて、Portの列を削除します。
できました。6つの変数が揃っている港ってこれだけなんですね。
まずは、それぞれの変数をorder関数で並び替えて表示します。
小樽が輸出数量が一番少なく、那覇が一番多いです。ExPxはどうでしょうか?
小樽のコンテナの価格が一番安く、舞鶴が一番高いです。重さ当りの価格はどうでしょうか?
那覇が一番安く、小樽が一番高いです。
輸入量はどうでしょうか?
三池が一番少なく、堺泉北が一番多いです。コンテナ当りの価格はどうでしょうか?
小樽が安く、浜田が高いです。
重さ当りの価格はどうでしょうか?
堺泉北が一番安く、石狩湾新が一番高いです。
今度はそれぞれの変数のヒストグラムを描いてみましょう。
attach関数でdf_Analysisをアタッチしたので、hist(df_Analysis$ExAmt)とせずに、hist(ExAmt)でヒストグラムが描けます。
次は、ExPXです。
次は、ExPxTです。
あ、これは二極化していますね。
次は、InAmtです。
InPXはどうでしょうか?
InPxTはどうでしょうか?
ExPxTが二極化しているほかは山型の分布ですね。
pairs関数で散布図を描きます。
cor関数で相関マトリックスを表示します。
今回は以上です。最後にdetach関数で、df_Analysisをデタッチしておきます。
今回は以上です。
次回は
です。