crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

国税局別の民間給与実態調査のデータの分析6 - R言語で1~4人の事業所の人数と5,000人以上の事業所の人数を計算する。

www.crosshyou.info の続きです。 今回は、事業所の規模が1~4人の人数と5,000人以上の人数に注目してみます。 まず、spread関数で、1~4人の人数の列と5,000人以上の人数の列を持つデータフレームを作ります。 変数名を変更します。rename関数を使います。 …

国税局別の民間給与実態調査のデータの分析5 - R言語で2x2のクロス表を分析する。chisq.test関数、fisher.test関数、assocstats関数、oddsratio関数。

www.crosshyou.info の続きです。 今回はR言語で2x2のクロス表を分析してみようと思います。 カテゴリカルデータ解析 (Rで学ぶデータサイエンス 1) 作者:藤井 良宜 発売日: 2010/04/22 メディア: 単行本 こちらの本を参考にしました。 まず、table関数で2x2…

国税局別の民間給与実態調査のデータの分析4 - R言語で2015年と2016年の伸び率を計算する。

www.crosshyou.info の続きです。 今回は、2016年の人数が2015年と比較して、どれだけ伸びたかを計算したいと思います。 まず。df_longのデータフレーム、 これを、 こういうデータフレームに変換します。 spread関数を使います。 変数名が2015年、2016年と…

国税局別の民間給与実態調査のデータの分析3 - R言語のgeom_bar関数で棒グラフを描く。function関数、lapply関数、grid.arrange関数で効率よく。

www.crosshyou.info の続きです。 今回はR言語のgeom_bar関数で棒グラフを描いてみます。 例えば、2015年、yearend, 1~4人、全国除くだと、 となります。tokyo, osaka, kantoshinetsu, nagoya, fukuokaという順番です。 facet_grid関数を使って、yearとitem…

国税局別の民間給与実態調査のデータの分析2 - R言語でデータフレームの形態を変更(横長型から縦長型に) - gather関数とspread関数

www.crosshyou.info の続きです。 前回作成したデータフレーム, dfのはじめの数行をhead関数でみてみましょう。 このように人数という値が何列にも配置されています。 横長型といえばいいのかな。。。 これを縦長型に変更してみたいと思います。 図で説明す…

国税局別の民間給与実態調査のデータの分析1 - R言語でデータを読み込む。

今回は国税局別の民間給与実態調査のデータを分析してみます。 いつものように、政府統計の総合窓口(www.e-stat.go.jp)からデータを取りました。 データベースのほうをクリックしました。 年次をクリックします。 2016年をクリックします。 たくさん種類があ…

都道府県別別の「医療費の動向」調査のデータ分析6 - R言語のglm関数でロジスティクス回帰分析をする。

www.crosshyou.info の続きです。 今回はR言語のglm関数でロジスティクス回帰分析をします。 response variableはeastweat: 東日本と西日本にしてみます。 explanatory variablesはyear: 年度、medical_total: 医科_計、dental: 歯科、pharma: 調剤、visit: …

都道府県別の「医療費の動向」調査のデータ分析5 - R言語のarrange関数で並び替えをする。

www.crosshyou.info 今回はR言語のarrange関数で各変数を大きい順、小さい順に並び替えてみます。 まずは、total: 総計からです。 医療費の総計が前年比で一番下がったのは2016年度の香川県で、-2.2%でした。 一番伸びたのはどこでしょうか? 2015年度の千葉…

都道府県別の「医療費の動向」調査のデータ分析4 - R言語のlm関数で回帰分析をする。

www.crosshyou.info の続きです。 今回はR言語のlm関数で回帰分析をしてみます。 2017年の医療費の伸びを2016年と2015年の伸びで回帰分析します。 まず、df_totalの列名が2015年度、2016年度、2017年度と数字がはじめの文字になっているのをrename関数で変更…

都道府県別の「医療費の動向」調査のデータ分析3 - R言語のGGallyパッケージのggpairs関数で散布図マトリックスを作成。

www.crosshyou.info の続きです。 2015年度、2016年度、2017年度でtotal: 総計の分布が違っていることがわかりました。 それぞれ年度の平均値や標準偏差、変動係数を計算してみます。 group_by関数を使い、年度でグループ分けをしてからmean関数やsd関数を使…

都道府県別の「医療費の動向」調査のデータ分析2 - R言語のgeom_histogram関数とfacet_grid関数でヒストグラムを描く。

www.crosshyou.info の続きです。 今回は読み込んだデータがどんなものか、おおまかに確認しましょう。 summary関数を使ってみます。 yearを見ると、このデータは、2015年度、2016年度、2017年度の3年間分のデータがあることがわかります。 各変数の平均値を…

都道府県別の「医療費の動向」調査のデータ分析1 - R言語にデータを読み込む。

今回から都道府県別の「医療費動向」調査のデータを分析しようと思います。 政府統計の総合窓口(www.e-stat.go.jp)のサイトに新着データとして掲載されていました。 データベースのほうをクリックしました。 月次のほうをクリックしました。 都道府県別の医…

都道府県別の空き家・持ち家・借家数のデータ分析8 - R言語で年ごとの箱ひげ図の推移を作成。geom_boxplot関数

www.crosshyou.info の続きです。 今回は、geom_boxplot関数を使って、年ごとのデータの推移を箱ひげ図で表現してみました。 まずは、空き家率からです。 x = as.factor(year)としてyearをファクター型に変換しています。 空き家率は年ごとに上昇しているの…

都道府県別の空き家・持ち家・借家数のデータ分析7 - R言語でロジスティクス回帰分析。glm関数

www.crosshyou.info の続きです。 今回は、R言語のglm関数でロジスティクス回帰分析をしてみます。 前回作成した 、九州沖縄地方か、そうでないかという変数、kyushu_okinawaをresponse variableにして、空き家率、持ち家率、借家率をexplanatory variableに…

都道府県別の空き家・持ち家・借家数のデータ分析6 - R言語でClustering。dist関数、hclust関数、plot関数

www.crosshyou.info の続きです。 今回はClusteringをしてみます。 まずは、Clusteringのためのマトリックスを作成します。 このマトリックス、matの行名を都道府県にします。 dist関数、hclust関数、plot関数でClusteringします。 山形県と秋田県、宮崎県と…

都道府県別の空き家・持ち家・借家数のデータ分析5 - R言語のlm関数で借家率を回帰分析する。

www.crosshyou.info の続きです。 今回は、1978年の空き家率で2018年の借家率を回帰分析してみます。 R言語のlm関数を使います。 p-valueが2.664e-13と0.05よりも低いので、有意なモデルです。Intercept、rent_ratio_1978の係数のp値も0.05よりも低いです。 …

都道府県別の空き家・持ち家・借家数のデータ分析4 - R言語で散布図を描く。geom_point関数、theme関数、facet_grid関数

www.crosshyou.info の続きです。 前回の分析で1978年と2018年の空き家率・持ち家率・借家率のベクトルを作成しました。そして、1978年と2018年では有意に平均値が違うことがわかりました。 なので、今回はこれらのベクトルをまとめて新たなデータフレームを…

都道府県別の空き家・持ち家・借家数のデータ分析3 - R言語で40年間の空き家率・持ち家率・借家率の変化を検定する。

www.crosshyou.info の続きです。 今回は経年変化を見てみます。 まず、データの一番新しい年と一番古い年は何年か確認します。 一番古い調査年は1978年、一番新しい調査年は2018年、40年間でどのように変化してるのでしょうか? 空き家率がどう変化したか、…

都道府県別の空き家・持ち家・借家数のデータ分析2 - R言語で空き家率・持ち家率・借家率を算出する。

www.crosshyou.info の続きです。 今回は、空き家率・持ち家率・借家率を計算しましょう。 mutate関数を使って新しい変数を作ります。 それぞれの値のサマリーを見てみましょう。 空き家率は最小値は0.04197, 最大値は0.22009, 平均値は0.11302, 中央値は0.1…

都道府県別の空き家・持ち家・借家数のデータ分析1 - R言語でデータを読み込む。

今回は、都道府県別の空き家数、持ち家数、借家数のデータを分析してみようと思います。 政府統計の総合窓口(www.e-stat.go.jp)からデータを取得できます。 ダウンロードしたCSVファイルはこのようなものでした。 9行目に変数名を追加しています。 R言語のre…

都道府県別のスポーツテストのデータ分析7 - 東日本と西日本、日本海側と太平洋側での違いはあるか?

www.crosshyou.info の続きです。 今回は東日本と西日本、日本海側と太平洋側での違いはあるのかどうかを調べてみます。 こういうふうに都道府県を分類したファイルを用意しました。新潟県までは東日本にしました。 また、海の無い件や北海道や兵庫県、福岡…

都道府県別のスポーツテストのデータ分析6 - R言語で回帰分析。lm関数を使う。立ち幅跳びの優秀な都道府県はハンドボール投げも優秀。

www.crosshyou.info の続きです。 今回はR言語のlm関数を使って回帰分析をしてみます。 男子のハンドボール投げのデータを50m走と立ち幅跳びのデータで回帰分析をしてみましょう。 head関数でdatがどういうデータフレームだったか思い出します。 m_ballをm_5…

都道府県別のスポーツテストのデータ分析5 - R言語でクラスタリング。dist関数とhclust関数とplot関数

www.crosshyou.info の続きです。 今回は、R言語でクラスタリングをしてみようと思います。 data_scaledをas.matrix関数で単純なマトリックスにします。 列名を都道府県名 + total_scoreにします。paste関数で文字列を結合します。 str関数で構造を確認しま…

都道府県別の中二生徒のスポーツテストのデータ分析4 - R言語で散布図マトリックスを作成。psych::pairs.panles関数とGGally::ggpairs関数

www.crosshyou.info の続きです。 今回はR言語で散布図マトリックスを作成してみます。 まず、標準化したデータだけのデータフレームを用意します。 str関数でデータフレームの構造を確認します。 こんな感じです。標準化しているので、center とかscaleとい…

都道府県別の中二生徒のスポーツテストのデータ分析3 - 福井県が一番スポーツテストの成績が良い。

www.crosshyou.info の続きです。 今回は都道府県別の平均値を計算して、都道府県別のランキングを作成してみます。 まずは、group_by関数、summarise関数、mean関数を使います。 data_prefという名前で保存しました。 arrange関数でそれぞれの項目で並び替…

都道府県別の中二生徒のスポーツテストのデータ分析2 - R言語で平均値(mean関数)と標準偏差(sd関数)と変動係数を見る。

www.crosshyou.info の続きです。 前回はCSVファイルを読み込んだところで終わりました。今回はデータの中身をいろいろ見てみましょう。 summary関数でデータのサマリを見てみます。 NAの行が5つあります。 何でしょうか? 2007年度の北海道、群馬県、愛媛…

都道府県別の中二生徒のスポーツテストのデータ分析1 - R言語でデータを読み込む。

今回は都道府県別の中二生徒のスポーツテストのデータを分析してみます。 政府統計の総合窓口、e-Stat(www.e-stat.go.jp)からデータを取得しました。 50m走、ハンドボール投げ、立ち幅跳びの3種目です。 データのCSVファイルはこのようなものです。9行目に私…

農林水産物合計と上位20品目のデータ分析7 - R言語で回帰分析をする。layer()を使ってグラフを重ねてみる。

www.crosshyou.info の続きです。 今回は、R言語のlm関数で回帰分析をしてみます。 lm関数で、金額_対前年増減率 = a + b * 数量_対前年増減率 というモデル式で回帰分析をしてみました。p-value: 0.4226と0.05よりも大きな値なので、統計的に有意なモデルで…

農林水産物合計と上位20品目のデータ分析6 - R言語で散布図を作成する。

www.crosshyou.info の続きです。 今回はR言語のggplot2パッケージのgeom_point関数を使って金額_対前年増減率と数量_対前年増減率の散布図を描いてみます。 まず、金額_対前年増減率のデータフレームを作りました。 同じように数量_対前年増減率のデータを…

農林水産物の輸出上位20品目のデータ分析5 - R言語で棒グラフを描く(geom_col関数)

www.crosshyou.info の続きです。 今回はR言語のggplot2パッケージのgeom_col関数で棒グラフを描いてみます。 filter(type == "金額")で金額だけにデータフレームを絞り込みます。 mutate(hinmoku = reorder(hinmoku, valu)) でhinmokuをvalueの値で並び変え…