crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

データ分析

国税局別の民間給与実態調査のデータの分析6 - R言語で1~4人の事業所の人数と5,000人以上の事業所の人数を計算する。

www.crosshyou.info の続きです。 今回は、事業所の規模が1~4人の人数と5,000人以上の人数に注目してみます。 まず、spread関数で、1~4人の人数の列と5,000人以上の人数の列を持つデータフレームを作ります。 変数名を変更します。rename関数を使います。 …

国税局別の民間給与実態調査のデータの分析5 - R言語で2x2のクロス表を分析する。chisq.test関数、fisher.test関数、assocstats関数、oddsratio関数。

www.crosshyou.info の続きです。 今回はR言語で2x2のクロス表を分析してみようと思います。 カテゴリカルデータ解析 (Rで学ぶデータサイエンス 1) 作者:藤井 良宜 発売日: 2010/04/22 メディア: 単行本 こちらの本を参考にしました。 まず、table関数で2x2…

国税局別の民間給与実態調査のデータの分析4 - R言語で2015年と2016年の伸び率を計算する。

www.crosshyou.info の続きです。 今回は、2016年の人数が2015年と比較して、どれだけ伸びたかを計算したいと思います。 まず。df_longのデータフレーム、 これを、 こういうデータフレームに変換します。 spread関数を使います。 変数名が2015年、2016年と…

国税局別の民間給与実態調査のデータの分析3 - R言語のgeom_bar関数で棒グラフを描く。function関数、lapply関数、grid.arrange関数で効率よく。

www.crosshyou.info の続きです。 今回はR言語のgeom_bar関数で棒グラフを描いてみます。 例えば、2015年、yearend, 1~4人、全国除くだと、 となります。tokyo, osaka, kantoshinetsu, nagoya, fukuokaという順番です。 facet_grid関数を使って、yearとitem…

国税局別の民間給与実態調査のデータの分析2 - R言語でデータフレームの形態を変更(横長型から縦長型に) - gather関数とspread関数

www.crosshyou.info の続きです。 前回作成したデータフレーム, dfのはじめの数行をhead関数でみてみましょう。 このように人数という値が何列にも配置されています。 横長型といえばいいのかな。。。 これを縦長型に変更してみたいと思います。 図で説明す…

国税局別の民間給与実態調査のデータの分析1 - R言語でデータを読み込む。

今回は国税局別の民間給与実態調査のデータを分析してみます。 いつものように、政府統計の総合窓口(www.e-stat.go.jp)からデータを取りました。 データベースのほうをクリックしました。 年次をクリックします。 2016年をクリックします。 たくさん種類があ…

都道府県別の「医療費の動向」調査のデータ分析5 - R言語のarrange関数で並び替えをする。

www.crosshyou.info 今回はR言語のarrange関数で各変数を大きい順、小さい順に並び替えてみます。 まずは、total: 総計からです。 医療費の総計が前年比で一番下がったのは2016年度の香川県で、-2.2%でした。 一番伸びたのはどこでしょうか? 2015年度の千葉…

都道府県別の「医療費の動向」調査のデータ分析2 - R言語のgeom_histogram関数とfacet_grid関数でヒストグラムを描く。

www.crosshyou.info の続きです。 今回は読み込んだデータがどんなものか、おおまかに確認しましょう。 summary関数を使ってみます。 yearを見ると、このデータは、2015年度、2016年度、2017年度の3年間分のデータがあることがわかります。 各変数の平均値を…

都道府県別の「医療費の動向」調査のデータ分析1 - R言語にデータを読み込む。

今回から都道府県別の「医療費動向」調査のデータを分析しようと思います。 政府統計の総合窓口(www.e-stat.go.jp)のサイトに新着データとして掲載されていました。 データベースのほうをクリックしました。 月次のほうをクリックしました。 都道府県別の医…

都道府県別の空き家・持ち家・借家数のデータ分析8 - R言語で年ごとの箱ひげ図の推移を作成。geom_boxplot関数

www.crosshyou.info の続きです。 今回は、geom_boxplot関数を使って、年ごとのデータの推移を箱ひげ図で表現してみました。 まずは、空き家率からです。 x = as.factor(year)としてyearをファクター型に変換しています。 空き家率は年ごとに上昇しているの…

都道府県別の空き家・持ち家・借家数のデータ分析7 - R言語でロジスティクス回帰分析。glm関数

www.crosshyou.info の続きです。 今回は、R言語のglm関数でロジスティクス回帰分析をしてみます。 前回作成した 、九州沖縄地方か、そうでないかという変数、kyushu_okinawaをresponse variableにして、空き家率、持ち家率、借家率をexplanatory variableに…

都道府県別の空き家・持ち家・借家数のデータ分析6 - R言語でClustering。dist関数、hclust関数、plot関数

www.crosshyou.info の続きです。 今回はClusteringをしてみます。 まずは、Clusteringのためのマトリックスを作成します。 このマトリックス、matの行名を都道府県にします。 dist関数、hclust関数、plot関数でClusteringします。 山形県と秋田県、宮崎県と…

都道府県別の空き家・持ち家・借家数のデータ分析5 - R言語のlm関数で借家率を回帰分析する。

www.crosshyou.info の続きです。 今回は、1978年の空き家率で2018年の借家率を回帰分析してみます。 R言語のlm関数を使います。 p-valueが2.664e-13と0.05よりも低いので、有意なモデルです。Intercept、rent_ratio_1978の係数のp値も0.05よりも低いです。 …

都道府県別の空き家・持ち家・借家数のデータ分析4 - R言語で散布図を描く。geom_point関数、theme関数、facet_grid関数

www.crosshyou.info の続きです。 前回の分析で1978年と2018年の空き家率・持ち家率・借家率のベクトルを作成しました。そして、1978年と2018年では有意に平均値が違うことがわかりました。 なので、今回はこれらのベクトルをまとめて新たなデータフレームを…

都道府県別の空き家・持ち家・借家数のデータ分析3 - R言語で40年間の空き家率・持ち家率・借家率の変化を検定する。

www.crosshyou.info の続きです。 今回は経年変化を見てみます。 まず、データの一番新しい年と一番古い年は何年か確認します。 一番古い調査年は1978年、一番新しい調査年は2018年、40年間でどのように変化してるのでしょうか? 空き家率がどう変化したか、…

都道府県別の空き家・持ち家・借家数のデータ分析2 - R言語で空き家率・持ち家率・借家率を算出する。

www.crosshyou.info の続きです。 今回は、空き家率・持ち家率・借家率を計算しましょう。 mutate関数を使って新しい変数を作ります。 それぞれの値のサマリーを見てみましょう。 空き家率は最小値は0.04197, 最大値は0.22009, 平均値は0.11302, 中央値は0.1…

都道府県別の空き家・持ち家・借家数のデータ分析1 - R言語でデータを読み込む。

今回は、都道府県別の空き家数、持ち家数、借家数のデータを分析してみようと思います。 政府統計の総合窓口(www.e-stat.go.jp)からデータを取得できます。 ダウンロードしたCSVファイルはこのようなものでした。 9行目に変数名を追加しています。 R言語のre…

都道府県別のスポーツテストのデータ分析7 - 東日本と西日本、日本海側と太平洋側での違いはあるか?

www.crosshyou.info の続きです。 今回は東日本と西日本、日本海側と太平洋側での違いはあるのかどうかを調べてみます。 こういうふうに都道府県を分類したファイルを用意しました。新潟県までは東日本にしました。 また、海の無い件や北海道や兵庫県、福岡…

都道府県別のスポーツテストのデータ分析5 - R言語でクラスタリング。dist関数とhclust関数とplot関数

www.crosshyou.info の続きです。 今回は、R言語でクラスタリングをしてみようと思います。 data_scaledをas.matrix関数で単純なマトリックスにします。 列名を都道府県名 + total_scoreにします。paste関数で文字列を結合します。 str関数で構造を確認しま…

都道府県別の中二生徒のスポーツテストのデータ分析4 - R言語で散布図マトリックスを作成。psych::pairs.panles関数とGGally::ggpairs関数

www.crosshyou.info の続きです。 今回はR言語で散布図マトリックスを作成してみます。 まず、標準化したデータだけのデータフレームを用意します。 str関数でデータフレームの構造を確認します。 こんな感じです。標準化しているので、center とかscaleとい…

都道府県別の中二生徒のスポーツテストのデータ分析3 - 福井県が一番スポーツテストの成績が良い。

www.crosshyou.info の続きです。 今回は都道府県別の平均値を計算して、都道府県別のランキングを作成してみます。 まずは、group_by関数、summarise関数、mean関数を使います。 data_prefという名前で保存しました。 arrange関数でそれぞれの項目で並び替…

都道府県別の中二生徒のスポーツテストのデータ分析2 - R言語で平均値(mean関数)と標準偏差(sd関数)と変動係数を見る。

www.crosshyou.info の続きです。 前回はCSVファイルを読み込んだところで終わりました。今回はデータの中身をいろいろ見てみましょう。 summary関数でデータのサマリを見てみます。 NAの行が5つあります。 何でしょうか? 2007年度の北海道、群馬県、愛媛…

都道府県別の中二生徒のスポーツテストのデータ分析1 - R言語でデータを読み込む。

今回は都道府県別の中二生徒のスポーツテストのデータを分析してみます。 政府統計の総合窓口、e-Stat(www.e-stat.go.jp)からデータを取得しました。 50m走、ハンドボール投げ、立ち幅跳びの3種目です。 データのCSVファイルはこのようなものです。9行目に私…

農林水産物合計と上位20品目のデータ分析7 - R言語で回帰分析をする。layer()を使ってグラフを重ねてみる。

www.crosshyou.info の続きです。 今回は、R言語のlm関数で回帰分析をしてみます。 lm関数で、金額_対前年増減率 = a + b * 数量_対前年増減率 というモデル式で回帰分析をしてみました。p-value: 0.4226と0.05よりも大きな値なので、統計的に有意なモデルで…

農林水産物合計と上位20品目のデータ分析6 - R言語で散布図を作成する。

www.crosshyou.info の続きです。 今回はR言語のggplot2パッケージのgeom_point関数を使って金額_対前年増減率と数量_対前年増減率の散布図を描いてみます。 まず、金額_対前年増減率のデータフレームを作りました。 同じように数量_対前年増減率のデータを…

農林水産物の輸出上位20品目のデータ分析5 - R言語で棒グラフを描く(geom_col関数)

www.crosshyou.info の続きです。 今回はR言語のggplot2パッケージのgeom_col関数で棒グラフを描いてみます。 filter(type == "金額")で金額だけにデータフレームを絞り込みます。 mutate(hinmoku = reorder(hinmoku, valu)) でhinmokuをvalueの値で並び変え…

農林水産物の輸出上位20品目のデータ分析4 - データフレームの絞り込み(filter関数)や並び替え(arrange関数)

www.crosshyou.info の続きです。 今回はデータフレームの絞り込みや並び替えをします。 順位だけを表示します。 dplyrパッケージの中のfilter関数でtypeを順位だけにして、select関数でtype, value, hinmokuだけを表示しました。一番はアルコール飲料です。…

農林水産物の輸出上位20品目のデータ分析3 - R言語のinner_joinを使ってみる。

www.crosshyou.info の続きです。 前回は政府統計の総合窓口(e-Stat)のサイトのAPIでデータを取得してデータフレームを作成しました。作業の最後のところで、データのデータフレームと品目名、データタイプ名を結合するのにファクターのlevels関数で結合しま…

農林水産物の輸出上位20品目のデータ分析2 - R言語でAPIを使って政府統計の総合窓口(e-Stat)からデータを取得する。

www.crosshyou.info の続きです。 前回は政府統計の総合窓口(e-Stat)のサイトからファイルをダウンロードして、それをR言語のread.csvファイルを使って読み込みました。 今回は、APIを使って読み込んでみました。 www.dataquest.io https://www.dataquest.io…

農林水産物の輸出上位20品目のデータ分析1 - R言語のread.csv関数でCSVファイルの読み込み。

今回は、農林水産品輸出上位20品目のデータを分析します。 政府統計の総合窓口(e-Stat) www.e-stat.go.jp のサイトからデータを取得しました。 2020年10月9日に更新としてサイトのトップページにありましたので、これをクリックしました。 データベースと、…