www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2020-11-01から1ヶ月間の記事一覧

全国主要都市の交通事故と犯罪発生件数のデータ分析1 - R言語でデータを読み込む。

今回は全国主要都市の交通事故と犯罪発生件数のデータ分析をしてみようと思います。 政府統計の総合窓口(www.e-stat-go.jp)からデータをダウンロードしました。 対象は、特別区(東京23区のことです)、県庁所在市、政令指定都市、中核市です。 105の地域があ…

鉄道車両生産動態統計調査の分析3 - R言語のgroup_by関数とsummarise関数を使う。「その他の新幹線」は1台当りの車両の金額は11億3600万円

www.crosshyou.info の続きです。 前回作成した、車両タイプを絞り込んだデータフレームを使って、車両タイプごとの1台当りの車両の金額を調べてみます。 group_by関数でtrain_type: 車両タイプでグループ化して、summarise関数とmean関数で平均値を計算し…

鉄道車両生産動態統計調査のデータ分析2 - R言語のfilter関数で車両タイプを絞り込む

www.crosshyou.info の続きです。 このデータの車両の種類ですが、 このように大分類・中分類・小分類と分類されているようです。 これをデータ分析に反映したいですよね。。 とりあえず、車両タイプをtable関数で表にしてみます。 結構いっぱいありますね。…

鉄道車両生産動態統計調査のデータ分析1 - R言語のread.csv関数でCSVファイルにあるデータを読み込む。

今回から数回は、鉄道車両生産動態統計調査からのデータを分析してみます。 データは政府統計の総合窓口(www.e-stat.go.jp)から取得しました。 ここから数回のクリックを経て、ダウンロードしたファイルはこのようなものでした。 黒い英語は、私が変数名にし…

国税局別の民間給与実態調査のデータの分析7 - R言語のgeom_label関数を使って散布図を描く、沖縄が特殊だとわかる。

www.crosshyou.info の続きです。 前回作成した、sl_latio(5,000人以上の規模の事業所の人数と1~4人の規模の事業所の人数の比率)の棒グラフ描いてみます。ggplot2パッケージのgeom_bar関数を使いました。 金沢、高松の比率が高く、東京の比率が低いことがわ…

国税局別の民間給与実態調査のデータの分析6 - R言語で1~4人の事業所の人数と5,000人以上の事業所の人数を計算する。

www.crosshyou.info の続きです。 今回は、事業所の規模が1~4人の人数と5,000人以上の人数に注目してみます。 まず、spread関数で、1~4人の人数の列と5,000人以上の人数の列を持つデータフレームを作ります。 変数名を変更します。rename関数を使います。 …

国税局別の民間給与実態調査のデータの分析5 - R言語で2x2のクロス表を分析する。chisq.test関数、fisher.test関数、assocstats関数、oddsratio関数。

www.crosshyou.info の続きです。 今回はR言語で2x2のクロス表を分析してみようと思います。 カテゴリカルデータ解析 (Rで学ぶデータサイエンス 1) 作者:藤井 良宜 発売日: 2010/04/22 メディア: 単行本 こちらの本を参考にしました。 まず、table関数で2x2…

国税局別の民間給与実態調査のデータの分析4 - R言語で2015年と2016年の伸び率を計算する。

www.crosshyou.info の続きです。 今回は、2016年の人数が2015年と比較して、どれだけ伸びたかを計算したいと思います。 まず。df_longのデータフレーム、 これを、 こういうデータフレームに変換します。 spread関数を使います。 変数名が2015年、2016年と…

国税局別の民間給与実態調査のデータの分析3 - R言語のgeom_bar関数で棒グラフを描く。function関数、lapply関数、grid.arrange関数で効率よく。

www.crosshyou.info の続きです。 今回はR言語のgeom_bar関数で棒グラフを描いてみます。 例えば、2015年、yearend, 1~4人、全国除くだと、 となります。tokyo, osaka, kantoshinetsu, nagoya, fukuokaという順番です。 facet_grid関数を使って、yearとitem…

国税局別の民間給与実態調査のデータの分析2 - R言語でデータフレームの形態を変更(横長型から縦長型に) - gather関数とspread関数

www.crosshyou.info の続きです。 前回作成したデータフレーム, dfのはじめの数行をhead関数でみてみましょう。 このように人数という値が何列にも配置されています。 横長型といえばいいのかな。。。 これを縦長型に変更してみたいと思います。 図で説明す…

国税局別の民間給与実態調査のデータの分析1 - R言語でデータを読み込む。

今回は国税局別の民間給与実態調査のデータを分析してみます。 いつものように、政府統計の総合窓口(www.e-stat.go.jp)からデータを取りました。 データベースのほうをクリックしました。 年次をクリックします。 2016年をクリックします。 たくさん種類があ…

都道府県別別の「医療費の動向」調査のデータ分析6 - R言語のglm関数でロジスティクス回帰分析をする。

www.crosshyou.info の続きです。 今回はR言語のglm関数でロジスティクス回帰分析をします。 response variableはeastweat: 東日本と西日本にしてみます。 explanatory variablesはyear: 年度、medical_total: 医科_計、dental: 歯科、pharma: 調剤、visit: …

都道府県別の「医療費の動向」調査のデータ分析5 - R言語のarrange関数で並び替えをする。

www.crosshyou.info 今回はR言語のarrange関数で各変数を大きい順、小さい順に並び替えてみます。 まずは、total: 総計からです。 医療費の総計が前年比で一番下がったのは2016年度の香川県で、-2.2%でした。 一番伸びたのはどこでしょうか? 2015年度の千葉…

都道府県別の「医療費の動向」調査のデータ分析4 - R言語のlm関数で回帰分析をする。

www.crosshyou.info の続きです。 今回はR言語のlm関数で回帰分析をしてみます。 2017年の医療費の伸びを2016年と2015年の伸びで回帰分析します。 まず、df_totalの列名が2015年度、2016年度、2017年度と数字がはじめの文字になっているのをrename関数で変更…

都道府県別の「医療費の動向」調査のデータ分析3 - R言語のGGallyパッケージのggpairs関数で散布図マトリックスを作成。

www.crosshyou.info の続きです。 2015年度、2016年度、2017年度でtotal: 総計の分布が違っていることがわかりました。 それぞれ年度の平均値や標準偏差、変動係数を計算してみます。 group_by関数を使い、年度でグループ分けをしてからmean関数やsd関数を使…

都道府県別の「医療費の動向」調査のデータ分析2 - R言語のgeom_histogram関数とfacet_grid関数でヒストグラムを描く。

www.crosshyou.info の続きです。 今回は読み込んだデータがどんなものか、おおまかに確認しましょう。 summary関数を使ってみます。 yearを見ると、このデータは、2015年度、2016年度、2017年度の3年間分のデータがあることがわかります。 各変数の平均値を…

都道府県別の「医療費の動向」調査のデータ分析1 - R言語にデータを読み込む。

今回から都道府県別の「医療費動向」調査のデータを分析しようと思います。 政府統計の総合窓口(www.e-stat.go.jp)のサイトに新着データとして掲載されていました。 データベースのほうをクリックしました。 月次のほうをクリックしました。 都道府県別の医…

都道府県別の空き家・持ち家・借家数のデータ分析8 - R言語で年ごとの箱ひげ図の推移を作成。geom_boxplot関数

www.crosshyou.info の続きです。 今回は、geom_boxplot関数を使って、年ごとのデータの推移を箱ひげ図で表現してみました。 まずは、空き家率からです。 x = as.factor(year)としてyearをファクター型に変換しています。 空き家率は年ごとに上昇しているの…

都道府県別の空き家・持ち家・借家数のデータ分析7 - R言語でロジスティクス回帰分析。glm関数

www.crosshyou.info の続きです。 今回は、R言語のglm関数でロジスティクス回帰分析をしてみます。 前回作成した 、九州沖縄地方か、そうでないかという変数、kyushu_okinawaをresponse variableにして、空き家率、持ち家率、借家率をexplanatory variableに…

都道府県別の空き家・持ち家・借家数のデータ分析6 - R言語でClustering。dist関数、hclust関数、plot関数

www.crosshyou.info の続きです。 今回はClusteringをしてみます。 まずは、Clusteringのためのマトリックスを作成します。 このマトリックス、matの行名を都道府県にします。 dist関数、hclust関数、plot関数でClusteringします。 山形県と秋田県、宮崎県と…

都道府県別の空き家・持ち家・借家数のデータ分析5 - R言語のlm関数で借家率を回帰分析する。

www.crosshyou.info の続きです。 今回は、1978年の空き家率で2018年の借家率を回帰分析してみます。 R言語のlm関数を使います。 p-valueが2.664e-13と0.05よりも低いので、有意なモデルです。Intercept、rent_ratio_1978の係数のp値も0.05よりも低いです。 …

都道府県別の空き家・持ち家・借家数のデータ分析4 - R言語で散布図を描く。geom_point関数、theme関数、facet_grid関数

www.crosshyou.info の続きです。 前回の分析で1978年と2018年の空き家率・持ち家率・借家率のベクトルを作成しました。そして、1978年と2018年では有意に平均値が違うことがわかりました。 なので、今回はこれらのベクトルをまとめて新たなデータフレームを…

都道府県別の空き家・持ち家・借家数のデータ分析3 - R言語で40年間の空き家率・持ち家率・借家率の変化を検定する。

www.crosshyou.info の続きです。 今回は経年変化を見てみます。 まず、データの一番新しい年と一番古い年は何年か確認します。 一番古い調査年は1978年、一番新しい調査年は2018年、40年間でどのように変化してるのでしょうか? 空き家率がどう変化したか、…

都道府県別の空き家・持ち家・借家数のデータ分析2 - R言語で空き家率・持ち家率・借家率を算出する。

www.crosshyou.info の続きです。 今回は、空き家率・持ち家率・借家率を計算しましょう。 mutate関数を使って新しい変数を作ります。 それぞれの値のサマリーを見てみましょう。 空き家率は最小値は0.04197, 最大値は0.22009, 平均値は0.11302, 中央値は0.1…

都道府県別の空き家・持ち家・借家数のデータ分析1 - R言語でデータを読み込む。

今回は、都道府県別の空き家数、持ち家数、借家数のデータを分析してみようと思います。 政府統計の総合窓口(www.e-stat.go.jp)からデータを取得できます。 ダウンロードしたCSVファイルはこのようなものでした。 9行目に変数名を追加しています。 R言語のre…

都道府県別のスポーツテストのデータ分析7 - 東日本と西日本、日本海側と太平洋側での違いはあるか?

www.crosshyou.info の続きです。 今回は東日本と西日本、日本海側と太平洋側での違いはあるのかどうかを調べてみます。 こういうふうに都道府県を分類したファイルを用意しました。新潟県までは東日本にしました。 また、海の無い件や北海道や兵庫県、福岡…

都道府県別のスポーツテストのデータ分析6 - R言語で回帰分析。lm関数を使う。立ち幅跳びの優秀な都道府県はハンドボール投げも優秀。

www.crosshyou.info の続きです。 今回はR言語のlm関数を使って回帰分析をしてみます。 男子のハンドボール投げのデータを50m走と立ち幅跳びのデータで回帰分析をしてみましょう。 head関数でdatがどういうデータフレームだったか思い出します。 m_ballをm_5…

都道府県別のスポーツテストのデータ分析5 - R言語でクラスタリング。dist関数とhclust関数とplot関数

www.crosshyou.info の続きです。 今回は、R言語でクラスタリングをしてみようと思います。 data_scaledをas.matrix関数で単純なマトリックスにします。 列名を都道府県名 + total_scoreにします。paste関数で文字列を結合します。 str関数で構造を確認しま…