www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2018-01-01から1年間の記事一覧

県民経済計算の分析5 - 成長性・規模・裕福さの偏差値を計算して総合スコアを計算する

今回は、前回のブログ、 www.crosshyou.info の続きで、R言語を使って成長性・規模、裕福さの3つの指標の偏差値を算出してそれらを合計した総合スコアを計算しようと思います。 まずは、前回作成したデータフレームを再掲します。 偏差値はどうやって計算す…

県民経済計算の分析4 - 成長性・規模・民間と政府のバランス・裕福さの上位都道府県はどこか?

今回は県民経済分析のデータを使って前回の続きをしていきます。 前回のブログ、 www.crosshyou.info では、新しく「対数名目」、「民間政府」、「対数一人当たり」という変数を作成しました。この変数と「対前年度増加率」のランキングを作成しましょう。 …

県民経済計算の分析3 - ヒストグラムを描く(hist関数)

今回は県民経済計算のデータのヒストグラムを描こうと思います。 前回はのブログはこちらです。 www.crosshyou.info まずは、CSVファイルに保存してあるデータをread.csvファイルに読込み、summary関数で平均値や中央値を表示します。 hist関数でヒストグラ…

県民経済計算の分析2 - ggplot関数のgeom_point関数で散布図を描く

今回は県民経済計算のデータを使ってR言語のggplot関数で散布図を描いてみたいと思います。 まずは、前回やったCSVファイルに保存してあるデータをread.csv関数でR言語に読込み、summary関数で平均値などを表示します。 続いてggplot関数を使うために、libra…

県民経済計算の分析1 - 基本統計量

今回は、都道府県別の県内総生産などのデータ分析をしてみたいと思います。 データは、「日本の統計」のウェブサイト、 www.stat.go.jpここから取得しました。 この3-15 県民経済計算 というファイルです。 実際のファイルがこれです。 これをR言語に読込ま…

国籍別在留外国人数の分析5 - 増減幅の上位・下位、増減率の上位・下位で二分してクロス表分析

今回は、国籍別在留外国人数のデータを使って、増減幅の上位・下位、増減率の上位・下位で二分したカテゴリカル変数を作成し、クロス表分析をしてみたいと思います。 前回までで、下図のようなR言語のデータフレームを作成しました。 平成26、27、28は国籍別…

国籍別在留外国人数の分析4 - 地域によって増減率に違いはあるだろうか?

今回は、国籍別在留外国人数のデータを使って、地域によって増減率に違いはあるだろうか?ということを検証したいと思います。 R言語にこんな形でデータフレームを作成しています。 地域としてはアジアが15か国、ヨーロッパが11か国と多いので、この2つの地…

国籍別在留外国人数の分析3 - 増減のデータで散布図を描く(plot関数、ggplot関数)

今回は、国籍別在留外国人数のデータを使い、増減の散布図を描いてみましょう。 前回の分析までで、下図のようなR言語のデータフレームを作成しました。 「地域」と「国籍」がカテゴリカル変数で、「平成26」「平成27」「平成28」がそれぞれの年の人数、「幅…

国籍別在留外国人数の分析2 - 増減のデータを作成する。人数が増えた国や地域、減った国や地域は?

今回は前回のデータを加工して増減を計算したいと思います。 まずは、CSVファイルに保存してあるデータをread.csv関数でR言語に読み込ませます。 summary関数で基本統計量を表示しています。平成26年、平成27年、平成28年の3年間のデータがありますので、増…

国籍別在留外国人数の分析1 - 基本統計量

今回は、国籍別在留外国人数のデータを分析してみようと思います。 データの元は、総務省統計局のホームページです。 ホーム > 統計データ > 日本の統計 > 本書の内容 > 第2章 人口・世帯 > 2-8 国籍別在留外国人数 です。 http://www.stat.go.jp/data/nihon…

各地の気温と降水量の分析6 - ggplot関数で散布図を描く

最近、もっとかっこいいグラフやかっこいい分析をしたいと思い、 Rではじめるデータサイエンス 作者: Hadley Wickham,Garrett Grolemund,大橋真也,黒川利明 出版社/メーカー: オライリージャパン 発売日: 2017/10/25 メディア: 単行本(ソフトカバー) この…

各地の気温と降水量の分析5 - 加工データでクラスター分析をしてみる。

前回は、原データでクラスター分析をしたので、今回は加工データでクラスター分析をしてみます。まずは、「日本の統計」にあった各地の気温と降水量のデータをread.csv関数でR言語に読込みます。 こんな感じのデータですね。このデータから、最大降水量や最…

読書記録 - 「戦国日本と大航海時代 秀吉・家康・政宗の外交戦略」平川新 著 中公新書

戦国日本と大航海時代 - 秀吉・家康・政宗の外交戦略 (中公新書 2481) 作者: 平川新 出版社/メーカー: 中央公論新社 発売日: 2018/04/18 メディア: 新書 この商品を含むブログ (5件) を見る 日本な何故、植民地にならなかったのか? それは、当時の日本がス…

各地の気温と降水量の分析4 - クラスター分析をしてみる。

今回は、各地の気温と降水量のデータを使ってクラスター分析をしてみたいと思います。 まずは、データをR言語に読込みます。read.csv関数ですね。 まずは、階層的クラスター分析をしてみます。 現場ですぐに使える! R言語プログラミング逆引き大全 350の極意…

各地の気温と降水量の分析3 - 寒暖差および、最大降水量と最小降水量の差を求める。

今回は各地の寒暖差及び、最大降水量の差を求めようと思います。 まずは、R言語にデータを読込みます。read.csv関数を使います。データを読み込んだら、summary関数でデータの基本記述統計値を表示しましょう。 前回は各地の平均気温、最高気温、最低気温、…

各地の気温と降水量の分析2 - 一番気温の高い都市・一番降水量の高い都市はどこか?

今回も前回に引き続き、「日本の統計」の各地の気温と降水量のデータを使って、R言語の操作の練習をします。 まずは、read.csv関数でCSVファイルに保存してあるデータを読込みます。そして、それをsummary関数で基本統計量を算出します。 このsummary関数の…

各地の気温と降水量の分析1 - 基本統計量(summary関数, apply関数, sd関数, mean関数)

いつものように、e-Stat(政府統計の総合窓口)のウェブサイトを見ていたら、総務省統計局のホームページに迷い込んで、「日本の統計」というページにアクセスしました。 こういう画面です。総務省統計局のホームページから、「統計データ」>>> 「日本の統計」…

生産者の米穀在庫等調査の分析3 - 全国平均よりも多い・少ないで二分してクロス表分析をしてみる

今回は、生産者の米穀在庫調査のデータを、全国平均よりも多い・少ないで二つに分けてクロス表分析をしてみたいと思います。まずは、read.csv関数でCSVファイルに保存してあるデータを読込みます。summary関数で要約統計量も表示してみましょう。 head関数で…

生産者の米穀在庫等調査の分析2 - 飯用で消費する比率の高い都道府県は?

今回は、前回に引き続き、生産者の米穀在庫等調査のデータの分析をします。前回の調査で、長崎県の農家は飯用で消費、つまり自分で消費してしまう量が多いことがわかりました。そこで今回は、飯用で消費する量と販売する量比率を各都道府県で計算したいと思…

生産者の米穀在庫等調査の分析1 - 都道府県別の基本統計量 北海道は別格だ。

政府統計の総合窓口(e-Stat)に新着データとして、「生産者の米穀在庫等調査」というデータがありました。 クリックしてみます。 本調査は、毎月、農家の米穀の在庫量等を調査し、農家1戸当りのうるち米及びもち米の供給量、消費量、販売量、在庫量等を全国、…

毎月勤労統計調査の分析V2_8 - 特掲産業と全データの比較(時給と残業時間比率)

今回は、毎月勤労統計調査の2018年7月のデータを使って、特掲産業だけに絞ったデータフレームを作成し、分析ごっこをしてみたいと思います。 「毎月勤労統計調査における記号の見方」には「特掲産業」に分類されている産業があります。 これらの産業だけに絞…

毎月勤労統計調査の分析V2_7 - 規模別、性別、形態別の時給を計算してみる。

今回は、規模別、性別、形態別の時給を計算してみましょう。 まずはCSVファイルに保存してあるデータをread.csv関数でR言語に読込みます。 もう、面倒なので、このまま総労働時間と給与総額を使って時給を計算してしまいましょう。 最低時給が816円です。。…

毎月勤労統計調査の分析V2_6 - 産業の大分類を性別や規模、勤務形態でもう少し細かく診てみる。

前回の分析では、産業の大分類ベースでは、時給とパート比率は逆相関の関係があることがわかりました。今回は産業の大分類ベースで企業規模別にしてみようと思います。 まずは、CSVファイルに分類してるデータをR言語に読込ませます。read.csv関数です。 デ…

毎月勤労統計調査の分析V2_5 - 時給換算で一番時給の良い業界は?

今回は前回作成した毎月勤労統計調査2018年7月データの大分類データで時給換算で一番時給の良い業界はどこなのか調べたいと思います。 まずは、前回の結果、産業分類大分類別の給与総額ランキングです。 学術研究、専門・技術サービスが一番給与総額が高かっ…

毎月勤労統計調査の分析V2_4 - 大分類の業種での人数や給与総額を見てみる。(R言語でデータ整理)

今回は毎月勤労統計の2018年7月のデータを使って、産業ごとの値を見たいと思います。前回の分析では集約された産業分類も個々の産業分類も一緒になっていたので、いまひとつ納得感のある分析ではありませんでした。 まずは、毎月勤労統計がどのように産業分…

毎月勤労統計調査の分析V2_3 - 人数の多い業種は?(order関数で並び替え)

引き続き、R言語で毎月勤労統計調査のデータを分析していきたいと思います。 データをread.csv関数で読込み、summary関数で最大値、最小値、平均値、中央値などを確認します。 とりあえず、七月末人数の多い順に並び替えてみましょうかね。order関数を使いま…

毎月勤労統計調査の分析V2_2 - もっと多くのデータで基本統計量を算出

前回のデータ量が少なかったので、今回はもっと大きなデータで毎月勤労統計調査のデータを分析したいと思います。 こんな感じです。 これがhead関数で始めの6行を表示したもの。 そして下図がsummary関数で要約統計量を表示したものです。 行番号もMaxが4640…

毎月勤労統計調査の分析V2_1 - 基本統計量(summary関数、apply関数とsd関数, mean関数)

今回は、毎月勤労統計調査の分析をしたいと思います。 以前にもこの統計は分析したことがあるので、2回目です。 e-Stat(政府統計の総合窓口)のサイトを訪問したら、毎月勤労統計が新着でありました。 クリックしてみました。 「毎月勤労統計調査全国調査は、…

貴金属流通統計調査の分析6 - 金の需要を線形回帰してみる。(lm関数)

今回は貴金属流通統計調査の金の需要データを使って、線形回帰の練習をしてみたいと思います。まずは、CSVファイルに保存しているデータをread.csv関数を使って読込みます。 このようなデータです。電機機械の需要が一番多いですね。グラフにしてみましょう…

貴金属流通統計調査の分析5 - 金の各需要の相関関係を見る。(plot関数、cor関数、cor.test関数)

今回は、金の各需要の相関関係を見たいと思います。 まずは、CSVファイルに保存してあるデータをread.csv関数でR言語に読込みます。 相関係数を出す関数はcor関数です。早速やってみましょう。 gold_matrix <- gold[ , c(-1,-2)] で計算に必要のない年と月の…