Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2018-07-01から1ヶ月間の記事一覧

医療給付実態調査の分析3 - 年齢別の平均値をグラフにする。(tapply関数とmean関数, barplot関数)

今回は、医療給付実態調査のデータを使って、年齢別の平均値をグラフにしてみます。まずは、csvファイルに保存してあるデータをread.csv関数でR言語に読込み、summary関数にてデータのサマリーを見てみます。 前回までと違うところが一つあります。それは、…

医療給付実態調査の分析2 - 年度別の平均値をグラフにする。(tapply関数とmean関数, barplot関数)

今回は、医療給付実態調査のデータをグラフにしてみたいと思います。 まずは、read.csv関数でデータをR言語に読込み、summary関数でデータの要約をしましょう。 このデータは、カテゴリカルデータは年度、年齢、制度の3種類です。 数量データは、一人当入院…

医療給付実態調査の分析1 - 基本統計量(summary関数, apply関数とsd関数)

いつものように、e-Stat(政府統計の総合窓口)のサイトを見たら、医療給付実態調査というデータが新着でありました。 どんな調査なのでしょうか?クリックしてみました。 医療保険加入者の受信状況のデータを制度別、年齢別、疾病分類別等様々な切り口から観…

参考文献

このブログの参考文献です。 統計検定やR言語に関する文献です。順不同です。 クイック・データアナリシス―10秒でできる実践データ解析法 作者: 田中敏,中野博幸 出版社/メーカー: 新曜社 発売日: 2004/10/20 メディア: 単行本 クリック: 3回 この商品を含む…

毎月勤労統計調査の分析6 - 給与の多い業種はどこか。給与の増えた業種はどこか。(order関数)

今回は、毎月勤労統計調査の2018年5月と2010年5月のデータで給与総額の業種別のランキングと、2010年と2018年の比較で給与総額増加・減少のランキングを見てみます。 まずは、csvファイルに保存してあるデータをread.csv関数で読込みましょう。 head関数で始…

毎月勤労統計調査の分析5 - 2010年と比較して2018年の現金給与は良くなったといえるのか?

今回は、毎月勤労統計調査のデータ、2018年5月と2010年5月を比較して、給与と残業、所定内給与、残業代、特別支給のそれぞれが違いがあると言えるほど差があるかを調べます。 前回の分析では、給与総額については、平均値、中央値ともに2018年のほうが増えて…

毎月勤労統計調査の分析4 - 給与総額は2010年と比べて2018は増えているのか?(t.test関数, wilcox.test関数, prop.test関数)

今回は、毎月勤労統計調査のデータで、2018年5月の給与総額と2010年5月の給与総額を比較したいと思います。 まずは、csvファイルに保存されているデータを読込みましょう。 read.csv関数でファイルを読込み、head関数で始めの6行を表示して、summary関数で最…

毎月勤労統計調査の分析3 - データをヒストグラムで見える化する。(par関数, hist関数)

今回は、毎月勤労統計調査のデータをグラフにしてみたいと思います。 まずは、データをread.csv関数でR言語に読込み、head関数、summary関数を適用してみます。 このファイルは、2018年5月のデータと2010年5月のデータが合わさっています。 2018年のデータ、…

毎月勤労統計調査の分析2 - 基本統計量 2018年5月と2010年5月(summary関数, subset関数, tapply関数, mean関数)

前回の分析データは、2018年5月の各業種(大分類)のトータルだけでした。これではあまり面白くないので、2010年5月のデータも加えて分析することにしました。 そこでもう一度、データをread.csv関数で読込みしなおしてhead関数、summary関数を走らせてみまし…

読書記録 - 「EVと自動運転 クルマをどう変えるか」 鶴原吉郎 岩波新書

EVと自動運転――クルマをどう変えるか (岩波新書) 作者: 鶴原吉郎 出版社/メーカー: 岩波書店 発売日: 2018/05/23 メディア: 新書 この商品を含むブログ (1件) を見る 電動化 + 自動化 + コネクテッド化 = サービスとしてのクルマ 読んで思ったのは、未来のク…

毎月勤労統計調査の分析1 - 基本統計量(summary関数, apply関数とsd関数)

政府統計の総合窓口、e-Statのホームページに、07月23日の新着データで、「毎月勤労統計」がありました。今回はこのデータを使って、いろいろ分析してみましょう。 新着のところをクリックすると、こうなりました。 この「新着」とある月次104件のところをク…

犯罪統計分析5 - 大分類で区分した検挙率(subset関数, tapply関数)

今回は、犯罪の種類を大分類で区分して、検挙率が高くなった犯罪、低くなった犯罪を調べようと思います。 まずは、csvファイルに保存してあるデータをread.csv関数で読込み、head関数で始めの6行を表示して、summary関数でデータのサマリーを見ましょう。 su…

犯罪統計分析4 - 検挙率の良くなった犯罪・悪くなった犯罪(subset関数、order関数)

今回は、犯罪統計のデータを使って、検挙率の良くなった犯罪と悪くなった犯罪を調べてみたいと思います。前回の分析で、平成30年(1~6月)は、平成29年(1~6月)よりも全体では検挙率が良くなったことがわかりました。 まずは、csvファイルにあるデータを、read.…

犯罪統計分析3 - 平成29年(1~6月) と平成30年(1~6月)で検挙率に違いはあるか?(tapply関数, prop.test関数)

今回は犯罪統計のデータから、平成29年(1~6月)の検挙率と平成30年(1~6月)の検挙率で違いはあるのかどうかを調べようと思います。 まずは、csvファイルに保存してあるデータをread.csv関数で読込み、head関数ではじめの6行を表示し、summary関数でデータのサ…

犯罪統計分析2 - 検挙率の高い犯罪・検挙率の低い犯罪(order関数, tapply関数)

今回は、犯罪統計分析を使って、検挙率の高い犯罪・低い犯罪を調べてみようと思います。まずは、read.csv関数でデータを読込み、head関数で始めの6行を表示して、summary関数でデータの要約をしたいと思います。 データは、認知件数、検挙件数、検挙人員とあ…

犯罪統計分析1 - 基本統計量(summary関数、 apply関数とlength関数、apply関数とsum関数、apply関数とsd関数)

e-Stat(政府統計の総合窓口)のサイトを見たら、平成30年1月~6月の犯罪統計というデータが新着でありました。 早速、ファイルを開いてみました。 平成30年1月~6月と平成29年1月~6月の犯罪の件数や検挙件数が犯罪の種類ごとにありました。 このデータを分析…

読書記録 - 「教養としての宗教入門 - 基礎から学べる信仰と文化」中村圭志著 中公新書

教養としての宗教入門 - 基礎から学べる信仰と文化 (中公新書) 作者: 中村圭志 出版社/メーカー: 中央公論新社 発売日: 2014/11/21 メディア: 新書 この商品を含むブログ (8件) を見る 作者の語り口が上手で読んでいて面白かったです。 印象に残ったのは、 …

定期健康診断結果の分析4 - 業種の大分類によって有所見率は違うのか?(tapply関数, matrix関数, chisq.test関数)

前回の分析では、石炭鉱業の有所見率と鉄道等の有所見率は統計的に有意に違いがある、とわかりました。今回は大分類で差があるかを見てみましょう。 いつものように、read.csv関数でデータを読込み、head関数で始めの6行を表示し、summary関数でデータの要約…

定期健康診断結果の分析3 - 有所見率は業種によって違うのか?比率が同じかを検定(prop.test関数)

今回も定期健康診断結果のデータを分析しようと思います。 前回の分析で、有所見率の一番高い業種は、石炭鉱業で、一番低い業種は鉄道等でした。そこで今回はこの2つの業種の有所見率の差は統計的に有意なものなのかどうかを検定してみたいと思います。 ま…

定期健康診断結果の分析2 - 大きい順、小さい順に並び替えでグラフ化(order関数とbarplot関数)

今回は定期健康診断結果のデータを大きい順、小さい順に並び替えて棒グラフにしてみます。データの分布をざっと確認しましょう。 まずは、read.csv関数でcsvファイルに保存してあるデータを読込み、head関数で最初の6行を表示して、summary関数でデータのサ…

定期健康診断結果の分析1 - 基本統計量(R言語のsummary関数, sd関数, length関数, sum関数, apply関数, round関数)

政府統計の総合窓口、e-Statのサイトにアクセスしてみたら、「定期健康診断結果報告」という統計が新着でありました。早速アクセスしてみました。 職場の定期健康診断結果の報告を集計したもののようです。私事になりますが、最近、健康診断をしましたので興…

通信・放送産業動態調査の分析7 - 株価の変化と関係あるか?(R言語のxtabs関数とfisher.test関数)

今回は前回に引き続き通信・放送産業動態調査のデータを使います。前回は上半期・下半期でデータの成長に違いはありませんでした。今回は株価の変化とデータの成長は関連があるかどうかを調べてみたいと思います。 まずは、カテゴリカル変数にした各データの…

通信・放送産業動態調査の分析6 - 上半期・下半期 で成長率は違いがあるのか(R言語のtable関数とsummary関数)

今回は、通信・放送産業動態調査のデータを使って、1月から6月までの上半期と7月から12月までの下半期で前年同月比の売上成長率に違いがあるのかを調べてみたいと思います。前回のブログで、上半期・下半期のカテゴリカル変数と、マイナス成長・プラス成長の…

通信・放送産業動態調査の分析5 - 数量データをカテゴリカルデータに変換(R言語のcut関数)

今回は、通信放送産業動態調査のデータを「プラス成長」「マイナス成長」の2つのカテゴリカルデータに変換してみましょう。 まずは、csvファイルに保存してあるデータをread.csv関数で読み込み、head関数で始めの6行を表示し、summary関数でデータの要約を表…

通信・放送産業動態調査の分析4 - 各データどうしの相関係数(R言語のcor関数)

今回は通信・放送産業動態調査のデータをつかってデータどうしの相関係数をみてみようと思います。 まずは、いままでと同じく、read.csv関数でデータを読み込み、head関数ではじめの6行を表示し、summary関数で最小値・最大値・平均値・中央値、第1分位値、…

通信・放送産業動態調査の分析3 - ヒストグラムでデータの度数分布を見える化(R言語のhist関数)

今回は、通信・放送産業動態調査のデータのヒストグラムを作成したいと思います。 まずは、R言語にデータを読み込ませます。csvファイルに保存してあるので、read.csv関数です。 head関数で始めの6行を表示して、summary関数でそれぞれのデータの平均値や中…

通信・放送産業動態調査の分析2 - グラフで推移を見える化(R言語のplot関数)

前回に引き続き、通信・放送動態調査のデータを分析したいと思います。 まずは、read.csv関数でデータを読み込み、head関数ではじめの6行を表示し、summary関数でデータの要約を表示します。 前回のデータセットと変更した箇所があります。時系列という列でY…

通信・放送産業動態調査の分析1 - 基本統計量

今回は、通信・放送産業動態調査というデータを使って分析をしたいと思います。 通信・放送産業動態調査とは、e-Statのウェブサイトを見ると、 www.e-stat.go.jp 通信・放送産業動態調査は、通信・放送産業の経営動向に関する動態を調査することで、産業活動…

消費者態度指数の分析7 - 前年差のデータを上昇・下降のカテゴリカル変数にしてクロス表分析

今回は、消費者態度指数の前年差を上昇・下降の2つのカテゴリカル変数にして、クロス表を作成したいと思います。 まずは、R言語でread.csv関数でデータを読み込みます。読み込んだデータをsummary関数で表示しますね。 前年差のデータは、NAの行があるので…

消費者態度指数の分析6 - 5月と12月では有意な差があるのか?

前回の分析では、消費者態度指数は、5月の平均値が一番高く、12月の平均値が一番低いことがわかりました。 しかし、5月の平均値は42.4733、12月の平均値は40.2000という違いでした。この違いは有意な差といえるのでしょうか?調べてみましょう。 まずは、csv…