crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

データ分析

社会生活基本調査データの分析3 - R言語のboxplot関数で男性と女性の行動の違いを見る。

www.crosshyou.info の続きです。 今回はR言語のboxplot関数で男性と女性の行動の違いを見てみましょう。 まず、どういうデータフレームだったか、str関数で確認します。 このような観測数が28, 変数が16のデータフレームでした。 R言語のboxplot関数で箱ひ…

社会生活基本調査データの分析2 - R言語のhist関数で各変数の分布を確認する。家政・家事の行動者率は二極化している。

www.crosshyou.info の続きです。 今回は、各変数の分布を確認します。 まずは、str関数で各変数を確認しましょう。 観測は28, 変数は16, のデータフレームです。SexとAgeがファクターで、その他は数値データです。 Sample_size, これは、実際に調査した人数…

社会生活基本調査データの分析1 - R言語で基本統計量を算出

今回は社会生活基本調査のデータを分析しようと思います。 e-Stat 政府統計の総合窓口からデータを取得します。「ファイル」をクリックしてみます。 社会生活基本調査は、統計法に基づく基幹統計調査として、生活時間の配分や、余暇時間における主な活動(学…

宗教統計調査データの分析4 - R言語のaov関数とTukeyHSD関数を使ってみる。前回の分析が間違っていたことに気づく。

www.crosshyou.info の続きです。 前回の分析で、年ごとに都道府県知事所轄団体 / 文部科学大臣所轄団体 の比率は全て同じではなくて、違う年がある、ということがわかりました。 今回は、R言語のaov関数とTukeyHD関数を使って、どの年とどの年に違いがある…

宗教統計調査データの分析3 - R言語で一元配置分散分析(oneway.test関数)と交互作用図(interaction.plot関数)をしてみる。

www.crosshyou.info の続きです。 今回は、 都道府県知事の所轄の団体数と文部科学大臣の管轄の団体数の比率が宗派によって違うのかを調べてみます。分散分析ですね。 まずは、mutate関数で比率を表す変数を作成しましょう。 hiritsuという変数が都道府県知…

宗教統計調査データの分析2 - R言語で各宗派ごとの団体数の推移を調べたら、キリスト教系だけが増えていた。

www.crosshyou.info の続きです。 まず、合計だけのデータセットを作成して、全体の宗教法人の数がどのようなトレンドで推移しているかを見てみましょう。R言語のfilter関数を使います。 ggplot関数でグラフを描いてみましょう。 あ、宗教法人は全体としては…

宗教統計調査のデータ分析1 - R言語のread_csv関数でCSVファイルを読み込んでみた。

政府統計の総合窓口、e-Statに「宗教法人統計」というデータが新着でありました。 ちょっと気になったのでクリックしてみました。 宗教統計調査は、毎年の宗教法人数(神社、寺院、教会、布教所など)や宗教法人に関わる教師と信者の人数を調査したもののよう…

外資系企業動向調査の分析5 - R言語のlm関数で回帰分析の練習。線形単回帰モデルと2乗項を追加したモデル

www.crosshyou.info の続きです。 今回はR言語のlm関数で回帰分析の練習をしてみたいと思います。 最近、「An Introduction to Statistical Learning with applications in R」 http://www-bcf.usc.edu/~gareth/ISL/ という本を読みだしているので、その練習…

外資系企業動向調査の分析4 - R言語で操業率、撤退率、開業率の散布図を作成する。ggplotパッケージを使用。

www.crosshyou.info の続きです。 今回は合計、非製造業、製造業という業種の大分類を除いたtibbleを作成してggplot2パッケージでグラフをいろいろ作りたいと思います。 まずは、filter関数、mutate関数、as.character関数、factor関数を使って個別業種だけ…

外資系企業動向調査の分析3 - R言語で業種別の操業率を見てみる。group_by関数とsummarize関数を活用

www.crosshyou.info の続きです。 今回は、業種別の操業率を見てみようと思います。 まずは、どんな業種があるかを確認しましょう 左上の ’ みたいなのと、業種(2007年-)というおかしなものが0で残っていますね。。 削除してみましょう。0で要素は無いですか…

外資系企業動向調査の分析2 - R言語のas_tibble関数でtibbleに変換して、filter関数、select関数、mutate関数、arrange関数

www.crosshyou.info の続きです。 前回は e-Statから出力したファイルをそのままR言語に読込ませて、R言語上で整理されたデータにする、という作業でした。 今回は各データを大きい順に並び替えてみましょう。 せっかくだから、tidyverseパッケージを使って…

経済センサスの事業所に関する集計データの分析7 - 仙台の面積の謎

www.crosshyou.info の続きです。 前回の分析で気になることがありました。仙台は従業者数が増加していたのに、面積従業者数が減少していたんです。面積従業者数は、従業者数 / 面積 で計算されますから分子の従業者数が増えているのに値が減っているという…

経済センサスの事業所に関する集計データの分析6 - R言語で伸び率を計算する

www.crosshyou.info の続きです。 今回は2012年から2016年の各変数の伸び率を計算しようと思います。 まず、2016年の地域の並びと2012年の地域の並びが違っているので、これを揃えようと思います。 手順としては、2016年だけのデータフレーム、2012年だけの…

外資系企業動向調査の分析1 - R言語でアップロードしたファイルを整理する。

今回は、外資系企業動向調査のデータを分析しようと思います。 政府統計の総合窓口 e-Statのウェブサイトからデータを取得できます。 外資系企業動向調査は、日本に進出している外資系企業を対象とした統計調査で、国や地方公共団体における今後の産業政策及…

景気ウォッチャー調査データと株価の分析5 - R言語のseq関数で日付の列を作成する

www.crosshyou.info の続きです。 今回はR言語で日付の列を作成したいと思います。 Rクックブック 作者: Paul Teetor,大橋真也,木下哲也 出版社/メーカー: オライリージャパン 発売日: 2011/12/22 メディア: 大型本 購入: 9人 クリック: 61回 この商品を含む…

景気ウォッチャー調査データと株価の分析4 - 株価を景気ウォッチャーのデータで回帰分析をする。R言語のlm関数を使用

www.crosshyou.info の続きです。 今回は、株価を景気ウォッチャーのデータで回帰分析してみたいと思います。 まずは、当月の景気ウォッチャーと当月の株価です。前回の分析で、当月の株価と一番相関の高かったのは、飲食関連関連現状でした。この変数を使っ…

景気ウォッチャー調査データと株価の分析3 - R言語で株価と各変数の相関を調べる。3か月、4か月前の景気と株価の関連

www.crosshyou.info の続きです。 今回は株価と各景気ウォッチャーの変数の相関関係を調べてみたいと思います。 余談ですが、堺屋太一さんがお亡くなりになりました。この堺屋太一さんが経済企画庁長官のときに景気ウォッチャー調査を発案したそうです。ご冥…

景気ウォッチャー調査データと株価の分析2 - R言語で現状と先行きの相関関係を調べる。for関数で繰り返し処理の練習

www.crosshyou.info の続きです。 今回は、現状と先行きの相関関係の高い業種、低い業種はどこかを調べてみたいと思います。R言語で相関係数を調べるには、cor関数を使います。 まずは、合計現状と合計先行きの相関関係を調べましょう。 相関係数は 0.918876…

景気ウォッチャー調査データと株価の分析1 - R言語で基本統計量を計算する。hist関数とplot関数も使ってみる。

今回は景気ウォッチャー調査の分析をしてみようと思います。これに加えて株価のデータも一緒に分析しましょう。 e-Stat 政府統計の総合窓口からデータを取得しました。 この2番目の「分野・業種別DI」というファイルのデータを分析します。 このファイルのデ…

消費動向調査の分析6 - R言語のaov関数とTukeyHSD関数を使って、どの年が有意に違うのかを調べる。

www.crosshyou.info の続きです。 前々回の分析で消費者態度指数は年毎に平均値が有意に違うことがわかりました。そこで今回は、どの年の平均値が有意に違うのかを調べてみましょう。 方法は、aov関数とTukeyHSD関数を使います。 早速やってみましょう。 aov…

消費動向調査データの分析5 - R言語のaov関数で季節によって消費者態度指数の平均値が違うかどうかを検定してみる。

www.crosshyou.info の続きです。 前回の分析では、月ごとの消費者態度指数には違いはありませんでした。 今回は春夏秋冬ごとに消費者態度指数に違いがあるかどうかをaov関数で分散分析してみたいと思います。 まずは、ifelse関数で春夏秋冬のカテゴリを作成…

消費動向調査データの分析4 - R言語のoneway.test関数で一元配置分散分析をしてみる。

www.crosshyou.info の続きです。今回はR言語のoneway.test関数を使って一元配置分散分析をしてみようと思います。 消費者態度指数の平均値が年毎、月ごとに違いがあるかどうかを分析します。 まず、ggplot関数を使って、年毎、月ごとの消費者態度指数を視覚…

消費動向調査データの分析3 - R言語のdplyrパッケージの主要5関数(filter, arrange, select, mutate, summarize)の練習

www.crosshyou.info の続きです。今回はdplyrパッケージの主要5関数、filter関数、arrange関数、select関数、mutate関数、summarize関数の練習をしようと思います。 まず、library(dplyr)としてパッケージを呼び込みます。 filter関数はある条件でデータを…

消費動向調査データの分析2 - R言語で箱ひげ図を作成する。2008年7月から2010年6月までの24か月は大変だった。

www.crosshyou.info の続きです。 今回は R言語で箱ひげ図を作成したいと思います。boxplot関数で簡単に箱ひげ図が描かれます。まずは、L5、物価が5%よりももっと下がると思う人の比率です。 6個の外れ値がありますね。でも、同じ値の外れ値が複数あるかも…

消費動向調査データの分析1 - R言語で基本統計量を算出する。

毎月勤労統計のデータ調査方法が間違っていたということで、政府発表の統計の信頼性が少し揺らいでいますが、いつものように政府統計の総合窓口(e-Stat)のサイトを見てみました。 「消費動向調査」というのが新着でありました。 早速クリックしてみます。 「…

JFAコンビニエンスストア統計調査月報データの分析6 - R言語で1日当りの来客数と売上を算出する。1月は暇で7月は忙しい!?

www.crosshyou.info の続きです。 今回は1日当りの来客数と売上高を計算してみたいと思います。 いままでの分析で2月は売上高、来客数ともに少なかったですが、2月は28日までしかないですからね。当たり前といえば当り前です。なので1日当りの売上高と来客数…

JFAコンビニエンスストア統計調査月報データの分析5 - R言語で2つの変数の平均を比較する

www.crosshyou.info の続きです。 今回は2つの変数の平均を比較して有意な違いがあるかどうかをR言語で検定しましょう。 まずは、全店客単価と既存店客単価を比較しましょう。summary関数で基本統計量をみてみましょう。 こうして両者を比較すると、最小値か…

JFAコンビニエンスストア統計調査月報データの分析4 - R言語で相関関係を分析

www.crosshyou.info の続きです。 今回は各変数の相関関係をR言語でみてみましょう。 まず、plot関数で散布図マトリックスをみてみましょう。 変数がいっぱいありすぎて、どれがどれだかわからないですね。。。 前年同月比のほうも作成してみます。 こちらは…

JFAコンビニエンスストア統計調査月報データの分析3 - R言語で前年同月比のデータを作成する。

www.crosshyou.info の続きです。 今回は前年同月比のデータを作成しようと思います。 前年同月比は式で表すと(今年のX月値 / 昨年のX月の値) - 1 ですね。分析で使っているデータは24か月分のデータがあって、1行目から12行目が2017年のデータ、13行目から2…

JFAコンビニエンスストア統計調査月報データの分析2 - R言語で各変数の推移を見る。12月は客単価が高くなる。

www.crosshyou.info の続きです。 今回は各変数の推移をplot関数で見てみます。 全体としては右肩上がりですが、下がっている月もありますね。 次は既存店売上高です。 一番左のプロットが2017年01月です。なので2017年02月と2018年02月の売上高が突出して少…