crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

データ分析

植生自然度のデータ分析1 - 市街地の割合が一番高いのは大阪府、一番低いのは高知県。

今回はe-Stat(政府統計の総合窓口)から取得した、全国の植生自然度のデータを分析しようと思います。 これがe-Statのサイトの画像ですね。このデータをダウンロードすると、 こうなります。9行目は私が挿入した変数名です。 そもそも、植生自然度ってなんで…

人口の推移と株価の関係の分析4 - 埼玉県が人口増加率1位、秋田県が減少率1位。各都道府県の人口増加や男性比率、日本人比率の変化を調べる。

www.crosshyou.info の続きです。 今回は、人口の伸び率上位・下位、男性比率変化幅の上位・下位、日本人比率変化幅の上位・下位の国を調べようと思います。 まずは、作業用のデータがどんなだったか、確認します。R言語のsummary関数を使います。 Yaer1は19…

人口の推移と株価の関係の分析3- 株価と西暦、総人口、男性比率、日本人比率をR言語のlm関数で重回帰分析する。

www.crosshyou.info の続きです。 今回はメインタイトルどおり、人口の推移と株価の関係を分析してみようと思います。 まずは、全国の総人口と男性比率と日本人比率、この3つの説明変数と株価の関係を分析してみたいと思います。 まず、分析用のデータフレー…

東証一部の規模別・業種別PERとPBRのデータの分析10 - PERを利益、資産、時間軸で重回帰分析する

www.crosshyou.infoの続きです。 今回はPERを利益、資産、時間軸で重回帰分析したいと思います。 参考書籍は Statistics: An Introduction Using R 作者: Michael J. Crawley 出版社/メーカー: Wiley 発売日: 2014/11/24 メディア: ペーパーバック この商品…

人口の推移と株価の関係の分析2 - 神奈川県は男性比率が高く、長崎県は低い。東京都は外国人比が高く、徳島県は低い

www.crosshyou.info の続きです。 今回は各都道府県の男女比率、日本人比率を見てみようと思います。 まず、前回作成したワーキングデータ(wd)のサマリーを確認します。 summary関数です。 今回は、男女比率(M/F)と日本人比率(J/T)を計算して、大きい順、小…

人口の推移と株価の関係の分析1 - R言語でデータの整理(subset関数やmerge関数)

e-Stat(政府統計の総合窓口)のレイアウトが令和になって変更になりました。 今回は右下の「地域」をクリックしてみます。 クリックすると、上図のような画面になります。データ表示をクリックしてみます。 都道府県別の人口を選択して、データを表示します。…

東証一部の規模別・業種別PERとPBRのデータの分析9 - R言語で1社当たりのIncomeとNetAsset

www.crosshyou.info の続きです。 今回は1社当たりのIncomeとNetAssetの推移を調べてみます。まずは1社当たりのIncome, NetAssetの変数を作成します。 MedianとMeanの値が離れていますね。単位は億円なので、最大の赤字が865億円、最大の黒字が2576億円、平…

東証一部の規模別・業種別PERとPBRのデータの分析8 - R言語で時系列チャートを作成

www.crosshyou.info の続きです。 今回は、YearとMonthを合わせて、Timeという変数を作ろうと思います。 というのもstr関数でおおもとのデータフレーム、dfを確認すると、 となっていて、YearとMonthが別々になっているので、横軸を時間にして縦軸をPBRとか…

東証一部の規模別・業種別PERとPBRデータの分析7 - R言語でヒストグラムを描く

www.crosshyou.info の続きです。 今回は33業種別のデータで、各変数のヒストグラムを描いてみます。 head関数で基になるデータフレームの始めの15行を表示します。 33業種はLevelが5ですから、まずLevelが5だけのデータフレームを作成します。 まずは、Numb…

国民経済計算四半期GDP速報データの分析6 - R言語で株価の騰落率とGDPデータの重回帰分析をしてみる。

www.crosshyou.info の続きです。 前回は、株価の騰落率とNetExpo(純輸出)で線形単回帰分析をしてみましたが、NetExpoだけでは株価の騰落率を説明することは難しいことがわかりました。そこで今回は、他の変数も加えて、重回帰分析をしてみようと思います。 …

国民経済計算四半期GDP速報データの分析5 - R言語で株価、株価の騰落率とGDPデータの相関を調べる。

www.crosshyou.info の続きです。 今回は、株価、株価の騰落率とGDPデータの相関係数を調べてみようと思います。 相関係数はcor関数でわかります。 soukan <- の行で、株価とGDPの各データの相関係数を計算しています。round関数で小数点以下3桁までにして…

国民経済計算四半期GDP速報データの分析4 - R言語で各変数のヒストグラムとグラフを作成する。

www.crosshyou.info の続きです。 前回まではGDPと株価しかみていませんでしたが、データには、民間最終消費支出や、民間企業設備など様々な変数がありますから、それらを見ていきましょう。 まずは、names関数で変数名を確認します。 MinShouhiは民間最終消…

国民経済計算四半期GDP速報データの分析3 - R言語でGDPと株価のチャートをつくる(その2)

www.crosshyou.info の続きです。 四半期ごとの株価のデータを景気動向指数の先行系列のデータから取得できたので、その株価データとGDPのデータをくっつけてチャートを作成したいと思います。 このような株価のCSVファイルです。Kbuka-1Yは、1年後にどれだ…

国民経済計算四半期GDP速報データの分析2 - R言語で株価のデータをくっつけて、GDPと株価のチャートを作る。

www.crosshyou.info の続きです。 株価のデータを前回作成したデータフレームにくっつけようと思います。 1994年から2018年末までの株価のデータを探したら、日本取引所グループのウェブサイトに株価の長期時系列のファイルがありました。 こういうファイル…

国民経済計算四半期GDP速報データの分析1 - R言語のread.csv関数でデータを読み込み、分析しやすいようにデータを整える。

今回は、国民経済計算四半期GDP速報のデータをR言語のread.csv関数で読み込んでみたいと思います。 https://www.e-stat.go.jp/dbview?sid=0003109741 このサイトからファイルをダウンロードしました。 こういうファイルです。13行目だけ私が英語の変数名を付…

商業統計調査データの分析5 - R言語のstep関数で回帰モデルの最適な変数を選ぶ。

www.crosshyou.info の続きです。 まずは、str関数でデータを確認しましょう。 まず、Yearが何年からあるか確認します。table関数を使います。 1988年から始まって、3年ごとに2012年までの7つの年のデータがあります。 一つの年で、77のデータがあるというこ…

商業統計調査データの分析4 - R言語で法人と個人の事業所の割合を比較する。

www.crosshyou.info の続きです。 今回は、R言語で法人の事業所の割合と個人の事業所の割合を出して、経年変化をみてみたいと思います。 まずは、もとになるデータをhead関数とsummary関数で確認しましょう。 このようなデータです。Corp_Totalが法人と個人…

商業統計調査データの分析3 - R言語で一人当り売上高と売場面積当り売上高を調べる

www.crosshyou.info の続きです。 今回は、一人当りの売上高と売場面積当りの売上高を調べてみようと思います。 まずは、基本のデータをhead関数で確認しましょう。 このようなデータでした。Staffが従業者数で、Revenueが売上高、Spaceが売場面積です。 Rev…

商業統計調査データの分析2 - R言語で1988年と2012年を比較して、伸びている業種、縮小している業種を調べる。

www.crosshyou.info の続きです。 今回は1988年と2012年のデータを比較して、どの業態が伸びているのか縮小しているのかを調べてみたいと思います。 まずは、全体のデータから1988年だけのデータを抜き出します。 次に、Yearの列を削除します。 そして、Corp…

商業統計調査データの分析1 - R言語で規模の小さい業種はどこか調べる。

今回は、商業統計調査のデータを分析したいと思います。 商業統計は、卸売業、小売業を営む民営の事業所を対象とする統計調査で、概ね5年ごと(経済センサス-活動調査の2年後)に実施されます。商業統計調査では、産業別、従業者規模別、地域(都道府県や市区…

東証一部の規模別・業種別PERとPBRデータの分析6 - R言語で33業種別のデータ分析

www.crosshyou.info の続きです。 今回は33業種別のデータを分析しようと思います。33業種はLevelは5ですので、Levelが5だけのデータフレームを作成します。 Levelの列は3番目なので、これを削除します。 TypeにTotalやLargeのようないらないファクタ水準が…

東証一部の規模別・業種別PERとPBRデータの分析5 - R言語で製造業と非製造業を分析

www.crosshyou.info の続きです。 今回は、製造業と非製造業でPERとPBRを比べてみたいと思います。 まずは、製造業と非製造業のLevelを確認しましょう。 Manuf(製造業)と非製造業(NonManuf)はLevelは4ですね。早速、Level4だけのデータフレームを作成しまし…

東証一部の規模別・業種別PERとPBRデータの分析4 - R言語のlm関数で回帰分析

www.crosshyou.info の続きです。 今回は、TotalexFn, 金融を除いた全体のデータを見てみましょう。 まずは、データフレームの始めの10行を表示して、TotalexFnのLevelを確認しましょう。head関数を使います。 TotalexFnのLevelは3ですね。絞り込みます。 Le…

東証一部の規模別・業種別PERとPBRデータの分析3 - R言語で規模別のPERに有意な違いがあるかを見る

www.crosshyou.info の続きです。 前回は全体のPERとPBRを見てみました。今回は規模別のPERやPBRを見てみましょう。まずは、作業しやすいように、規模別のデータだけに絞り込みます。 まず、head関数でデータフレームのはじめの数行を表示しましょう。 規模…

東証一部の規模別・業種別PERとPBRデータの分析2 - R言語で一部全体のPERとPBRの推移をみる

www.crosshyou.info の続きです。 前回は2013年から2019年の2月だけのデータしかCSVファイルにしませんでしたが、その後、地道な作業をして(本当はR言語でプログラムを組んで簡単にファイルを東証のウェブから取り込みたかった。)、2013年1月から2019年2月ま…

東証一部の規模別・業種別PERとPBRデータの分析1 - R言語にデータを読み込む。aggregate関数の練習

今回は、東証一部の規模別・業種別のPERとPBRのデータを分析したいと思います。 https://www.jpx.co.jp/markets/statistics-equities/misc/04.html このサイトからデータのエクセルファイルを取得しました。 こういうファイルです。2013年から2019年の2月末…

社会生活基本調査データの分析5 - R言語のlm関数で年齢を他の変数で回帰分析する。poly関数も使ってみた。

www.crosshyou.info の続きです。 今回は、R言語のlm関数を使って、年齢を他の変数で回帰分析してみようと思います。 まず、年齢はどういうデータだったか確認です。 12歳から始まって5歳ずつ増えて77歳までです。男性と女性があるので2回ずつ出現しています…

社会生活基本調査データの分析4 - R言語のcoplot関数で男女別の年齢と行動者率の散布図を描く。

www.crosshyou.info の続きです。 今回は年齢による行動の違いを見てみようと思います。 まずは、年齢がどういう区分で分かれているかを確認しましょう。R言語のstr関数とtable関数で確認します。 14のファクタに分かれています。1014yというのは10歳から14…

社会生活基本調査データの分析3 - R言語のboxplot関数で男性と女性の行動の違いを見る。

www.crosshyou.info の続きです。 今回はR言語のboxplot関数で男性と女性の行動の違いを見てみましょう。 まず、どういうデータフレームだったか、str関数で確認します。 このような観測数が28, 変数が16のデータフレームでした。 R言語のboxplot関数で箱ひ…

社会生活基本調査データの分析2 - R言語のhist関数で各変数の分布を確認する。家政・家事の行動者率は二極化している。

www.crosshyou.info の続きです。 今回は、各変数の分布を確認します。 まずは、str関数で各変数を確認しましょう。 観測は28, 変数は16, のデータフレームです。SexとAgeがファクターで、その他は数値データです。 Sample_size, これは、実際に調査した人数…