www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別のパソコン所有数量のデータ分析6 - Rでパネルデータ分析 - 趣味・娯楽の時間とパソコン所有数量の関係

Generated by Bing Image Creator: A beautiful shiny long view of green grass field and colorful tiny flowers, photo.

www.crosshyou.info

の続きです。

今回は、仕事の平均時間や、趣味・娯楽の平均時間との関連性を調べてみましょう。

仕事の時間や、趣味・娯楽の時間がどの年に調査されたかを確認します。

となっていて、1981年から2016年まで5年ごとの調査です。

パソコン所有数量の調査年は、

となっていて、1984年から2014年までの5年ごとの調査です。

なので、仕事の平均時間、趣味・娯楽の平均時間の調査年を2年ずらして、1986年の調査を1984年のパソコン所有数量の調査に対応しましょう。

2年year_codeをずらしました。そうしたら、前回と同じ要領でパソコン所有数量のデータと合体させます。

散布図を描いておおまかな関係を把握しておきましょう。

仕事の平均時間が長いとパソコン所有数量は若干少なくなる感じですね。

趣味・娯楽の時間との関係をみます。

趣味・娯楽の時間が長いとパソコン所有数量も多いという関係のようです。

それでは、パネルデータ分析をしましょう。まずは、pdata.frameでパネルデータフレームに変換します。

n = 47, T = 7, N = 47 * 7 = 329 のバランスドパネルです。

今回も前回と同じように、プーリング法、First Difference法、Fixed Effect法で

pc = β0 + β1 * work + β2 * hobby + yearダミー + 都道府県特有値 + u のモデル式の係数を推計します。

stargazer()関数で3つの推計結果を比較してみます。

workの係数をみると、プーリング法、とFIrst Difference法は有意な値ではありませんでしたが、Fixed Effect法では1.046で統計的に有意な係数でした。仕事の平均時間が長いとパソコン所有数量が増加する、ということですね。

hobbyの係数を見ると、First Difference法では統計的に有意な値ではありませんでしたが、プーリング法、Fixed Effectでは有意な値でした。Fixed Effect法だと係数は5.5なので、趣味・娯楽の時間が1分長いと千世帯当たりのパソコン所有数量が5.5台多くなる、ということです。1時間長いと300台以上多くなるということですから、けっこう影響ありますね。

今回は以上です。

初めから読むには、

www.crosshyou.info

です。

都道府県別のパソコン所有数量のデータ分析5 - Rでパネルデータ分析 - 大学・大学院卒者の割合とパソコン所有数量の関係

Generated by Bing Image Creator: A long quiet and joyful view of blue morning   glory flowers and red rose flowers.  

www.crosshyou.info

の続きです。

前回は1人当たり県民所得とパソコン所有数量の関係をパネルデータ分析の手法で調べてみました。今回は、大学・大学院卒者の割合との関係を調べてみましょう。

まず、パソコン所有数量のデータと大学・大学院卒者の割合のデータが揃っているデータフレームを作成します。

あれ!、両方のデータが揃っている調査年は無いのですね。

それでは、それぞれの調査年を確認してみましょう。

これを見ると、pcの1989年とeducの1990年、pcの1999年とeducの2000年、pcの2009年とeducの2010年を対応させるのがよさそうですね。

ちょっとやってみましょう。

このようにeducがある年だけのデータフレームを作成して、このyear_codeを1引いてやればpcの調査年と一致します。

このデータフレームをpcだけのデータフレームとをinner_join()関数で合体させます。

散布図を描いてみましょう。

調査年によってパソコン所有数量に違いがありますが、大学・大学院卒者の割合が大きいほどパソコン所有数量が多いという関係は変わらない感じです。

year_codeをファクター型にしてから、pdata.frame()関数でパネルデータフレームにします。

pdim()関数でパネルデータフレームの構造を確認しています。n = 47, T = 3, N(n * T) = 141のバランスドパネルデータです。

前回と同じように、plm()関数でプーリング法、First Difference法、Fixed Effect法の3種類で pc = β0 + β1 * educ + β2 * year + u というモデル式のβを推計してみましょう。

今回は年のダミーを加えました。

stargazerパッケージで3つの方法の推計結果を表にしてみます。

educの係数の推計結果をみると、3つの方法全てで統計的に有意に0とは違う、という結果になってます。

First Differnece法だと67.5で、Fixed Effect法だと71.2という値です。

大学・大学院卒者の割合が1パーセントポイント上昇すると、千世帯当たりのパソコン所有数量が70台ぐらい増える、100世帯だと7台ぐらい増える、というかなり大きな影響があることがわかりました。

今回は以上です。

次回は

www.crosshyou.info

です。

 

初めから読むには、

www.crosshyou.info

です。

都道府県別のパソコン所有数量のデータ分析4 - Rでパネルデータ分析 - 1人当たり県民所得とパソコン所有数量の関係

Generated by Bing Image Creator: A beautiful long and quiet view of cherry blossoms and rape blossoms from afar
Landscape photo

www.crosshyou.info

の続きです。

今回はパネルデータ分析の手法で1人当たり県民所得とパソコン所有数量の関係を調べてみましょう。まず、plmパッケージの読み込みをします。

前回のブログで作成した、df_shotokuのデータフレームをパネルデータフレームに変換します。

pdata.frame()関数で普通のデータフレームをパネルデータフレームに変換します。

pdata.frame()関数でパネルデータフレームに変換したあと、pdim()関数でその構造を確認しています。n = 47, 都道府県は47ですね、T = 3, 調査年は2004年、2009年、2014年の3か年ですね、N = 142は、47 * 3 = 147 ということです。

パネルデータフレームを作成してしまえば、あとは簡単にplm()関数で回帰分析ができます。

はじめは、プーリング法といってパネルデータとして扱わないで普通のデータとして扱って回帰分析してみます。

model = "pooling" とするとプーリング法です。

summary()関数で結果をみてみます。

shotokuの係数は0.22で統計的に有意に0とは違います。1人当たり県民所得が1千円上昇すると、千世帯当たりのパソコン所有数量が0.22台増加する、という関係です。

次は、First Differenceという方法でやってみます。model = "fd"とします。

結果をみてみます。

shotokuの係数は-0.023とわずかに負の値です。だけれども、統計的に有意にゼロとは違わないです。解釈としては、1人当たり県民所得はパソコン所有数量とは関連性が無い、ということです。

First Difference法というのは、もともと頭の中に

パソコン所有数量it = β0 + β1 * 1人当たり県民所得it + 都道府県特有値i + 誤差項it

というモデルがあって、これを推定しよう、というものです。

i は都道府県を表す添え字で、t は調査年を表す添え字です。

都道府県特有値というのは、調査年が変わっても変化しない値です。

そして、この都道府県特有値をなくすために、t と t-1の差分を取ります。

Δパソコン所有数量it = パソコン所有数量it - パソコン所有数量it-1

です。パソコン所有数量は

tのときは、β0 + β1 * 1人当たり県民所得it + 都道府県特有値i + 誤差項it

t-1のときは、β0 + β1 * 1人当たり県民所得it-1 + 都道府県特有値i + 誤差項it-1

です。上の式から下の式を引くと、都道府県特有値がなくなって

β1 * Δ1人当たり県民所得it + Δ誤差項it

となります。

つまり、

Δパソコン所有数量it = β1 * Δ1人当たり県民所得it + Δ誤差項it

としてβ1を推定しています。

First Difference法と似た方法でFixed Effect法というのがあります。この方法でもβ1を推定してみましょう。model = "whitin"とします、

summary()関数で結果をみてみます。

shotokuの係数はマイナス0.058で、統計的に有意に0とは違わないです。

Fixed Effect法による推定でも1人当たり県民所得はパソコン所有数量とは関連性は無い、という結果になりました。

1人当たり県民所得 >> パソコン所有数量

という関係ではないようです。

これは、下のグラフ

を見ると納得かと思います。

右下のピンクが2004年の所得とパソコン所有数量で、これが左の2009年の位置に移動します。つまり所得は減っているけど、パソコン所有数量は増えています。そして右上の2014年の青丸に移動します。所得が増えて、パソコン所有数量も増えた、ということです。所得が減っても増えても、年が経過してパソコン所有数量が増えている、ということですね。

今回は以上です。

次回は、

www.crosshyou.info

です。

 

初めから読むには、

www.crosshyou.info

です。

読書記録 - 「感染症の歴史学」 飯島 渉 著 (岩波新書)

この本では、新型コロナウィルス、天然痘、ペスト、マラリアの4つの感染症について社会がどのように対応してきたのか、を医史学(医学史)の観点から描いています。

医史学という学問分野があることを知りませんでしたので、こういう学問分野があるということを知っただけでもよかったです。

ペストは日本では、ほとんどなかったがマラリアは度々流行していたこと、滋賀県は琵琶湖があったのでマラリアの媒介の蚊が発生しやすかったこと、天然痘についてはジェンナーが種痘をする前から人痘といって天然痘に感染した人のかさぶたなどを鼻から吸収させるような予防法が行われていたことなど知らないことがいっぱいでした。

今回の新型コロナウィルスの事象に限ったことではないですが、このような社会事象をどのようにして後世に伝えていくのか、何を記録していくのかなど難しい問題だと思いました。

都道府県別のパソコン所有数量のデータ分析3 - Rのlm()関数で回帰分析。所得や大学・大学院卒者の割合、趣味・娯楽の時間が大きいほど、パソコン所有数量も大きい。

Generated by Bing Inage Creator: flower of Lysichiton camtschatcensis schott, photo

www.crosshyou.info

の続きです。今回は回帰分析でパソコン所有数量が1人当たり県民所得などの変数と関連があるかを調べてみます。

まず、前回と同じように各変数の調査年が一致していないので、平均値のデータフレームを作成します。

各変数間の相関係数をみてみます。

pc_meanを被説明変数、その他を説明変数にして回帰分析をしようと思いますが、雪面変数どうしで一番相関があるのは、一人当り県民所得と大学・大学院卒者の割合で、0.701です。このぐらいの相関ならば、多重共線性の影響は大きくはないでしょう。

lm()関数で回帰分析をしてみます。

summary()関数で結果をみてみます。

所得、大学・大学院卒者の割合、趣味・娯楽の時間が増加するとパソコン所有数量が増加する、という結果です。

shotoku_meanの係数は、0.06125なので、1人当たり県民所得が1千円増加すると、千世帯当たりのパソコン所有数量が0.06125台増加です。つまり、1人当たり県民所得が10万円増加すると、千世帯当たりのパソコン所有数量が6.1台増加するということです。

educ_meanの係数は、10.76317なので、大学・大学院卒者の割合が1%増加すると、千世帯当たりのパソコン所有数量が10.8台増加するということです。かなり大きな値のように思います。

hobby_meanの係数は、7.56496です。趣味・娯楽の時間が1分増加すると、千世帯当たりのパソコン所有数量が7.6台増加するということです。これもかなり大きな値のように思います。

上の回帰分析は、複数年のデータを都道府県別に平均値をとって分析をしたものでした。

続いて、平均値をとらないで、個々の年のデータで分析してみます。

まず。shotokuに注目してみましょう。pcとshotokuのデータである年だけのデータフレームを作成します。

散布図を描いてみます。

パソコン所有数量と1人当たり県民所得のデータがあった年は、2004年、2009年、2014年の3年でした。いずれの年でも、1人当たり県民所得が大きいほうがパソコン所有数量も大きいようです。

今回は以上です。

次回は、

www.crosshyou.info

です。

 

初めから読むには、

www.crosshyou.info

です。

都道府県別のパソコン所有数量のデータの分析2 - Rのggplot2パッケージでデータを視覚化して全体像をとらえる。

Generated by Bing Image Creator: Lavender Field photo, with blue sky and white clouds in the background

www.crosshyou.info

今回のポストは上のポストの続きです。前回はデータをRに取り込むところまでやりました。今回はデータを視覚化してみましょう。

pc: 千世帯当たりのパソコン所有数量が経年でどのように変化してきたかをみてみましょう。

だんだんとパソコン所有数量が増加していることがわかります。

同じように、shotoku: 県民一人当り所得もグラフにします。

所得は横ばいですね。

次は、educ:大学・大学院卒者の割合です。

大学・大学院卒者の割合が年々上昇していることがわかります。

次は、work:有業男子の仕事時間です。

仕事の平均時間は年々短くなっています。

hobby:趣味・娯楽の時間はいかがでしょうか?

趣味・娯楽の時間は長くなっています。

次はパソコン所有数量と他の変数の相関を散布図で見てみましょう。変数によって調査年に違いがあるので、おおまかな関係性をつかむということで、都道府県別の平均値でみてみましょう。

まずは、1人当たり県民所得の散布図です。

所得が多いとパソコン所有数量も多いという正の相関関係があるようです。

大学・大学院卒者の割合とはいかがでしょうか?

大学・大学院卒者の割合が高いほど、パソコン所有数量が多いという正の相関です。

仕事の平均時間との関係はどうでしょうか?

あまり関係はないような散布図となりました。わずかに負の相関、という感じでしょうか?

最後は趣味・娯楽の時間との関係です。

趣味・娯楽の時間が長いほうがパソコン所有数量が多いという正の相関があるようです。

今回のデータの視覚化でわかったことは、

パソコンの所有台数、大学・大学院卒者の割合、趣味・娯楽の時間は年々増加、1人当たり県民所得は横ばい、仕事の時間は年々減少。

パソコン所有数量と1人当たり県民所得、大学・大学院卒者の割合、趣味・娯楽の時間は正の相関、仕事の時間はわずかに負の相関ということでした。

今回は以上です。

次回は、

www.crosshyou.info

です。

初めから読むには、

www.crosshyou.info

です。

 

読書記録 - 「戦後世界経済史 自由と平等の視点から」 猪木 武徳 著 (中公新書)

2009年に出版された本です。

自由と平等の視点から、という副題にあるように、自由と平等という相反することをどのように両立させていくかが難しいけれども大事なことだと感じました。

戦後からの歩みを見ると、全体としては人間社会は良くなってきていると感じました。もちろん、北朝鮮やジンバブエなどのように個々の国レベルでは酷いところもあります。

市場で価格が決定されることが経済社会ではとても大切で、社会主義国家は価格が市場で決まらないことがダメだったと思いました。

また、教育というか倫理、道徳の発展が経済の発展には重要だと思いました。