Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

社会生活基本調査データの分析2 - R言語のhist関数で各変数の分布を確認する。家政・家事の行動者率は二極化している。

 

www.crosshyou.info

 の続きです。

今回は、各変数の分布を確認します。

まずは、str関数で各変数を確認しましょう。

f:id:cross_hyou:20190316100108j:plain

観測は28, 変数は16, のデータフレームです。SexとAgeがファクターで、その他は数値データです。

Sample_size, これは、実際に調査した人数ですね。summary関数で平均値等を出して、hist関数でヒストグラムを描きましょう。

f:id:cross_hyou:20190316101215j:plain

f:id:cross_hyou:20190316101227j:plain

平均値は、6403人です。ヒストグラムでも、6000~8000のところが一番多いですね。

 

次は、Populationです。これは、日本の推定人口で1000人単位です。

f:id:cross_hyou:20190316101641j:plain

f:id:cross_hyou:20190316101655j:plain

Sample_sizeと似た形のヒストグラムです。平均は4046(千人)です。

 

次は、Totalです。これは、Total以下の各行動過去1年間にした人の割合です。行動者率(%)というそうです。

f:id:cross_hyou:20190316103442j:plain

f:id:cross_hyou:20190316103454j:plain

平均は38.86%です。最小が20.30%です。どこかの世代では8割の人がこれから列挙する行動を過去1年間に一回もしていない、ということですね。35%~40%のところが一番多く、次が50%~55%のところです。双峰型のヒストグラムですね。

 

ここからは、各具体的な行動です。まずは、Foreign_languagesです。外国語の学習です。

f:id:cross_hyou:20190316104225j:plain

f:id:cross_hyou:20190316104237j:plain

平均値は、14.80%でした。

 

次は、English_languageです。英語学習ですね。

f:id:cross_hyou:20190316104602j:plain

f:id:cross_hyou:20190316104614j:plain

平均値は、13.689%でした。外国語全部の平均が、14.80%でしたから、ほとんど英語学習だとわかります。

Other_foreign_languagesをみましょう。

f:id:cross_hyou:20190316105137j:plain

f:id:cross_hyou:20190316105150j:plain

平均値は、3.839%です。外国語学習の平均値は、14.80%, 英語学習の平均値は、13.689%です。英語学習の平均値の13.689%とその他外国語学習の平均値の3.839%と合わせると、17.528%と外国語学習の14.80%よりも大きいですから、14.80%と17.528%の差、2.7%ぐらいの人は英語とその他の外国語も学習している、ということになりますね。

 

次は、Commerce_and_business_totalです。これは、商業実務・ビジネス関係とパソコンなどの情報処理を合わせた行動者率です。

f:id:cross_hyou:20190316110249j:plain

f:id:cross_hyou:20190316110324j:plain

平均値は、17.12%でした。外国語学習よりも高いですね。

 

次は、Computing_etcです。パソコンなどの情報処理です。

f:id:cross_hyou:20190316110630j:plain

f:id:cross_hyou:20190316110642j:plain

平均値は、13.40%でした。

 

次は、Commerce_and_businessです。商業実務・ビジネス関係です。

f:id:cross_hyou:20190316110957j:plain

f:id:cross_hyou:20190316111016j:plain

平均値は、7.529%です。パソコンなどの情報処理のほうが高いですね。ヒストグラムのかたちは、左右と真ん中に峰があるかたちです。

次は、Caringです。これは介護です。

f:id:cross_hyou:20190316111432j:plain

f:id:cross_hyou:20190316111452j:plain

平均値は、3.557% でした。

次は、Home_economics_and_houseworkです。これは、家政・家事(料理、裁縫、家庭経営など)です。

f:id:cross_hyou:20190316112045j:plain

f:id:cross_hyou:20190316112057j:plain

平均値は、11.625%ですが、ヒストグラムで見ると、その平均値近辺が一番度数が少なく、左右に分かれています。二極化ですね。

次は、Humanities_social_and_natural_scienceです。人文・社会・自然科学(歴史・経済・数学・生物など)です。

f:id:cross_hyou:20190316112858j:plain

f:id:cross_hyou:20190316112911j:plain

平均値は、9.475%でした。

次は、Arts_and_cultureです。芸術・文化です。

f:id:cross_hyou:20190316113441j:plain

f:id:cross_hyou:20190316113452j:plain

平均値は、12.221%でした。

最後は、Other, その他です。

f:id:cross_hyou:20190316113800j:plain

f:id:cross_hyou:20190316113835j:plain

平均値は、8.929%でした。

これで行動者率の平均値とヒストグラムを全部調べました。Home_economics_and_houseworkが二極化しているのがわかりました。

今回は以上です。

次回は

 

www.crosshyou.info

 

です。

参考までに、今回のR言語のコマンドを記載しておきます。


# str関数で各変数を確認
str(dfnew)

# Sample_sizeのsummaryとヒストグラム
summary(dfnew$Sample_size)
hist(dfnew$Sample_size)

# Populationの基本統計量とヒストグラム
summary(dfnew$Population)
hist(dfnew$Population)

# Totalの基本統計量とヒストグラム
summary(dfnew$Total)
hist(dfnew$Total)

# Foreign_languagesの基本統計量とヒストグラム
summary(dfnew$Foreign_languages)
hist(dfnew$Foreign_languages)

# English_languageの基本統計量とヒストグラム
summary(dfnew$English_language)
hist(dfnew$English_language)

# Other_foreign_languagesの基本統計量とヒストグラム
summary(dfnew$Other_foreign_languages)
hist(dfnew$Other_foreign_languages)

# Commerce_and_business_totalの基本統計量とヒストグラム
summary(Commerce_and_business_total)
hist(Commerce_and_business_total)

# Computing_etcの基本統計量とヒストグラム
summary(Computing_etc)
hist(Computing_etc)

# Commerce_and_businessの基本統計量とヒストグラム
summary(Commerce_and_business)
hist(Commerce_and_business)

# Caringの基本統計量とヒストグラム
summary(dfnew$Caring)
hist(dfnew$Caring)

# Home_economics_and_houseworkの基本統計量とヒストグラム
summary(dfnew$Home_economics_and_housework)
hist(dfnew$Home_economics_and_housework)

# Humanities_social_and_natural_scienceの基本統計量とヒストグラム
summary(dfnew$Humanities_social_and_natural_science)
hist(dfnew$Humanities_social_and_natural_science)

# Arts_and_cultureの基本統計量とヒストグラム
summary(dfnew$Arts_and_culture)
hist(dfnew$Arts_and_culture)

# Otherの基本統計量とヒストグラム
summary(dfnew$Other)
hist(dfnew$Other)