データ分析 2023年度 レポート課題†
工事中
大事な事柄†
- レポート課題はAとBの2段階に分かれており,それぞれに提出期限が設定されています
- 課題Aの期限: 0112金 15:00
- 課題Bの期限: 0119金 15:00
- ひとによって対象とすべきデータが異なります.以下の「データ」の項の説明を確認してください.
- 課題Aを期限までに提出しなかった場合,課題Bの提出は受け付けません
データ†
ひとによって対象とすべきデータが異なります.
自分がどのデータを使うべきかは, Classroom の課題Aの「データ割当表」というスプレッドシートで確認できます.
データ1 「年齢階級別給与額」†
政府統計の総合窓口(e-Stat) https://www.e-stat.go.jp/ から「賃金構造基本統計調査」という統計調査のデータを入手し,年齢と給与額の関係を回帰分析で調べよう.
■ データ入手法
- 「賃金構造基本統計調査」へ https://www.e-stat.go.jp/stat-search/files?page=1&toukei=00450091&tstat=000001011429
- 「■令和4年賃金構造基本統計調査」の中の「一般労働者」の中の「産業大分類」をクリック
- 「表番号1」の「EXCEL閲覧用」をクリックして Excel ファイル (1-1-1)aa1n11.xlsx を入手.入手したファイルを Excel で開く必要はない
- この課題のスプレッドシートへインポート.Excel ファイル中のすべてのシートがインポートされるが,使うのは「産業計」シートのみなので,それ以外は削除してもよい
■ データの扱い方
- 「産業計」シートの 「1,000人以上」(常用労働者数1,000人以上の企業)の「年齢」列(列L)を説明変数とし,「所定内給与額」列(列Q)を被説明変数とします.ただし,このデータでは,「大学卒」と「大学院卒」という2通りのデータで回帰分析してもらいます.
- 大学卒: 77行目から89行目までのうち,年齢階級が「20~24歳」から「55~59歳」まで
- 大学院卒: 90行目から102行目までのうち,年齢階級が「20~24歳」から「55~59歳」まで
- 「60~64歳」以上の階級を省く理由は,これらを含めて散布図を描いてみると分かります.多くの企業で60-65歳が定年であり,これ以上の年齢階級では賃金額が大きく下がっている(再雇用・再就職などによる)ケースが多いため,これ以上の階級を含めると直線を当てはめるのが適切でなくなってしまいます.
- 課題Aで散布図を描く際は,大学卒と大学院卒で別々の図を描けばokです
■ 注意
- このデータがどんなものかの詳細は,厚生労働省のページへ: https://www.mhlw.go.jp/toukei/list/chinginkouzou.html
- このデータを用いる場合,次のことをやって課題Bで提出するレポートにその内容を含めること.
- 次の定積分の値を \( a, b, x_1, x_2 \) の式で表す.
\[ 12\int_{x_1}^{x_2}(ax+b)dx
\]
- その式に回帰分析の結果を代入すれば,\( x_1 \) 歳から \( x_2 \) 歳までに得られるトータルの給与額を概算することができる.大学卒で \( x_1 = 22, x_2 = 60 \),大学院卒で \( x_1 = 24, x_2 = 60 \) として生涯賃金(ただし,所定内給与額から算出しているのでボーナスなどを含まない額)を比較しよう.
データ2 「極域の海氷域面積の変化」†
気象庁のサイト https://www.jma.go.jp/jma/index.html から1979年から2022年までの極域の海氷域面積のデータを入手して回帰分析しよう
■ データ入手法
- 「海氷域面積の長期変化傾向(全球)」へ https://www.data.jma.go.jp/gmd/kaiyou/shindan/a_1/series_global/series_global.html
- そのページのグラフの下の「グラフのデータ(単位:万平方キロメートル)
からファイルを入手
- 入手可能なデータの拡張子が .csv ではなく .txt となっています.ダウンロードする際は,CSV のときと同様に,ブラウザで右クリックして「リンク先を別名で保存」等しましょう
- データをこの課題のスプレッドシートへインポート.入手したファイルの拡張子は .txt ですが,ファイルの中身は CSV の形式で書かれているので, いつもと同じ様にインポートできます
■ データの扱い方
「年」を説明変数,「北極域年最小値」 (単位はデータのリンク先のところに記されています)を被説明変数としましょう.
余談: \( 0 = ax+b \) を解くと,北極域の海氷域面積の最小値が 0 になってしまう(完全に海氷が消滅する)年の推定値が出せますね.