データ分析 2022年度 レポート課題†
大事な事柄†
- レポート課題はAとBの2段階に分かれており,それぞれに提出期限が設定されています
- 課題Aの期限: 0113金 15:00
- 課題Bの期限: 0120金 15:00
- ひとによって対象とすべきデータが異なります.以下の「データ」の項の説明を確認してください.
- 課題Aを期限までに提出しなかった場合,課題Bの提出は受け付けません
Google Classroom 上の Data2022 コースの「レポート課題」
データ†
ひとによって対象とすべきデータが異なります.
自分がどのデータを使うべきかは, Classroom の課題Aの「データ割当表」というスプレッドシートで確認できます.
データ1 「年齢階級別給与額」†
政府統計の総合窓口(e-Stat) https://www.e-stat.go.jp/ から「賃金構造基本統計調査」という統計調査のデータを入手し,年齢と給与額の関係を回帰分析で調べよう.
データ入手法
- 「賃金構造基本統計調査」へ https://www.e-stat.go.jp/stat-search/files?page=1&toukei=00450091&tstat=000001011429
- 「■令和3年賃金構造基本統計調査」の中の「一般労働者」の中の「産業大分類」をクリック
- 「表番号1」の「EXCEL閲覧用」をクリックして Excel ファイル (1-1-1)aa1n11.xlsx を入手
- 入手したファイルを Microsoft Excel で開き,「産業計」シートが選択されている状態で,「ファイル」>「名前を付けて保存」.
「ファイル形式」として「CSV UTF-8 (コンマ区切り)(.csv)」を選択して保存(UTF-8でない方を選ぶと文字コードが違うせいでインポートした際に文字化けします).
※ 上記の手順の代わりに,Excel ファイルを直接インポート(全てのシートがインポートされる) → 「産業計」シートを使う,とすることもできます.
データの扱い方
- インポートしたシートの 「1,000人以上」(常用労働者数1,000人以上の企業)の「年齢」列(列K)を説明変数とし,「所定内給与額」列(列P)を被説明変数とします.ただし,このデータでは,「大学卒」と「大学院卒」という2通りのデータで回帰分析してもらいます.
- 大学卒: 77行目から89行目までのうち,年齢階級が「20~24歳」から「55~59歳」まで
- 大学院卒: 90行目から102行目までのうち,年齢階級が「20~24歳」から「55~59歳」まで
- 「60~64歳」以上の階級を省く理由は,これらを含めて散布図を描いてみると分かります.多くの企業で60-65歳が定年であり,これ以上の年齢階級では賃金額が大きく下がっている(再雇用・再就職などによる)ケースが多いため,これ以上の階級を含めると直線を当てはめるのが適切でなくなってしまいます.
- インポートしたデータが大きいので,必要な値だけを別に作ったシートにコピー&ペーストして使っても構いません.ただし,元のシートは削除しないこと.
- 課題Aで散布図を描く際は,大学卒と大学院卒で別々の図を描けばokです
- 回帰直線も当然別々に求めることになります
余談
- このデータがどんなものかの詳細は,厚生労働省のページへ: https://www.mhlw.go.jp/toukei/list/chinginkouzou.html
- 得られた1次関数を \( y = ax+b \) とするとき,\( \int_{x_1}^{x_2}(ax+b)dx \) の値を求めると,\( x_1 \) 歳から \( x_2 \) 歳までに得られるトータルの賃金の推定値(いい加減な推定の仕方ですが)が求まります.大学卒で \( x_1 = 22, x_2 = 60 \),大学院卒で \( x_1 = 24, x_2 = 60 \) とかすると,22歳大学卒と24歳大学院卒(修士課程修了)との生涯賃金を比較できるでしょう.
データ2 「極域の海氷域面積の変化」†
気象庁のサイト https://www.jma.go.jp/jma/index.html から1979年から2021年までの極域の海氷域面積のデータを入手して回帰分析しよう
余談: \( 0 = ax+b \) を解くと,北極域の海氷域面積の最小値が 0 になってしまう年の推定値が出せますね.
データ3 「駅からの所要時間 vs 家賃額」†
「データ分析」のサイト https://www-tlab.math.ryukoku.ac.jp/wiki/?Data/2022 から家賃のデータを入手して回帰分析しよう
課題A†
レポート課題A データを入手して回帰分析しよう
- この課題Aで分析した結果をもとに課題Bでレポートを仕上げてもらいます
- ↑の指示にしたがってデータを入手し,Google Classroom 上のこの課題のスプレッドシートにインポートしましょう.ひとによって対象とすべきデータが異なります.
- インポートしたシートの名前は変えても構いません.なんのデータかわかるようなものにしましょう
- 指示された値を説明変数・被説明変数として,次のことをやりましょう
- 回帰直線の傾きと切片を計算する(セルに正しい数式を書くこと)
- 相関係数・決定係数を計算する(セルに正しい数式を書くこと)
- 説明変数を横軸,被説明変数を縦軸とする散布図を描く.
- 散布図にトレンドラインを追加する.
- ここで作成したグラフを課題Bでドキュメントに貼り付けてもらいます.
- そのつもりで,グラフの各種設定(横軸縦軸の範囲や軸タイトル等)をきちんとしましょう.
上記の要件を満たしている限りは,グラフを見やすくする工夫をいろいろしてくれて構いません.
- 課題Bではここで提出したものを元にしてレポートを書くことになります.この課題の提出後の修正はできないことに注意.
課題B†
レポート課題B 分析した内容をレポートにまとめよう
Google Classroom 上のこの課題のドキュメントに必要な情報を書き込んでレポートに仕上げましょう.
内容に関する注意†
次のような内容を含めること.ex11練習2 も参考になるかもしれません.
- どんなデータを対象としてどんな分析をしたのか
- 分析の結果
- レポート課題Aで作成したグラフ(グラフをコピーするのではなく,当該グラフへのリンクとすること)
- 分析によって得られた数値や式
- 結果の考察
「レポート」ですので,考察としては,データと分析結果から科学的・論理的に導かれることだけを書きましょう.感想や憶測を書くのはやめましょう.
書き方に関する注意†
- 適切なタイトルを付けること
- 氏名と学籍番号を記すこと
- 単に図や数値をならべるだけでなく,文章を使って記述すること
- このレポートは,「あなたが学んだ・調べたことを,その内容を詳しく知っている科目担当教員に伝える」ために書くものではありません.「あなたが学んだ・調べたことを,その内容を(あまり)知らないひとに向けて説明する」つもりで書いてください.
図の縦軸や横軸が何を表すかわかるようにする,数値や式がどのような意味を持つのか説明する等,必要な情報が伝わるようにしましょう.
おまけ†
おまけ09 自分で見つけたデータを回帰分析してみよう