データ分析 2023年度 レポート課題†
大事な事柄†
- レポート課題はAとBの2段階に分かれており,それぞれに提出期限が設定されています
- 課題Aの期限: 0112金 15:00
- 課題Bの期限: 0119金 15:00
- ひとによって対象とすべきデータが異なります.自分がどのデータを使うべきかは, Classroom の課題Aの「データ割当表」というスプレッドシートで確認できます.
- 課題Aを期限までに提出しなかった場合,原則として課題Bの提出は受け付けません
データ†
ひとによって対象とすべきデータが異なります.
データ1 「年齢階級別給与額」†
政府統計の総合窓口(e-Stat) https://www.e-stat.go.jp/ から「賃金構造基本統計調査」という統計調査のデータを入手し,年齢と給与額の関係を回帰分析で調べよう.
■ データ入手法
- 「賃金構造基本統計調査」へ https://www.e-stat.go.jp/stat-search/files?page=1&toukei=00450091&tstat=000001011429
- 「■令和4年賃金構造基本統計調査」の中の「一般労働者」の中の「産業大分類」をクリック
- 「表番号1」の「EXCEL閲覧用」をクリックして Excel ファイル (1-1-1)aa1n11.xlsx を入手.入手したファイルを Excel で開く必要はない
- この課題のスプレッドシートへインポート.Excel ファイル中のすべてのシートがインポートされるが,使うのは「産業計」シートのみなので,それ以外は削除してもよい
■ データの扱い方
- 「産業計」シートの 「1,000人以上」(常用労働者数1,000人以上の企業)の「年齢」列(列L)を説明変数とし,「所定内給与額」列(列Q)を被説明変数とします.ただし,このデータでは,「大学卒」と「大学院卒」という2通りのデータで回帰分析してもらいます.
- 大学卒: 77行目から89行目までのうち,年齢階級が「20~24歳」から「55~59歳」まで
- 大学院卒: 90行目から102行目までのうち,年齢階級が「20~24歳」から「55~59歳」まで
- 「60~64歳」以上の階級を省く理由は,これらを含めて散布図を描いてみると分かります.多くの企業で60-65歳が定年であり,これ以上の年齢階級では賃金額が大きく下がっている(再雇用・再就職などによる)ケースが多いため,これ以上の階級を含めると直線を当てはめるのが適切でなくなってしまいます.
- 課題Aで散布図を描く際は,大学卒と大学院卒で別々の図を描けばokです
■ 注意
- このデータがどんなものかの詳細は,厚生労働省のページへ: https://www.mhlw.go.jp/toukei/list/chinginkouzou.html
- このデータを用いる場合,次のことをやって課題Bで提出するレポートにその内容を含めること.
- 次の定積分の値を \( a, b, x_1, x_2 \) の式で表す.
\[ 12\int_{x_1}^{x_2}(ax+b)dx
\]
- その式に回帰分析の結果を代入すれば,\( x_1 \) 歳から \( x_2 \) 歳までに得られるトータルの給与額を概算することができる.大学卒で \( x_1 = 22, x_2 = 60 \),大学院卒で \( x_1 = 24, x_2 = 60 \) として60歳までの賃金(ただし,所定内給与額から算出しているのでボーナスなどを含まない額)を比較しよう.
データ2 「極域の海氷域面積の変化」†
気象庁のサイト https://www.jma.go.jp/jma/index.html から1979年から2022年までの極域の海氷域面積のデータを入手して回帰分析しよう
■ データ入手法
- 「海氷域面積の長期変化傾向(全球)」へ https://www.data.jma.go.jp/gmd/kaiyou/shindan/a_1/series_global/series_global.html
- そのページのグラフの下の「グラフのデータ(単位:万平方キロメートル)
からファイルを入手
- 入手可能なデータの拡張子が .csv ではなく .txt となっています.ダウンロードする際は,CSV のときと同様に,ブラウザで右クリックして「リンク先を別名で保存」等しましょう
- データをこの課題のスプレッドシートへインポート.入手したファイルの拡張子は .txt ですが,ファイルの中身は CSV の形式で書かれているので, いつもと同じ様にインポートできます
■ データの扱い方
「年」を説明変数,「北極域年最小値」 (単位はデータのリンク先のところに記されています)を被説明変数としましょう.
余談: \( 0 = ax+b \) を解くと,北極域の海氷域面積の最小値が 0 になってしまう(完全に海氷が消滅する)年の推定値が出せますね.
データ3 「立ち幅跳び vs 50m走」†
2023年度「データ分析」のサイト https://www-tlab.math.ryukoku.ac.jp/wiki/?Data/2023 から体力測定のデータを入手して回帰分析しよう
■ データ入手法
以下のリンク先の CSV ファイルを入手してこの課題のスプレッドシートへインポートしましょう
https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/physical.csv
■ データの扱い方
- 「立ち幅跳び[m]」を説明変数,「50m走[s]」を被説明変数としましょう.
- これらのデータは,小中学生の体力測定の結果を表します.
課題A†
レポート課題A データを入手して回帰分析しよう
- この課題Aで分析した結果をもとに課題Bでレポートを仕上げてもらいます
- ↑の指示にしたがってデータを入手し,Google Classroom 上のこの課題のスプレッドシートにインポートしましょう.ひとによって対象とすべきデータが異なります.
- 指示された値を説明変数・被説明変数として,次のことをやりましょう
- 回帰直線の傾きと切片を計算する(セルに正しい数式を書くこと)
- 相関係数・決定係数を計算する(セルに正しい数式を書くこと)
- 説明変数を横軸,被説明変数を縦軸とする散布図を描く.
- 散布図にトレンドラインを追加する.
- ここで作成したグラフを課題Bでドキュメントに貼り付けてもらいます.
- そのつもりで,グラフの各種設定(横軸縦軸の範囲や軸タイトル等)をきちんとしましょう.
- 課題Bでは,ここで提出したものを元にしてレポートを書くことになります.この課題の提出後の修正はできないことに注意.
- 課題Bのドキュメントに課題Aで作ったグラフを貼り付けるためには,課題Aが返却されている必要があるかもしれません.課題Aは締め切り後数日で採点して返却します.返却される前に自分で取り下げてしまうと採点できません.注意してください.
上記の要件を満たしている限りは,グラフを見やすくする工夫をいろいろしてくれて構いません.
課題B†
レポート課題B 分析した内容をレポートにまとめよう
- Google Classroom 上のこの課題のドキュメントに必要な情報を書き込んでレポートに仕上げましょう.
- 課題Aの注意事項をよく読みましょう
内容に関する注意†
次のような内容を含めること.ex12練習X2 も参考になるかもしれません.
- どんなデータを対象としてどんな分析をしたのか
- 分析の結果
- レポート課題Aで作成したグラフ(グラフをコピーするのではなく,当該グラフへのリンクとすること)
- 分析によって得られた数値や式
- 結果の考察
「レポート」ですので,考察としては,データと分析結果から科学的・論理的に導かれることだけを書きましょう.感想や憶測を書くのはやめましょう.
書き方に関する注意†
- 適切なタイトルを付けること
- 氏名と学籍番号を記すこと
- 単に図や数値をならべるだけでなく,文章を使って記述すること
- このレポートは,「あなたが学んだ・調べたことを,その内容を詳しく知っている科目担当教員に伝える」ために書くものではありません.「あなたが学んだ・調べたことを,その内容を(あまり)知らないひとに向けて説明する」つもりで書いてください.
図の縦軸や横軸が何を表すかわかるようにする,数値や式がどのような意味を持つのか説明する等,必要な情報が伝わるようにしましょう.
おまけ†
おまけ05 自分で見つけたデータを回帰分析してみよう