データ分析 2025年度 レポート課題†
大事な事柄†
- レポート課題はAとBの2段階に分かれており,それぞれに提出期限が設定されています
- 課題Aの期限: 0109金 15:00
- 課題Bの期限: 0116金 15:00
- ひとによって対象とすべきデータが異なります.自分がどのデータを使うべきかは,Moodle 上で確認できます.
- 課題Aを期限までに提出しなかった場合,原則として課題Bは採点しません
データ†
ひとによって対象とすべきデータが異なります.
データ1 「年齢階級別給与額」†
政府統計の総合窓口(e-Stat) https://www.e-stat.go.jp/ から「賃金構造基本統計調査」という統計調査のデータを入手し,年齢と給与額の関係を回帰分析で調べよう.
■ データ入手法
- 「賃金構造基本統計調査」へ https://www.e-stat.go.jp/stat-search/files?page=1&toukei=00450091&tstat=000001011429
- 「■令和6年賃金構造基本統計調査」の中の「一般労働者」の中の「産業大分類」をクリック
- 「表番号1」の「EXCEL閲覧用」をクリックして Excel ファイル (1-1-1)aa1n11.xlsx を入手.入手したファイルを Excel で開く必要はない
- この課題のスプレッドシートへインポート.Excel ファイル中のすべてのシートがインポートされるが,使うのは「産業計」シートのみなので,それ以外は削除してもよい
■ データの扱い方
- 「産業計」シートの
「企業規模計(10人以上)」の「年齢」列(列D)の値を説明変数とし,「所定内給与額」列(列I)の値を被説明変数とします.ただし,このデータでは,「大学卒」と「大学院卒」という2通りのデータで回帰分析してもらいます.
- 大学卒: 区分が「男女計 大学」の箇所(男女別のデータもあるので注意)のうち,年齢階級が「20~24歳」から「55~59歳」まで
- 大学院卒: 上記のすぐ下の区分が「大学院」の箇所のうち,年齢階級が「20~24歳」から「55~59歳」まで
- 「60~64歳」以上の階級を省く理由は,これらを含めて散布図を描いてみると分かります.多くの企業で60-65歳が定年であり,これ以上の年齢階級では賃金額が大きく下がっている(再雇用・再就職などによる)ケースが多いため,これ以上の階級を含めると直線を当てはめるのが適切でなくなってしまいます.
- 課題Aで散布図を描く際は,大学卒と大学院卒で別々の図を描けばokです
■ 注意
- このデータがどんなものかの詳細は,厚生労働省のページへ: https://www.mhlw.go.jp/toukei/list/chinginkouzou.html
- このデータを用いる場合,次のことをやること:
- 年齢 \( x_1, x_2 \) [歳]の所定内給与額の推定値を \( y_1, y_2 \) [千円] とおき,回帰直線の傾きと切片を \( a, b \) とおくとき,次の式の値を \( x_1, x_2, y_1, y_2 \) で表しなさい(何も考えず積分するのはやめましょう.よく考えれば不要).
\[ 12\int_{x_1}^{x_2}(ax+b)dx \qquad (1)
\]
- 提出するスプレッドシートの main シートの適当な箇所に,次のものを計算する式を書く
- 大学卒の \( x_1 = 22, x_2 = 60 \) のときの \( y_1, y_2 \) の値
- 大学卒のデータから求めた \( a, b \) の値を用いる式(1)の値
- 大学院卒の \( x_1 = 24, x_2 = 60 \) のときの \( y_1, y_2 \) の値
- 大学院卒のデータから求めた \( a, b \) の値を用いる式(1)の値
- レポートでは,式(1)の値が何を表すのか説明し,大学卒と大学院卒のその値を比較して考察する
データ2 「世界の年平均気温の経年変化」†
気象庁のサイト https://www.jma.go.jp/jma/index.html から世界の年平均気温の偏差の経年変化のデータを入手して回帰分析しよう
■ データ入手法
- 「世界の年平均気温」へ https://www.data.jma.go.jp/cpdinfo/temp/an_wld.html
- ページを下にスクロールして「各年の数値」へ https://www.data.jma.go.jp/cpdinfo/temp/list/an_wld.html
- 「数値ファイル(CSV形式)」から CSV ファイル an_wld.csv を入手
- データをこの課題のスプレッドシートへインポート.
■ データの扱い方
- 「年」列を説明変数,「世界全体」列を被説明変数とします.ただし,このデータでは,次の2通りの回帰分析を行ってもらいます
- 1891年以降の全てのデータを用いる場合
- 1971年以降のデータのみを用いる場合
- 「世界全体」列の一部の値が数値ではなく文字列扱いになり(+がついて左詰で表示されている),このあとの作業がうまくいかない場合があります.次のようにして数値に変換しましょう.
- この列を選択した状態でメニューの 「表示形式」>「数字」を選ぶと「自動」にチェックが付いているので,「数値」にチェックを付ける.+がなくなって右詰で表示されるようになればok
データ3 「50m走 vs 立ち幅跳び」†
2025年度「データ分析」のサイトから体力測定のデータを入手して回帰分析しよう
■ データ入手法
以下のリンク先の CSV ファイルを入手してこの課題のスプレッドシートへインポートしましょう
https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/physical2025.csv
■ データの扱い方
- このデータは,2024年度と2025年度の小中学生の体力測定の結果を表している.
「2024 立ち幅跳び[m]」,「2024 ソフトボール投げ[m]」,「2024 50m走[s]」という列は,2024年度のそれぞれの種目の測定値を表す.これらの列の右隣の列は,2025年度の同じ種目の測定値を表す.1行目は見出し.
- 2025年度の「50m走[s]」を説明変数,「立ち幅跳び[m]」を被説明変数としましょう.
課題A†
レポート課題A データを入手して回帰分析しよう
- この課題Aで分析した結果をもとに課題Bでレポートを仕上げてもらいます
- 「データ」に記された指示にしたがってデータを入手し,Google Classroom 上のこの課題のスプレッドシートにインポートしましょう.ひとによって対象とすべきデータが異なります.
- 指示された値を説明変数・被説明変数として,次のことをやりましょう.
- 回帰直線の傾きと切片を計算する(セルに正しい数式を書くこと)
- 相関係数・決定係数を計算する(セルに正しい数式を書くこと)
- 説明変数を横軸,被説明変数を縦軸とする散布図を描く.
- 散布図にトレンドラインを追加する.
- ここで作成したグラフを課題Bでドキュメントに貼り付けてもらいます.
- そのつもりで,グラフの各種設定(横軸縦軸の範囲や軸タイトル等)をきちんとしましょう.
- 課題Bでは,ここで提出したものを元にしてレポートを書くことになります.この課題の提出後の修正はできないことに注意.
- 課題Bのドキュメントに課題Aで作ったグラフを貼り付けるためには,課題Aが提出されていない状態(課題Aの提出前,または高橋が課題Aの採点を終えて返却したあと)である必要があるかもしれません.課題Aは締め切り後数日で採点して返却します.
- 扱うデータによっては追加の計算などが求められている場合があるので,指示にしたがう
上記の要件を満たしている限りは,グラフを見やすくする工夫をいろいろしてくれて構いません.
課題B†
レポート課題B 分析した内容をレポートにまとめよう
- Google Classroom 上のこの課題のドキュメントに必要な情報を書き込んでレポートに仕上げましょう.
- 課題Aの注意事項をよく読みましょう
レポートの Google ドキュメントの作り方†
- Google Classroom で「レポート課題B」を開く
- 添付された Googleドキュメントの中身を編集
- レポート課題Aのグラフをこのドキュメントに貼り付ける操作は,課題Aが提出されていない状態(課題Aの提出前,または高橋が課題Aの採点を終えて返却したあと)である必要があるかもしれません.
- 完成したら提出する(期限内なら,取り下げて再編集可能)
内容に関する注意†
次のような内容を含めること.ex12練習X2 も参考になるかもしれません.
- 一番上に,適切な形式でタイトルを付け(タイトルを何とするかは自分でよく考えてね),その下に学籍番号と名前を書いてください''
- どんなデータを対象としてどんな分析をしたのか
- 分析の結果
- レポート課題Aで作成したグラフ(グラフをコピーするのではなく,当該グラフへのリンクとすること)
- 分析によって得られた数値や式
- 結果の考察
「レポート」ですので,考察としては,データと分析結果から科学的・論理的に導かれることだけを書きましょう.感想や憶測を書くのはやめましょう.
読者がレポートだけを読んで理解できるようにすること.例えば,読者が課題Aのスプレッドシートを見ないと分からないような記述はNG.
書き方に関する注意†
- 適切なタイトルを付けること
- 氏名と学籍番号を記すこと
- 単に図や数値をならべるだけでなく,文章を使って記述すること
- 回帰係数,相関係数,決定係数を記載する際は有効数字4桁と考えること(実際には,データ数が少ないものもあるためもう少し少ない桁数の方が適切ですが,この課題では練習としてどのデータでも一律4桁としましょう)
- このレポートは,「あなたが学んだ・調べたことを,その内容を詳しく知っている科目担当教員に伝える」ために書くものではありません.「あなたが学んだ・調べたことを,その内容を(あまり)知らないひとに向けて説明する」つもりで書いてください.「回帰分析とは何か」を一から詳細に説明する必要はありません(ある程度知っている前提でok).
図の縦軸や横軸が何を表すかわかるようにする,数値や式がどのような意味を持つのか説明する等,必要な情報が伝わるようにしましょう.
レポートに数式を書きたいひと向けの補足†
数式をきれいに書くことはこのレポート課題の主題ではありませんので,単純に英数字を並べて数式を表すだけでも(分かるように書いてもらえれば)okです.
しかし,せっかくだからきれいに書きたいというひとは,以下の情報を参考にするとよいでしょう.
Google ドキュメントの機能で数式を書く
メニューから「挿入」>「計算式」と選んで数式を書く.適当にググると詳しい書き方が分かるでしょう.「google ドキュメント 数式」でGoogle検索