データ分析 2023年度 ex11†
工事中
Quiz†
授業時間中に Moodle 上でQuiz(小テスト)を行います.
開始時刻等は授業時間中にお知らせします.
Moodle へのアクセスの仕方については,第1回のページ へ
Notebookと授業動画†
今回の Notebookと授業動画 のうち「★要予習★」のものは,授業開始までに予習しているはずです.
もしもまだの場合,まずはそれらの notebook を実行し動画を視聴してください.
練習X1†
誤差と有効数字についての演習+α
- 演習問題+α に書かれた問題をやりなさい
- そこに書かれた「計算誤差の話の補足」を読んで理解しなさい
こちら からたどれる ex11notebookBanswer.md というファイルに問題の略解が書いてあります.
練習X2†
Data2022 の成績データを回帰分析しよう
Step1 散布図を描く†
- Data2022-QEvsFinal.csv をダウンロードして,Google Classroom 上のこの問題のスプレッドシートにこの授業で説明した手順でインポートしましょう
- インポートしたデータのシートには次の列があります:
- 「Quiz得点率」: Data2022 受講者の Quiz の得点率(百分率).おまけ要素があるので 100% を超えているものもある.
- 「Exer得点率」: Data2022 受講者の Exer(実習課題)の得点率(同).
- 「最終成績」: Data2022 受講者の最終成績.おまけ要素のために 100点を超えているものもある.
- Data2022 では,「Quiz得点率」と「Exer得点率」は,\( 155:65 = \frac{31}{44}:\frac{13}{44} \) で重みづけられていました(参考: Data/result/2022).このシートの適当な場所に「Q+E」という列をつくり,
「Quiz得点率」を \( x \),「Exer得点率」を \( y \) としたときに,「Q+E」列に \( \frac{31x+13y}{44} \) の値が入るように式を書きましょう.
- 「Q+E」の値を横軸,「最終成績」の値を縦軸として散布図を描きましょう.
- 横軸縦軸の範囲は [-5, 110] としましょう.
- 軸のタイトルや図の縦横比率などを適切に設定しましょう.
Step2 回帰分析する†
- 「main」シートの適当な場所に,「Q+E」を説明変数,「最終成績」を被説明変数として回帰分析を行って得られる回帰係数(傾きと切片)の値を求める式を書きましょう(LINEST関数を使うこと).
- 「main」シートの適当な場所に,これら2つの変数の間の相関係数を求める式を書きましょう.
- 上記の値が有効数字4桁で表示されるように設定し,それらの値をメモしておきましょう.
- 散布図にトレンドラインとその式,決定係数の値が表示されるようにしましょう.
- 得られた結果を考察しましょう.
Step3 自分の点数を使って最終成績の予測値を出してみる†
- この授業の moodle で「評定」へアクセスすると,現時点での自分の「Quiz得点率」と「Exer得点率」を確認できます.
「main」シートの適当な場所にそれらの値を入力し,「Q+E」相当の値を計算させましょう.
- 得られた「Q+E」と回帰係数の値を使って,自分の「最終成績」の予測値を算出しましょう.
- 以下の注意をよく読みましょう.
- moodle上で確認できる「Quiz得点率」や「Exer得点率」は,あくまで現時点での値です.Quiz も Exer も今後も出題されますので,当然変動します.また,欠席届の処理が済んでいない場合があります.疑問な点があれば takataka にお尋ねください.
- 上記で使った Q と E の比率は,Data2022 の成績評価で使用したものです.今年度は変わる可能性が高いです.
- Data2022 では,Q+E の値は,最終成績の 5 割を占めていました.残りはレポートと試験(小テスト含む)の点数から算出されました.
ちなみに,Data2022 のレポート提出者は 108 名でしたが,30名近くが0点でした(分析が間違っている,まともな文章が書かれていない,文章に剽窃があると認められた,etc.)
- 散布図を見ると低い点数の点があまりありませんが,これは,出席回数が規定に満たなかったひとを除いてあるからです.Data2022 の受講登録者は 125 名でしたが,CSV ファイルには出席回数が2/3以上あった 109 名分のみの分があります.
- 「最終成績」の半分は「Q+E」の値で決まっていますので,両者が高い相関を持つのは当然です.
次回は小テストです