データ分析 2021年度 ex06†
課題A†
この課題そのものには点数は付きません.しかし,あとでこの内容に関する小テストを行います.そのできや点数には影響しますので,必ず取り組んでください.質問は Teams 上でどうぞ.
この課題についての解説動画: Data2021-06-movie3 (13m)
スプレッドシートとデータの準備†
- ex06mpi.csv を自分の PC にダウンロードしてください
- Google Classroom 上のこの課題ののスプレッドシートにこの授業で説明した手順でインポートしてください.
「ファイル」>「インポート」>「アップロード」>(CSVファイルをアップロード)>「新しいシートを挿入する」
- インポートの仕方は,ex02課題A で説明している通りです.Excel で開くのではありません.
元データの解釈†
- 「数学」,「物理」,「情報」の平均,標準偏差を計算しましょう
注意: 平均と標準偏差を求める関数については,ex03課題A 参照
- それぞれのヒストグラムを描きましょう
- 学籍番号「う06」のひとは,3科目とも80点ですが,どの科目の成績が「良い」と言えるか,平均,標準偏差,ヒストグラムから考えましょう
データの正規化†
- CSVファイルをインポートしたシートに,「数学(正規化)」,「物理(正規化)」,「情報(正規化)」という3つの列を作り,それぞれの生徒の「数学」,「物理」,「情報」の点数を正規化した値を求める計算式を入れましょう.
データ \( x_1, x_2, \dots , x_N \) の平均値が \( \bar{x} \) で,標準偏差が \( s \) だったとすると,
\[ z_n = \frac{(x_n - \bar{x})}{s}\qquad (n = 1, 2, \dots , N)
\]
として得られるデータ \( z_1, z_2, \dots , z_N \) の平均は ,標準偏差は \( 1 \) になるのでした.
注意: スプレッドシートで上記の式を計算する場合,平均や標準偏差の値を毎回計算式で計算するのは無駄ですね.「シート1」にすでに算出した値がありますから,そのセルの値を利用しましょう('$'を付けて絶対参照にする).
- 正規化した値は,小数点以下の表示桁数が3になるように設定しよう
正規化したデータの解釈†
- 「数学(正規化)」,「物理(正規化)」,「情報(正規化)」それぞれのヒストグラムを描きましょう
- 横軸の範囲は -4 から 4 までにそろえておくとよいでしょう
- パケットサイズ等はヒストグラムを解釈しやすいように修正しましょう
- 次のものをノート等にメモしておきましょう
- 学籍番号「う06」のひとの「数学(正規化)」,「物理(正規化)」,「情報(正規化)」の値
- それらの値から,この生徒の「数学」「物理」「情報」の点数はどの科目が「良い」と言えそうか
Moodle で Quiz を受験†
この科目のMoodleコース へ行って Quiz を受験しましょう.
開始時刻等は授業時間中にお知らせします.
次のことを次回の授業までに必ずやっておいてください
ex07 の以下の Notebook を閲覧実行し動画を視聴してください