データ分析 2022年度 ex06†
工事中
Quiz†
授業開始後すぐに Moodle 上でQuiz(小テスト)を行う予定です.
正確な開始時刻や実施法は授業時間中にお知らせします.
Moodle へのアクセスの仕方については,第1回のページ へ
練習1†
この問題についての解説動画: Data2022-06-movie2 (13m)
注意: 動画中で「シート1」という名前が付いているシートは,この問題では「main」という名前になっています.
スプレッドシートとデータの準備†
- ex06mpi.csv を自分の PC にダウンロードしてください
- Google Classroom 上のこの問題のスプレッドシートにこの授業で説明した手順でインポートしてください.
「ファイル」>「インポート」>「アップロード」>(CSVファイルをアップロード)>「新しいシートを挿入する」
- インポートの仕方は,ex02練習1 で説明している通りです.Excel で開くのではありません.
元データの解釈†
- 「数学」,「物理」,「情報」の平均,標準偏差を計算しましょう
注意: 平均と標準偏差を求める関数については,ex02課題A 参照
- それぞれのヒストグラムを描きましょう
- 学籍番号「う06」のひとは,3科目とも80点ですが,どの科目の成績が「良い」と言えるか,平均,標準偏差,ヒストグラムから考えましょう
データの正規化†
- CSVファイルをインポートしたシートに,「数学(正規化)」,「物理(正規化)」,「情報(正規化)」という3つの列を作り,それぞれの生徒の「数学」,「物理」,「情報」の点数を正規化した値を求める計算式を入れましょう.
データ \( x_1, x_2, \dots , x_N \) の平均値が \( \bar{x} \) で,標準偏差が \( s \) だったとすると,
\[ z_n = \frac{(x_n - \bar{x})}{s}\qquad (n = 1, 2, \dots , N)
\]
として得られるデータ \( z_1, z_2, \dots , z_N \) の平均は ,標準偏差は \( 1 \) になるのでした.
注意: スプレッドシートで上記の式を計算する場合,平均や標準偏差の値を一つ一つのセルの中の計算式で毎回計算するのは無駄ですね.「main」というシートにすでに算出した値がありますから,そのセルの値を利用しましょう('$'を付けて絶対参照にする).
- 正規化した値は,小数点以下の表示桁数が3になるように設定しよう.
メニューバー中の,「.0」の下に「←」が描かれたボタンと,「.00」の下に「→」が描かれたボタンで,表示桁数を調整できます.
正規化したデータの解釈†
- 「main」に,「数学(正規化)」,「物理(正規化)」,「情報(正規化)」それぞれのヒストグラムを描きましょう
- 一つの図に三つヒストグラムを重ねて描くのではなく,三つ別々の図を描きましょう
- 横軸の範囲は -4 から 4 までにそろえておくとよいでしょう
- パケットサイズ等はヒストグラムを解釈しやすいように修正しましょう
- 次のものをノート等にメモしておきましょう
- 学籍番号「う06」のひとの「数学(正規化)」,「物理(正規化)」,「情報(正規化)」の値
- それらの値から,この生徒の「数学」「物理」「情報」の点数はどの科目が「良い」と言えそうか
課題A†
工事中
次のことを次回の授業までに必ずやっておいてください.
- ex07 の ★宿題★