データ分析 2021年度 ex10†
課題A†
復習 - データの代表値,ヒストグラム,散布図と相関
Step1 データの準備†
- Google Classroom 上のこの課題のスプレッドシートに以下の CSV ファイルをインポートしましょう: ex10score.csv
- この授業の moodle コースへ行き,次のようにして,Quiz(Moodleで実施している小テスト)と Exer(実習課題)の自分の得点率を確認しましょう:
- メニューから「評定」を選択すると,「ユーザレポート」というものが表示されるはず
- 「Quiz(ex08まで)合計」および「Exer(ex08まで) 合計」の「パーセンテージ」の値を確認
- 上記で得た値をスプレッドシートの「自分の値」のところに書き込む. 59.63% なら 59.63 と.
なお,この課題をやっている時点で moodle で確認できる値は,公欠その他もろもろの処理がまだの暫定値です.
Step2 平均,標準偏差,中央値,相関係数†
- 「Sheet1」 の表の中に,それぞれの値を計算する数式を書きましょう
- 標準偏差を求める関数は STDEV ではなく STDEVP であることに注意
- 数式を入れたセルの数値は,有効数字4桁として表示されるようにしましょう
Step3 ヒストグラムと散布図†
- 「Sheet1」に,「Quiz得点率 [%]」と「Exer得点率 [%]」のそれぞれのヒストグラムを描きましょう.ただし,次のようにしてください:
- ヒストグラムは階級の幅が5ポイント(5%ぶん)となるようにする
- 横軸の範囲は [0, 105] (100までにすると,ヒストグラムの設定上100点満点のひとが含まれなくなってしまいます)
- 「グラフのタイトル」をつける.2つの図のどちらがどちらかわかるように
- 「Sheet1」に,「Quiz得点率 [%]」と「Exer得点率 [%]」の散布図を描きましょう.ただし,次のようにしてください.
- 「Quiz得点率 [%]」が横軸,「Exer得点率 [%]」が縦軸になるように
- 両軸の範囲を [0, 100] に
- グラフの縦横比を適切に調節
Step4 観察†
自分の値と代表値を比較したり,グラフを観察したりして,データ全体の傾向と自分の位置を考察しましょう.
- 自分の得点率は,受講者の半数より上?下?
- (ここは課題ではありません)より詳しく見たければ,正規化した値や偏差値を求めたり,累積度数分布表を作ったりしてみるとよいでしょう
- Quiz 得点率が高いひとの Exer 得点率は高い?低い?
課題B†
レポート作成に向けた準備 スプレッドシートで作ったグラフをドキュメントに挿入してみよう
この課題そのものには点数は付きませんが,レポート課題のための重要な準備です.必ず取り組んでください.質問は対面または Teams 上でどうぞ.
- この課題に関連する解説動画を視聴しましょう: Data2021-10-movie2 (7m)
- Google Classroom 上のこの課題のドキュメントの「ここにグラフを挿入」の箇所に,前回の課題B のグラフを挿入しましょう.「スプレッドシートにリンク」の方で.
- スプレッドシートの方を適当にいじるとドキュメントに挿入したグラフも変化することを確認しましょう
- ドキュメント中に赤字で下線付きで書かれた部分を適当に修正しましょう
- 課題(今回の課題の方のみ)を提出しましょう
次のことを次回の授業までに必ずやっておいてください
(1) ex11 の以下の Notebook を閲覧実行し動画を視聴してください
量的データと質的データ/ダミー変数
ex11notebookA.ipynb (GitHub) | Data2021-11-movie1 (12m)
度数分布,クロス集計表/分割表
ex11notebookB.ipynb (GitHub) | Data2021-11-movie2 (17m)
(2) ex11課題A