データ分析 2022年度 ex04†
Quiz†
授業開始後すぐに Moodle 上でQuiz(小テスト)を行う予定です.
正確な開始時刻や実施法は授業時間中にお知らせします.
Moodle へのアクセスの仕方については,第1回のページ へ
Notebookで学習†
以下のリンク先の Colab notebook を開いて実行してください: ex04notebookB.ipynb
Colab notebook の扱い方がわからないひとは, 第2回のページ へ.
練習1†
PartI†
データの準備
- ex04data1.csv を自分の PC にダウンロードしてください
- Classroom 上のこの課題のスプレッドシートにこの授業で説明した手順でインポートしてください.
「ファイル」>「インポート」>「アップロード」>(CSVファイルをアップロード)>「新しいシートを挿入する」
- インポートの仕方は,ex02練習1 で説明している通りです.Excel で開くのではありません.
四分位点などの計算と観察
「おこづかい」列のデータ(サンプルサイズ 50)について,次のことをやりましょう
- シート「main」の PartI の表のセルに,その上のセルに示された値を計算する式を書く
- 「標準偏差」は STDEVP 関数 (STDEVではない)で
- 「第n四分位数」(n = 1, 2, 3)は, QUARTILE 関数で.使い方はこんなん
QUARTILE(範囲, n) (範囲で指定したデータの第 n 四分位点の値を算出)
「第n四分位点」というのがどういう意味のものかは別のところで説明します/しています
- 上記の値をメモしておきましょう
- シート「ex04data1」の「おこづかい」列の一番上のひとの金額を10万円に変更しましょう
- 3. と同様に値をメモして,どう変化したか/しなかったか観察しましょう
PartII†
ex04data2.csv をダウンロードして上記と同じスプレッドシートにインポートして,「データ1」,「データ2」,「データ3」列のそれぞれのデータ(サンプルサイズ 100)について,次のことをやりましょう.
- PartII の表のセルに,PartI と同様に計算式を書く
- 上記の値をメモしましょう.3種類のデータのヒストグラムと表の値を観察して,3種類でどこが(ほぼ)同じでどこが違うか観察しましょう
- 3つのデータそれぞれのヒストグラムを描く.描き方については,以下の「ちょっと便利な描き方」を参照してください.
1021金 17:30 追記: ヒストグラムは3つ別々に描きましょう.横軸の範囲やパケットサイズは揃えてね.
ex04data2 のヒストグラムのちょっと便利な描き方
- メニューから「挿入」 > 「グラフ」と選択.右側にグラフエディタが開く.
- グラフの種類を「ヒストグラム グラフ」に.
- 「データ範囲」を選んで,シート「ex04data2」の「データ1」から「データ3」までのデータが入っている範囲を選択(見出しの文字列も含める).
- 「系列」のところに「データ1」,「データ2」,「データ3」という3つが並んで,3つの列のデータを色分けしたひとつのヒストグラムができる.
- 「行3を見出しとして使用」にチェックを入れる(3行目は見出しの文字が入ってるセルのはず).
- 横軸縦軸の範囲やパケットサイズ等を設定する.横軸は -8 から 4 まで,縦軸は 30 まで,パケットサイズは 1 としよう.
- そのグラフの右上の「:」から「グラフをコピー」.
1021金 17:30 追記: このときに,「Ctrl+C, Ctrl+Vのキーボードショートカットをなんたら」というメッセージが出ることがあるようです(Chrome限定?)が,そのまま無視して作業をやり直せば問題ないようです
(高橋の環境で再現できなくて,現在調査中)
- 適当な場所でメニューから「編集」> 「貼り付け」すると,コピーしたグラフの複製が貼り付けられる.2つ複製して同じの3つにしよう.
- それぞれのグラフの「系列」に「データ1」,「データ2」,「データ3」と並んでいるところから,不要なものをクリックして「削除」
- 必要に応じて個別のグラフの設定をする(タイトルとか)
課題A†
これは「課題」ですので,期限までにやって提出することが必要です.
期限は Classroom 上の「ex04課題A」で確認できます.
PartI†
- mpiS100.csv を自分の PC にダウンロードしてください
- Classroom 上のこの課題のスプレッドシートにいつもの手順でインポートしてください.
- シート main の C7 から C9 のセルに,その左隣に書いてある値を計算する数式を書いてください
- 「相関係数」は, CORREL関数 で算出できます.使い方は次の通り
CORREL(データYの範囲,データXの範囲)
- 「相関係数」とは何か,どういう意味の値かは,後で説明します
PartII†
上記の表の下に,「数学 vs 物理」,「数学 vs 情報」,「物理 vs 情報」の3つの 散布図 を描きましょう.
散布図に関する条件
- 「X vs Y」の散布図は,横軸を X の点数,縦軸を Y の点数とする
- グラフの横軸縦軸の範囲は [0, 100] にする.今回のグラフでは縦軸横軸の単位が同じで範囲も同じなので,箱の縦横の長さが(ほぼ)等しくなるように調整してください
- 横軸縦軸にその軸に対応する科目名を表すタイトルをつける
散布図の描き方
以下の動画を視聴してください.
Data2022-04-movie2 散布図と相関(0) Google Sheets で散布図を描こう
以下に,簡単なメモを書いときます.動画でも説明してます.
- 「グラフエディタ」の「設定」タブで
- 「グラフの種類」を「散布図」に
- 「データ範囲」として,「数学」,「物理」,「情報」の3列を見出し含めて指定
- 「行1を見出しとして使用」にチェックを入れる
- X軸を「数学」に
- 系列から「数学」と「情報」を削除
- 「グラフエディタ」の「カスタマイズ」タブで
- 横軸 > 最小値最大値
- 縦軸 > 最小値最大値
- グラフと軸のタイトル > 横軸のタイトル > 数学
- グラフと軸のタイトル > 縦軸のタイトル > 物理
- 今回の散布図は,横軸縦軸の範囲がどちらも [0, 100] ですので,図の縦横比を 1:1 にするのがよいでしょう.だいたい 1:1 になるように手動でグラフの枠の大きさを調整しましょう
- コピーして2つ目を作る
- 設定タブの「X軸」と「系列」を選択して,列を選び直す
- (以下同様に)
おまけ課題†
omake
次のことを次回の授業までに必ずやっておいてください.
- ex04課題A
- ex05 の ★宿題★