データ分析 2021年度 ex04

課題A

この課題には点数は付きませんが,あとでこの内容に関する小テストを行います.質問は Teams 上でどうぞ.

P1

データの準備

  1. ex04data1.csv を自分の PC にダウンロードしてください
  2. Google Classroom 上のこの課題のスプレッドシートにこの授業で説明した手順でインポートしてください.

    「ファイル」>「インポート」>「アップロード」>(CSVファイルをアップロード)>「新しいシートを挿入する」

    • インポートの仕方は,第2回の課題A で説明している通りです.Excel で開くのではありません.

四分位点などの計算と観察

「おこづかい」列のデータ(サンプルサイズ 50)について,次のことをやりましょう

  1. シート「P1」にヒストグラムを描く.グラフの範囲や階級の幅などは自分で考えて設定してください
  2. シート「P1」の B4 から F4 までのセルに,その上のセルに示された値を計算する式を書く
    • 「標準偏差」は STDEVP 関数STDEVではない)で
    • 「第n四分位数」(n = 1, 2, 3)は, QUARTILE 関数で.使い方はこんなん

      QUARTILE(範囲, n) (範囲で指定したデータの第 n 四分位点の値を算出)

      「第n四分位点」というのがどういう意味のものかは別のところで説明します/しています
  3. 上記の値をメモしておきましょう
  4. 「おこづかい」列の一番上のひとの金額を10万円に変更しましょう
  5. 3. と同様に値をメモして,どう変化したか/しなかったか観察しましょう

P2

ex04data2.csv をダウンロードして上記と同じスプレッドシートにインポートして,「データ1」,「データ2」,「データ3」列のそれぞれのデータ(サンプルサイズ 100)について,次のことをやりましょう.

  1. 3つのデータそれぞれのヒストグラムを描く.描き方については,後述の「ちょっと便利な描き方」を参照してください.
  2. B4 から F6 までのセルに,P1 と同様に計算式を書く
  3. 上記の値をメモしましょう.3種類のデータのヒストグラムと表の値を観察して,3種類でどこが(ほぼ)同じでどこが違うか観察しましょう

ex04data2 のヒストグラムのちょっと便利な描き方

  1. メニューから「挿入」 > 「グラフ」と選択.右側にグラフエディタが開く.
  2. グラフの種類を「ヒストグラム グラフ」に.
  3. 「データ範囲」を選んで,シート「ex04data2」の「データ1」から「データ3」までのデータが入っている範囲を選択(見出しの文字列も含める).
  4. 「系列」のところに「データ1」,「データ2」,「データ3」という3つが並んで,3つの列のデータを色分けしたひとつのヒストグラムができる.
  5. 「行3を見出しとして使用」にチェックを入れる(3行目は見出しの文字が入ってるセルのはず).
  6. 横軸縦軸の範囲やパケットサイズ等を設定する.横軸は -8 から 4 まで,縦軸は 30 まで,パケットサイズは 1 としよう.
  7. そのグラフの右上の「:」から「グラフをコピー」.
  8. 適当な場所でメニューから「編集」> 「貼り付け」すると,コピーしたグラフの複製が貼り付けられる.2つ複製して同じの3つにしよう.
  9. それぞれのグラフの「系列」に「データ1」,「データ2」,「データ3」と並んでいるところから,不要なものをクリックして「削除」
  10. 必要に応じて個別のグラフの設定をする(タイトルとか)

課題B

この課題については,Classroom 等で提出するものはありません. ただし,このあとの Quiz で関連の問題を出します.

ex04 の以下の Notebook を閲覧実行しましょう

データの代表値(3) 中央値,四分位数,パーセンタイル,箱ひげ図

ex04notebookB.ipynb | (対応する動画なし)

Colab notebook の扱い方がわからないひとは, 第2回の課題B へ.

Moodle で Quiz を受験

この科目のMoodleコース へ行って Quiz を受験しましょう. 開始時刻等は授業時間中にお知らせします.

宿題

次のことを次回の授業までに必ずやっておいてください

(1) ex04課題C

(2) ex05 の以下の Notebook を閲覧実行し動画を視聴してください

散布図と相関(1) 散布図とは,相関関係とは

ex05notebookA.ipynb | Data2021-05-movie1 (31m)

課題C (宿題)

Google Classroom の「ex04課題C」. 提出期限は Classroom 上で確認してください.

P1

  1. mpiS100.csv を自分の PC にダウンロードしてください
  2. Classroom 上のこの課題のスプレッドシートにいつもの手順でインポートしてください.
  3. 「シート1」の C7 から C9 のセルに,その左隣に書いてある値を計算する数式を書いてください
    • 「相関係数」は, CORREL関数 で算出できます.使い方は次の通り

      CORREL(データYの範囲,データXの範囲)

      • 「数学 vs 物理の相関係数」の場合,数学の点数100人分の範囲と物理の点数100人分の範囲を二つの引数それぞれに指定しましょう.数学と物理のどちらをデータXにしても構いません(算出される値は変わらない)
      • データXの範囲およびデータYの範囲に含まれるデータ数は等しくないといけません
      • PEARSON関数でも全く同じ値が計算できます
      • Google のヘルプ: https://support.google.com/docs/answer/3093990
    • 相関係数」とは何か,どういう意味の値かは,後で説明します

P2

上記の表の下に,「数学 vs 物理」,「数学 vs 情報」,「物理 vs 情報」の3つの 散布図 を描きましょう.

散布図に関する条件

散布図の描き方

以下の動画を視聴してください.

Data2021-04-movie2 散布図と相関(0) Google Sheets で散布図を描こう

以下に,簡単なメモを書いときます.動画でも説明してます.

  1. 「グラフエディタ」の「設定」タブで
    1. 「グラフの種類」を「散布図」に
    2. 「データ範囲」として,「数学」,「物理」,「情報」の3列を見出し含めて指定
    3. 「行1を見出しとして使用」にチェックを入れる
    4. X軸を「数学」に
    5. 系列から「数学」と「情報」を削除
  2. 「グラフエディタ」の「カスタマイズ」タブで
    1. 横軸 > 最小値最大値
    2. 縦軸 > 最小値最大値
    3. グラフと軸のタイトル > 横軸のタイトル > 数学
    4. グラフと軸のタイトル > 縦軸のタイトル > 物理
  3. 縦横比を 1:1 になるように
  4. コピーして2つ目を作る
  5. 設定タブの「X軸」と「系列」を選択して,列を選び直す
  6. (以下同様に)

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS