データ分析 2020年度 ex04

ex04A

この課題には点数は付きません.提出も不要です.ですが,あとでこの内容に関する小テストを行いますので,必ず取り組んでください.質問は Teams 上でどうぞ.

P1

データの準備

  1. ex04data1.csv を自分の PC にダウンロードしてください
  2. Google Classroom 上のこの課題のスプレッドシートにこの授業で説明した手順でインポートしてください.

    「ファイル」>「インポート」>「アップロード」>(CSVファイルをアップロード)>「新しいシートを挿入する」

    • インポートの仕方は,Notebookと動画 の Data2020-02-movie2 や ex02課題A で説明してます.Excel で開くのではありません.

四分位点などの計算と観察

「おこづかい」列のデータ(サンプルサイズ 50)について,次のことをやりましょう

  1. シート「P1」にヒストグラムを描く.グラフの範囲や階級の幅などは自分で考えて設定してください
  2. シート「P1」の B4 から F4 までのセルに,その上のセルに示された値を計算する式を書く
    • 標準偏差」は STDEVP 関数 (STDEVではない)で
    • 「第n四分位数」(n = 1, 2, 3)は, QUARTILE 関数で.使い方はこんなん

      QUARTILE(範囲, n) (範囲で指定したデータの第 n 四分位点の値を算出)

      「第n四分位点」というのがどういう意味のものかは ex04B の中で説明します
  3. 上記の値をメモしておきましょう
  4. 「おこづかい」列の一番上のひとの金額を10万円に変更しましょう
  5. 3. と同様に値をメモして,どう変化したか/しなかったか観察しましょう

P2

ex04data2.csv をダウンロードして上記と同じスプレッドシートにインポートして,「データ1」,「データ2」,「データ3」列のそれぞれのデータ(サンプルサイズ 100)について,次のことをやりましょう.

  1. 3つのデータそれぞれのヒストグラムを描く.描き方については,後述の「ちょっと便利な描き方」を参照してください.
  2. B4 から F6 までのセルに,P1 と同様に計算式を書く
  3. 上記の値をメモしましょう.3種類のデータのヒストグラムと表の値を観察して,3種類でどこが(ほぼ)同じでどこが違うか観察しましょう

ex04data2 のヒストグラムのちょっと便利な描き方

  1. メニューから「挿入」 > 「グラフ」と選択.右側にグラフエディタが開く.
  2. グラフの種類を「ヒストグラム グラフ」に.
  3. 「データ範囲」を選んで,シート「ex04data2」の「データ1」から「データ3」までのデータが入っている範囲を選択(見出しの文字列も含める).
  4. 「系列」のところに「データ1」,「データ2」,「データ3」という3つが並んで,3つの列のデータを色分けしたひとつのヒストグラムができる.
  5. 「行3を見出しとして使用」にチェックを入れる(3行目は見出しの文字が入ってるセルのはず).
  6. 横軸縦軸の範囲やパケットサイズ等を設定する.横軸は -8 から 4 まで,縦軸は 30 まで,パケットサイズは 1 としよう.
  7. そのグラフの右上の「:」から「グラフをコピー」.
  8. 適当な場所でメニューから「編集」> 「貼り付け」すると,コピーしたグラフの複製が貼り付けられる.2つ複製して同じの3つにしよう.
  9. それぞれのグラフの「系列」に「データ1」,「データ2」,「データ3」と並んでいるところから,不要なものをクリックして「削除」
  10. 必要に応じて個別のグラフの設定をする(タイトルとか)

ex04B

この課題には点数は付きません.提出も不要です.ですが,あとでこの内容に関する小テストを行いますので,必ず取り組んでください.質問は Teams 上でどうぞ.

以下のリンク先の Colab notebook を開いて実行してください.

ex04note2.ipynb

Colab notebook の扱い方がわからないひとは, ex02課題B へ.

ex04C

次のことを全てやりましょう.質問は Teams 上でどうぞ

P1

  1. mpiS100.csv を自分の PC にダウンロードしてください
  2. Google Classroom 上のこの課題のスプレッドシートにいつもの手順でインポートしてください.
  3. 「シート1」の C7 から C9 のセルに,その左隣に書いてある値を計算する数式を書いてください
    • 「相関係数」は, CORREL関数 で算出できます.使い方は次の通り

      CORREL(データYの範囲,データXの範囲)

      • 「数学 vs 物理の相関係数」の場合,数学の点数100人分の範囲と物理の点数100人分の範囲を二つの引数それぞれに指定しましょう.数学と物理のどちらをデータXにしても構いません(算出される値は変わらない)
      • データXの範囲およびデータYの範囲に含まれるデータ数は等しくないといけません
      • PEASRON関数でも全く同じ値が計算できます
      • Google のヘルプ: https://support.google.com/docs/answer/3093990
    • 相関係数」とは何か,どういう意味の値かは,次回の授業時に説明します
  4. スプレッドシート上部のアイコンから「小数点以下の桁数を増やす/減らす」を選んで,相関係数の値が小数点以下は3桁までしか表示されないようにしましょう

P2

上記の表の下に,「数学 vs 物理」,「数学 vs 情報」,「物理 vs 情報」の3つの 散布図 を描きましょう.

散布図に関する条件

散布図の描き方

Data/2020/NotesMovies#ex04 の Data2020-03-movie3 を見ましょう.

以下に,簡単なメモを書いときます.動画でも説明してます.

  1. 「グラフエディタ」の「設定」タブで
    1. 「グラフの種類」を「散布図」に
    2. 「データ範囲」として,「数学」,「物理」,「情報」の3列を見出し含めて指定
    3. 「行1を見出しとして使用」にチェックを入れる
    4. X軸を「数学」に
    5. 系列から「数学」と「情報」を削除
  2. 「グラフエディタ」の「カスタマイズ」タブで
    1. 横軸 > 最小値最大値
    2. 縦軸 > 最小値最大値
    3. グラフと軸のタイトル > 横軸のタイトル > 数学
    4. グラフと軸のタイトル > 縦軸のタイトル > 物理
  3. 縦横比を 1:1 になるように
  4. コピーして2つ目を作る
  5. 設定タブの「X軸」と「系列」を選択して,列を選び直す
  6. (以下同様に)

提出

この課題は,期限までに提出する必要があります. Google Classroom 上のこの課題 上で編集したスプレッドシートを提出してください.


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS