データ分析 2024年度 ex02

Table of Contents

Chrome

この授業では,ウェブブラウザとして Google Chrome を使うことを推奨します.いろいろな説明も Chrome を前提に書いています(他のブラウザでもほとんど同じなのでそれほど困らないはずですが).

Quiz

授業時間中に Moodle 上でQuiz(小テスト)を行います. 開始時刻等は授業時間中にお知らせします. Moodle へのアクセスの仕方については,第1回のページ

練習X1

データが大量にある場合,表計算ソフトなどでそれらを一つ一つ手入力するのは面倒です. 数値等が書き込まれたファイルを入手して,そこからデータを読み込む方法を学びましょう.

Step1 CSV形式のデータファイルを入手する

(1) この課題では,「CSVという形式のファイルを自分のPCにダウンロードして,それを Google Sheets にインポートする」ということをやります. まずは,以下の動画を視聴してください.

Data2024-ex02-movieA CSVの話 (10m)

(2) 実際にCSVファイルを自分のPCにダウンロードしましょう.

ex02_temp1980-2019Oct01.csv右クリック → 「リンク先を別名で保存」 → 適当な場所に保存

  • トラックパッド等で右ボタンがない場合は,「CTRLキー押しながらクリック」,「ボタン長押し」,「二本指でタップ」等でしょう(わからないひとは自分の機種の操作法を調べてね)
  • ファイルの保存先はどこでも構いません.win/macとも,デフォルトでは「自分のホームフォルダの中の「ダウンロード」フォルダ」に保存されるでしょう.
  • 保存されたファイルを開く必要はありません

Step2 スプレッドシートにCSVファイルをインポートする

Classroom 上に「ex02練習X1」という課題があります.そこにリンクされたスプレッドシートを開き,入手したCSVファイルをインポートしましょう. 動画で説明しているように,「新しいシートを挿入する」にしてください.

上記の操作で,「ex02練習X1」スプレッドシートに,「main」というシートの他にもうひとつシートができているはずです. シートの名前は ex02_temp1980-2019Oct01 となっているはずです(インポートしたファイルの名前のうち拡張子 .csv を除いた部分と同じ).

シートを切り替えて中身を見てみましょう.ここでインポートしたCSVファイルには,1980年から2019年までの40年間の大津市の気温が記録されています. .各列の意味は,次の通り.

Step3 代表値を求めてみる&度数分布表作ってみる

(1) 「main」の「★ 気温の代表値」の下の箱のセルに,その上のセルの説明に合った値が入るように,計算式を書きましょう. 例えば,「最低気温の平均」には,1980年から2019年までの最低気温の平均値が表示されるようにしてください.

(2) 「★ 度数分布を求める関数 FREQUENCY の使い方」を観察したりいじったりして,度数分布表の作り方を学びましょう.

(3) 「★ 気温の度数分布」に記された指示に従いましょう.

Google Colab を使えるようになる

この授業の講義資料等の一部では,Google Colab という仕組みを使います.使えるようになろう

(1) 以下のリンク先の指示に従いましょう.最後までできたらここへ戻ってきてね.

ColabTutorial

(2) 第1回のオリエンテーション動画で使っていた notebook が以下にあります.閲覧・実行してみてください.

Data2024_ex01notebookA.ipynb

(3) Colab notebook を印刷したくなったら以下をどうぞ

Colab notebook を実習室のプリンタで印刷する方法

課題P1

これは「課題」ですので,期限までにやって提出することが必要です. 期限は Classroom 上の「ex02課題P1」で確認できます.

PartI

  1. このCSV ファイル を自分の PC にダウンロードしてください.右クリックして「リンク先を別名で保存」.ファイル名は変えないように.
  2. Classroom 上のこの課題のスプレッドシートに上記をインポートしてください.
    • インポートの仕方は,練習X1 で説明している通りです.Excel で開くのではありません.
    • ダウンロードしたCSVファイルの名前およびインポートしたシートの名前は変更してはいけません
    • 何度もダウンロードすると,保存したファイル名に「ex02data (1).csv」のように余計な文字列が付くことがあります.そのままにしているとどれが正しいものかわからなくなりますので,ダウンロードしたファイルをいったん全部削除してやり直しましょう.
  3. スプレッドシートの「main」の「PartI」のところの表を完成させてください.ただし,以下の指示にしたがってください
    • 平均値を求めるには AVERAGE関数 を使用する.
    • 標準偏差を求めるには STDEVP関数 を使用する. STDEV ではありません
    • 分散を求めるには VARP関数 を使用する. VAR ではありません
  4. 表のそれぞれの値を紙にメモしておきましょう.「小テスト1(+2.5)」のデータは,「小テスト1」の値にそれぞれ 2.5 を加えたものとなっています.それぞれの平均値等を見て両者がどのような関係にあるか考え,メモしておきましょう.
    • 両者の平均は同じ?違う?どう違う?
    • 両者の標準偏差は?分散は?
  5. 「小テスト1」と「小テスト1(+2.5)」のヒストグラムを描きましょう.ただし,以下の指示にしたがってください.
    • 横軸の範囲は 0 から 10
    • それ以外の条件(「パケットサイズ」等)は自分で決める.ヒストグラムとして適切なものとなるようにしてください.

PartII

  1. PartI と同様に,「PartII」のところの表を完成させてください.
  2. 「小テスト2」のヒストグラムを描きましょう
  3. 「小テスト1」と「小テスト2」の平均値およびヒストグラムの形を観察して,メモしておきましょう

宿題

次のことを次回の授業までに必ずやっておいてください.

  1. ex02課題P1
  2. ex03★要予習★

トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2024-09-26 (木) 14:34:53