#author("2022-09-14T17:13:26+09:00","default:takataka","takataka") #author("2022-09-30T17:34:50+09:00","default:takataka","takataka") * データ分析 2022年度 ex02 [#xa9b83a6] &color(red){''工事中''}; //&color(red){''工事中''}; #contentsx //////////////////////////////////////// ** Quiz [#quiz] 授業時間中に Moodle 上でQuiz(小テスト)を行います. 開始時刻等は授業時間中にお知らせします. Moodle へのアクセスの仕方については,[[第1回のページ>../ex01#moodle]] へ //////////////////////////////////////// ** 練習1 [#renshu1] データが大量にある場合,表計算ソフトなどでそれらを一つ一つ手入力するのは面倒です. 数値等が書き込まれたファイルを入手して,そこからデータを読み込んでみましょう. *** Step1 CSV形式のデータファイルを入手する [#l84d1d81] この課題では,「''CSVという形式のファイルを自分のPCにダウンロードして,それを Google Sheets にインポートする''」ということをやります. まずは,以下の動画を視聴してください. > [[Data2022-02-movie1>https://web.microsoftstream.com/video/c3dcb1c9-bd29-45bd-86a4-328e79001919]] CSVの話 (10m) < 実際にCSVファイルを自分のPCにダウンロードしましょう. > [[ex02_temp1980-2019Oct01.csv>Data:ex02_temp1980-2019Oct01.csv]] を &color(red){''右クリック''}; → 「リンク先を別名で保存」 → 適当な場所に保存 - トラックパッド等で右ボタンがない場合は,「CTRLキー押しながらクリック」,「ボタン長押し」,「二本指でタップ」等でしょう(わからないひとは自分の機種の操作法を調べてね) - ファイルの保存先はどこでも構いません.win/macとも,デフォルトでは「自分のホームフォルダの中の「ダウンロード」フォルダ」に保存されるでしょう. - 保存されたファイルを開く必要はありません. < *** Step2 スプレッドシートにCSVファイルをインポートする [#l84d1d81] Classroom 上に「ex02練習1」という課題があります.そこにリンクされたスプレッドシートを開き,入手したCSVファイルをインポートしましょう. 動画で説明しているように,「''新しいシートを挿入する''」で. 上記の操作で,「ex02練習1」に「main」というシートの他にもうひとつシートができているはずです. シートの名前は ex02_temp1980-2019Oct01 となっているでしょう (インポートしたファイルの名前のうち拡張子 .csv を除いた部分と同じ). シートを切り替えて中身を見てみましょう.ここでインポートしたCSVファイルには,1980年から2019年までの40年間の大津市の気温が記録されています. .各列の意味は,次の通り. - year: 年 - average: その年の10月1日の日平均気温 - max: 同最高気温 - min: 同最低気温 < *** Step3 代表値を求めてみる&度数分布表作ってみる [#ja0e032c] + 「main」の「★ 気温の代表値」の下の箱のセルに,その上のセルの説明に合った値が入るように,計算式を書きましょう. 例えば,「最低気温の平均」には,1980年から2019年までの最低気温の平均値が表示されるようにしてください. + 「★ 度数分布を求める関数 FREQUENCY の使い方」を観察したりいじったりして,度数分布表の作り方を学びましょう. + 「★ 気温の度数分布」に記された指示に従いましょう. //////////////////////////////////////// ** Google Colab を使えるようになる [#colab] この授業の講義資料等の一部では,Google Colab という仕組みを使います.使えるようになろう (1) 以下に説明動画がありますので,その説明にしたがって notebook を閲覧・実行してみてください. > - [[はじめての Google Colab>https://web.microsoftstream.com/video/3a186d48-0fa1-4be1-b320-171114facaad]] 説明動画 (5m) - [[colab_intro.ipynb>https://github.com/takatakamanbou/Data/blob/2022/colab_intro.ipynb]] Notebook のサンプルへのリンク(「Open in Colab」ボタンを押しましょう) - notebook は「おわりに」までやっといてね < (2) 第1回のオリエンテーション動画で使っていた notebook が以下にありますので,閲覧・実行してみてください. > [[ex01notebookA.ipynb>https://github.com/takatakamanbou/Data/blob/2022/ex01notebookA.ipynb]] < //////////////////////////////////////// ** 課題A [#kadaiA] &color(red){''これは「課題」ですので,期限までにやって提出することが必要です.''}; 期限は Classroom 上の「ex02課題A」で確認できます. *** PartI [#ve75985e] + [[このCSV ファイル>Data:ex03data.csv]] を自分の PC にダウンロードしてください.右クリックして「リンク先を別名で保存」.ファイル名は変えないように. + Classroom 上のこの課題のスプレッドシートに上記をインポートしてください. -- インポートの仕方は,[[練習1>#renshu1]] で説明している通りです.Excel で開くのではありません. -- ダウンロードしたCSVファイルの名前およびインポートしたシートの名前は変更してはいけません -- 何度もダウンロードすると,保存したファイル名に「ex03data (1).csv」のように余計な文字列が付くことがあります. そのままにしているとどれが正しいものかわからなくなりますので,ダウンロードしたファイルをいったん全部削除してやり直しましょう. + スプレッドシートの「main」の「PartI」のところの表を完成させてください.ただし,以下の指示にしたがってください -- 平均値を求めるには ''AVERAGE関数'' を使用する. -- 標準偏差を求めるには ''STDEVP関数'' を使用する. ''STDEV ではありません'' -- 分散を求めるには ''VARP関数'' を使用する. ''VAR ではありません'' + 表のそれぞれの値を紙にメモしておきましょう.「小テスト1(+2.5)」のデータは,「小テスト1」の値にそれぞれ 2.5 を加えたものとなっています.それぞれの平均値等を見て両者がどのような関係にあるか考え,メモしておきましょう. + 「小テスト1」と「小テスト1(+2.5)」のヒストグラムを描きましょう.ただし,以下の指示にしたがってください. -- 横軸の範囲は 0 から 10 -- それ以外の条件(「パケットサイズ」等)は自分で決める.ヒストグラムとして適切なものとなるようにしてください. *** PartII [#e0b739fa] + PartI と同様に,「PartII」のところの表を完成させてください. + 「小テスト2」のヒストグラムを描きましょう + 「小テスト1」と「小テスト2」の平均値およびヒストグラムの形を観察して,メモしておきましょう ** 宿題 [#homework] &color(red){''次のことを次回の授業までに必ずやっておいてください.''}; + [[ex02課題A>#kadaiA]] + [[ex03>../#ex03]] の &color(blue){★宿題★};