#author("2021-10-11T20:15:42+09:00","default:takataka","takataka") #author("2021-10-15T11:30:06+09:00","default:takataka","takataka") * データ分析 2021年度 ex04 [#xa9b83a6] //&color(red){''工事中''}; #contentsx ** 課題A [#kadaiA] この課題には点数は付きませんが,あとでこの内容に関する小テストを行います.質問は Teams 上でどうぞ. *** P1 [#ve75985e] ''データの準備'' + [[ex04data1.csv>Data:ex04data1.csv]] を自分の PC にダウンロードしてください + [[Google Classroom>https://classroom.google.com/c/Mzg5MzI5MjQyOTkw]] 上のこの課題のスプレッドシートにこの授業で説明した手順でインポートしてください. > 「ファイル」>「インポート」>「アップロード」>(CSVファイルをアップロード)>「新しいシートを挿入する」 < -- インポートの仕方は,[[第2回の課題A>../ex02#kadaiA]] で説明している通りです.Excel で開くのではありません. ''四分位点などの計算と観察'' 「おこづかい」列のデータ(サンプルサイズ 50)について,次のことをやりましょう + シート「P1」にヒストグラムを描く.グラフの範囲や階級の幅などは自分で考えて設定してください + シート「P1」の B4 から F4 までのセルに,その上のセルに示された値を計算する式を書く -- 「標準偏差」は [[''STDEVP 関数''>https://support.google.com/docs/answer/3094105?hl=ja]] (''STDEVではない'')で -- 「第n四分位数」(n = 1, 2, 3)は, [[''QUARTILE 関数''>https://support.google.com/docs/answer/3094041?hl=ja]]で.使い方はこんなん > QUARTILE(範囲, n) (範囲で指定したデータの第 n 四分位点の値を算出) < 「第n四分位点」というのがどういう意味のものかは別のところで説明します/しています + 上記の値をメモしておきましょう + 「おこづかい」列の一番上のひとの金額を10万円に変更しましょう + 3. と同様に値をメモして,どう変化したか/しなかったか観察しましょう ***P2 [#e0b739fa] [[ex04data2.csv>Data:ex04data2.csv]] をダウンロードして上記と同じスプレッドシートにインポートして,「データ1」,「データ2」,「データ3」列のそれぞれのデータ(サンプルサイズ 100)について,次のことをやりましょう. + 3つのデータそれぞれのヒストグラムを描く.描き方については,後述の「ちょっと便利な描き方」を参照してください. + B4 から F6 までのセルに,P1 と同様に計算式を書く + 上記の値をメモしましょう.3種類のデータのヒストグラムと表の値を観察して,3種類でどこが(ほぼ)同じでどこが違うか観察しましょう ex04data2 のヒストグラムのちょっと便利な描き方 + メニューから「挿入」 > 「グラフ」と選択.右側にグラフエディタが開く. + グラフの種類を「ヒストグラム グラフ」に. + 「データ範囲」を選んで,シート「ex04data2」の「データ1」から「データ3」までのデータが入っている範囲を選択(見出しの文字列も含める). + 「系列」のところに「データ1」,「データ2」,「データ3」という3つが並んで,3つの列のデータを色分けしたひとつのヒストグラムができる. + 「行3を見出しとして使用」にチェックを入れる(3行目は見出しの文字が入ってるセルのはず). + 横軸縦軸の範囲やパケットサイズ等を設定する.横軸は -8 から 4 まで,縦軸は 30 まで,パケットサイズは 1 としよう. + そのグラフの右上の「:」から「グラフをコピー」. + 適当な場所でメニューから「編集」> 「貼り付け」すると,コピーしたグラフの複製が貼り付けられる.2つ複製して同じの3つにしよう. + それぞれのグラフの「系列」に「データ1」,「データ2」,「データ3」と並んでいるところから,不要なものをクリックして「削除」 + 必要に応じて個別のグラフの設定をする(タイトルとか) ** 課題B [#kadaiB] この課題については,Classroom 等で提出するものはありません. ただし,このあとの Quiz で関連の問題を出します. [[ex04>../#ex04]] の以下の Notebook を閲覧実行しましょう > ''データの代表値(3)'' 中央値,四分位数,パーセンタイル,箱ひげ図 >> [[ex04notebookB.ipynb>https://github.com/takatakamanbou/Data/blob/main/ex04notebookB.ipynb]] | (対応する動画なし) << < Colab notebook の扱い方がわからないひとは, [[第2回の課題B>../ex02#colab]] へ. ** Moodle で Quiz を受験 [#y9508b90] [[この科目のMoodleコース>https://www-tlab.math.ryukoku.ac.jp/moodle/course/view.php?id=6]] へ行って Quiz を受験しましょう. 開始時刻等は授業時間中にお知らせします. ** 宿題 [#homework] &color(red){''次のことを次回の授業までに必ずやっておいてください''}; (1) [[ex04課題C>#kadaiC]] (2) [[ex05>../#ex05]] の以下の Notebook を閲覧実行し動画を視聴してください > ''散布図と相関(1)'' 散布図とは,相関関係とは >> [[ex05notebookA.ipynb>https://github.com/takatakamanbou/Data/blob/main/ex05notebookA.ipynb]] | [[Data2021-05-movie1>https://web.microsoftstream.com/video/30b356f7-4e43-40ff-b1a0-3ba7afa6d8ef]] (31m) << < //> //''データの代表値(2)'' 平均,分散,標準偏差 //>> //[[ex04notebookA.ipynb>https://github.com/takatakamanbou/Data/blob/main/ex04notebookA.ipynb]] | [[Data2021-04-movie1>https://web.microsoftstream.com/video/376497d5-bca4-428e-9b34-a50a3b0206e4]] (35m) //<< //~''データの代表値(3)'' 中央値,四分位数,パーセンタイル,箱ひげ図 //>> //[[ex04notebookB.ipynb>https://github.com/takatakamanbou/Data/blob/main/ex04notebookB.ipynb]] | (対応する動画なし) //<< //< //(2) [[ex05 課題A>../ex05#kadaiA]] は次回の授業時間途中が期限です. //早めに手を付けて,わからないところがあったら授業時間中に質問できるようにしといてね. ** 課題C (宿題) [#kadaiC] [[Google Classroom>https://classroom.google.com/c/Mzg5MzI5MjQyOTkw]] の「ex04課題C」. 提出期限は Classroom 上で確認してください. *** P1 [#ve75985e] + [[mpiS100.csv>Data:mpiS100.csv]] を自分の PC にダウンロードしてください + [[Classroom>https://classroom.google.com/c/Mzg5MzI5MjQyOTkw]] 上のこの課題のスプレッドシートにいつもの手順でインポートしてください. + 「シート1」の C7 から C9 のセルに,その左隣に書いてある値を計算する数式を書いてください -- 「相関係数」は, ''CORREL関数'' で算出できます.使い方は次の通り > CORREL(データYの範囲,データXの範囲)~ - 「数学 vs 物理の相関係数」の場合,数学の点数100人分の範囲と物理の点数100人分の範囲を二つの引数それぞれに指定しましょう.数学と物理のどちらをデータXにしても構いません(算出される値は変わらない) - データXの範囲およびデータYの範囲に含まれるデータ数は等しくないといけません - PEARSON関数でも全く同じ値が計算できます - Google のヘルプ: https://support.google.com/docs/answer/3093990 < -- 「''相関係数''」とは何か,どういう意味の値かは,後で説明します //+ スプレッドシート上部のアイコンから「小数点以下の桁数を増やす/減らす」を選んで,相関係数の値が小数点以下は3桁までしか表示されないようにしましょう ***P2 [#e0b739fa] 上記の表の下に,「数学 vs 物理」,「数学 vs 情報」,「物理 vs 情報」の3つの ''散布図'' を描きましょう. ''散布図に関する条件'' - 「X vs Y」の散布図は,横軸を X の点数,縦軸を Y の点数とする - グラフの横軸縦軸の範囲は [0, 100] にして,さらに,グラフの箱の縦横の長さが(ほぼ)等しくなるように調整する - 横軸縦軸にその軸に対応する科目名を表すタイトルをつける ''散布図の描き方'' 以下の動画を視聴してください. > [[Data2021-04-movie2>https://web.microsoftstream.com/video/8a56ab57-9b9f-4c4c-9bf1-08090fbf2bd9]] ''散布図と相関(0)'' Google Sheets で散布図を描こう < 以下に,簡単なメモを書いときます.動画でも説明してます. + 「グラフエディタ」の「設定」タブで ++ 「グラフの種類」を「散布図」に ++ 「データ範囲」として,「数学」,「物理」,「情報」の3列を見出し含めて指定 ++ 「行1を見出しとして使用」にチェックを入れる ++ X軸を「数学」に ++ 系列から「数学」と「情報」を削除 + 「グラフエディタ」の「カスタマイズ」タブで ++ 横軸 > 最小値最大値 ++ 縦軸 > 最小値最大値 ++ グラフと軸のタイトル > 横軸のタイトル > 数学 ++ グラフと軸のタイトル > 縦軸のタイトル > 物理 + 縦横比を 1:1 になるように + 縦横比がだいたい 1:1 になるように手動でグラフの枠の大きさを調整 + コピーして2つ目を作る + 設定タブの「X軸」と「系列」を選択して,列を選び直す + (以下同様に)