#author("2022-09-05T17:46:51+09:00","default:takataka","takataka")
#author("2022-09-05T18:38:55+09:00","default:takataka","takataka")
* データ分析 2022年度 ex04 [#xa9b83a6]

&color(red){''工事中''};

#contentsx

////////////////////////////////////////
** Quiz [#quiz]

授業開始後すぐに Moodle 上でQuiz(小テスト)を行う予定です.
正確な開始時刻や実施法は授業時間中にお知らせします.
Moodle へのアクセスの仕方については,[[前回のページ>../ex01#moodle]] へ
Moodle へのアクセスの仕方については,[[第1回のページ>../ex01#moodle]] へ


////////////////////////////////////////
** Notebookで学習 [#notebook]

以下のリンク先の Colab notebook を開いて実行してください: [[ex03notebookB.ipynb>https://github.com/takatakamanbou/Data/blob/2022/ex03notebookB.ipynb]]
以下のリンク先の Colab notebook を開いて実行してください: [[ex04notebookB.ipynb>https://github.com/takatakamanbou/Data/blob/2022/ex04notebookB.ipynb]]

Colab notebook の扱い方がわからないひとは, [[前回の課題B>../ex02#colab]] へ.
Colab notebook の扱い方がわからないひとは, [[第2回のページ>../ex02#colab]] へ.


////////////////////////////////////////
** 練習1 [#renshu1]

*** 問1 [#dc294f93]

&mathjax{N}; 個の実数値から成るデータ &mathjax{x_1, x_2, \ldots, x_N}; について,次の問に答えなさい.
+ これらのデータの平均を &mathjax{\bar{x}}; とおくとき, &mathjax{\bar{x}}; を &mathjax{N};,&mathjax{x_n}; および和記号 &mathjax{\sum}; を用いた式で表しなさい.
+ これらのデータの分散を &mathjax{s^2}; とおくとき, &mathjax{s^2};  を &mathjax{N};,&mathjax{x_n};,&mathjax{\bar{x}}; および和記号 &mathjax{\sum}; を用いた式で表しなさい.
*** PartI [#ve75985e]

*** 問2 [#t4816788]
''データの準備''

&mathjax{N = 5}; 個の値から成るデータ &mathjax{x_1, x_2, \ldots, x_N}; が以下のように与えられたとする.
+ [[ex04data1.csv>Data:ex04data1.csv]] を自分の PC にダウンロードしてください
+ Classroom 上のこの課題のスプレッドシートにこの授業で説明した手順でインポートしてください.
>
「ファイル」>「インポート」>「アップロード」>(CSVファイルをアップロード)>「新しいシートを挿入する」
<
-- インポートの仕方は,[[ex02練習1>../ex02#renshu1]] で説明している通りです.Excel で開くのではありません.

|&mathjax{x_1};|&mathjax{x_2};|&mathjax{x_3};|&mathjax{x_4};|&mathjax{x_5};|h
|RIGHT:|RIGHT:|RIGHT:|RIGHT:|RIGHT:|c
|2|1|8|4|5|
''四分位点などの計算と観察''

+ これらのデータの平均を求めなさい
+ これらのデータの分散を求めなさい
「おこづかい」列のデータ(サンプルサイズ 50)について,次のことをやりましょう

*** 問3 [#kedde1f3]
+ シート「main」の PartI の表のセルに,その上のセルに示された値を計算する式を書く
-- 「標準偏差」は [[''STDEVP 関数''>https://support.google.com/docs/answer/3094105?hl=ja]] (''STDEVではない'')で
-- 「第n四分位数」(n = 1, 2, 3)は, [[''QUARTILE 関数''>https://support.google.com/docs/answer/3094041?hl=ja]]で.使い方はこんなん
>
QUARTILE(範囲, n)  (範囲で指定したデータの第 n 四分位点の値を算出)
<
「第n四分位点」というのがどういう意味のものかは別のところで説明します/しています
+ 上記の値をメモしておきましょう
+ シート「ex04data1」の「おこづかい」列の一番上のひとの金額を10万円に変更しましょう
+ 3. と同様に値をメモして,どう変化したか/しなかったか観察しましょう

&mathjax{N}; 個の実数値から成る2組のデータ &mathjax{x_1, x_2, \ldots, x_N}; および &mathjax{y_1, y_2, \ldots, y_N}; があり,
&mathjax{n = 1, 2, \ldots, N}; に対して &mathjax{y_n = x_n + b}; が成り立っている.
&mathjax{\{x_n\}}; の平均を &mathjax{\bar{x}};,分散を  &mathjax{s^2}; とおく
***PartII [#e0b739fa]

+ &mathjax{\{y_n\}}; の平均が &mathjax{\bar{x} + b}; と等しいことを証明しなさい
+ &mathjax{\{y_n\}}; の分散が &mathjax{s^2}; と等しいことを証明しなさい
[[ex04data2.csv>Data:ex04data2.csv]] をダウンロードして上記と同じスプレッドシートにインポートして,「データ1」,「データ2」,「データ3」列のそれぞれのデータ(サンプルサイズ 100)について,次のことをやりましょう.

***問4 [#jd68c7c9]
+ PartII の表のセルに,PartI と同様に計算式を書く
+ 上記の値をメモしましょう.3種類のデータのヒストグラムと表の値を観察して,3種類でどこが(ほぼ)同じでどこが違うか観察しましょう
+ 3つのデータそれぞれのヒストグラムを描く.描き方については,以下の「ちょっと便利な描き方」を参照してください.

問2のデータに対して, &mathjax{y_n = x_n + 1.23\ \  (n = 1, 2, \ldots, N)}; で与えられるデータ &mathjax{\{y_n\}}; を考える.
ex04data2 のヒストグラムのちょっと便利な描き方
+ メニューから「挿入」 > 「グラフ」と選択.右側にグラフエディタが開く.
+ グラフの種類を「ヒストグラム グラフ」に.
+ 「データ範囲」を選んで,シート「ex04data2」の「データ1」から「データ3」までのデータが入っている範囲を選択(見出しの文字列も含める).
+ 「系列」のところに「データ1」,「データ2」,「データ3」という3つが並んで,3つの列のデータを色分けしたひとつのヒストグラムができる.
+  「行3を見出しとして使用」にチェックを入れる(3行目は見出しの文字が入ってるセルのはず).
+ 横軸縦軸の範囲やパケットサイズ等を設定する.横軸は -8 から 4 まで,縦軸は 30 まで,パケットサイズは 1 としよう.
+ そのグラフの右上の「:」から「グラフをコピー」.
+ 適当な場所でメニューから「編集」> 「貼り付け」すると,コピーしたグラフの複製が貼り付けられる.2つ複製して同じの3つにしよう.
+ それぞれのグラフの「系列」に「データ1」,「データ2」,「データ3」と並んでいるところから,不要なものをクリックして「削除」
+ 必要に応じて個別のグラフの設定をする(タイトルとか)

+ &mathjax{\{y_n\}}; の平均を求めなさい
+ &mathjax{\{y_n\}}; の分散を求めなさい

***問5 [#gebe0bb1]
////////////////////////////////////////
** 課題A [#kadaiA]

&mathjax{N}; 個の実数値から成る2組のデータ &mathjax{x_1, x_2, \ldots, x_N}; および &mathjax{y_1, y_2, \ldots, y_N}; があり,
&mathjax{n = 1, 2, \ldots, N}; に対して &mathjax{y_n = a x_n}; が成り立っている.
&mathjax{\{x_n\}}; の平均を &mathjax{\bar{x}};,分散を  &mathjax{s^2}; とおく
&color(red){''これは「課題」ですので,期限までにやって提出することが必要です.''};
期限は Classroom 上の「ex02課題A」で確認できます.

+ &mathjax{\{y_n\}}; の平均が &mathjax{a\bar{x}}; と等しいことを証明しなさい
+ &mathjax{\{y_n\}}; の分散が &mathjax{a^2s^2}; と等しいことを証明しなさい
*** PartI [#ve75985e]

***問6 [#e3471ac5]
問2のデータに対して, &mathjax{y_n = -10 x_n\ \  (n = 1, 2, \ldots, N)}; で与えられるデータ &mathjax{\{y_n\}}; を考える.
+ [[mpiS100.csv>Data:mpiS100.csv]] を自分の PC にダウンロードしてください
+ Classroom 上のこの課題のスプレッドシートにいつもの手順でインポートしてください.
+ 「シート1」の C7 から C9 のセルに,その左隣に書いてある値を計算する数式を書いてください
-- 「相関係数」は, ''CORREL関数'' で算出できます.使い方は次の通り
>
CORREL(データYの範囲,データXの範囲)~
- 「数学 vs 物理の相関係数」の場合,数学の点数100人分の範囲と物理の点数100人分の範囲を二つの引数それぞれに指定しましょう.数学と物理のどちらをデータXにしても構いません(算出される値は変わらない)
- データXの範囲およびデータYの範囲に含まれるデータ数は等しくないといけません
- PEARSON関数でも全く同じ値が計算できます
- Google のヘルプ: https://support.google.com/docs/answer/3093990
<
-- 「''相関係数''」とは何か,どういう意味の値かは,後で説明します
//+ スプレッドシート上部のアイコンから「小数点以下の桁数を増やす/減らす」を選んで,相関係数の値が小数点以下は3桁までしか表示されないようにしましょう

+ &mathjax{\{y_n\}}; の平均を求めなさい
+ &mathjax{\{y_n\}}; の分散を求めなさい
***PartII [#e0b739fa]

***問7 [#df058900]
上記の表の下に,「数学 vs 物理」,「数学 vs 情報」,「物理 vs 情報」の3つの ''散布図'' を描きましょう.

ここまで,和記号の添字に &mathjax{n}; を用いていたが,別の文字を用いても等価な式を作ることができる.
添字に &mathjax{k}; を用いて問1の 1. および 2. をやりなさい.
''散布図に関する条件''
- 「X vs Y」の散布図は,横軸を X の点数,縦軸を Y の点数とする
- グラフの横軸縦軸の範囲は [0, 100] にして,さらに,グラフの箱の縦横の長さが(ほぼ)等しくなるように調整する
- 横軸縦軸にその軸に対応する科目名を表すタイトルをつける

''散布図の描き方''

以下の動画を視聴してください.
>
[[Data2022-04-movie2>https://web.microsoftstream.com/video/8a56ab57-9b9f-4c4c-9bf1-08090fbf2bd9]] ''散布図と相関(0)'' Google Sheets で散布図を描こう
<

以下に,簡単なメモを書いときます.動画でも説明してます.
+ 「グラフエディタ」の「設定」タブで
++  「グラフの種類」を「散布図」に
++  「データ範囲」として,「数学」,「物理」,「情報」の3列を見出し含めて指定
++  「行1を見出しとして使用」にチェックを入れる
++  X軸を「数学」に
++  系列から「数学」と「情報」を削除
+ 「グラフエディタ」の「カスタマイズ」タブで
++    横軸 > 最小値最大値
++    縦軸 > 最小値最大値
++    グラフと軸のタイトル > 横軸のタイトル > 数学
++    グラフと軸のタイトル > 縦軸のタイトル > 物理
+ 縦横比がだいたい 1:1 になるように手動でグラフの枠の大きさを調整
+ コピーして2つ目を作る
+ 設定タブの「X軸」と「系列」を選択して,列を選び直す
+ (以下同様に)

////////////////////////////////////////
** 宿題 [#homework]

&color(red){''次のことを次回の授業までに必ずやっておいてください.''};

+ [[ex04>../#ex04]] の &color(blue){★宿題★};
+ [[ex04課題A>#kadaiA]]
+ [[ex05>../#ex05]] の &color(blue){★宿題★};


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS