#author("2023-09-11T13:16:32+09:00","default:takataka","takataka")
[[Data/2023/ex02]]
#author("2023-10-11T15:04:24+09:00","default:takataka","takataka")
* データ分析 2023年度 ex04 [#xa9b83a6]

* データ分析 2023年度 ex02 [#xa9b83a6]

//&color(red){''工事中''};

#contentsx


////////////////////////////////////////
** Quiz [#quiz]

授業時間中に Moodle 上でQuiz(小テスト)を行います.
開始時刻等は授業時間中にお知らせします.
Moodle へのアクセスの仕方については,[[第1回のページ>../ex01#moodle]] へ

** Notebookと授業動画 [#g7418074]

[[今回の Notebookと授業動画>../#ex04]] のうち「&color(blue){★要予習★};」のものは,授業開始までに予習しているはずです.
もしもまだの場合,まずはそれらの notebook を実行し動画を視聴してください.

////////////////////////////////////////
** 練習X1 [#X1]

データが大量にある場合,表計算ソフトなどでそれらを一つ一つ手入力するのは面倒です.
数値等が書き込まれたファイルを入手して,そこからデータを読み込む方法を学びましょう.
*** 問1 [#y8b28a9b]

*** Step1 CSV形式のデータファイルを入手する [#l84d1d81]
ex04notebookA の「a 倍して  b を加えると?」に示されていることを証明しなさい.

(1) この課題では,「''CSVという形式のファイルを自分のPCにダウンロードして,それを Google Sheets にインポートする''」ということをやります.
まずは,以下の動画を視聴してください.
>
[[Data2023-ex02-movieA>https://ryu365-my.sharepoint.com/:v:/r/personal/a01055_mail_ryukoku_ac_jp/Documents/movie/Data2023/Data2023-ex02-movieA.mp4?csf=1&web=1&nav=eyJyZWZlcnJhbEluZm8iOnsicmVmZXJyYWxBcHAiOiJPbmVEcml2ZUZvckJ1c2luZXNzIiwicmVmZXJyYWxBcHBQbGF0Zm9ybSI6IldlYiIsInJlZmVycmFsTW9kZSI6InZpZXciLCJyZWZlcnJhbFZpZXciOiJNeUZpbGVzTGlua0RpcmVjdCJ9fQ&e=N8XEMW]] CSVの話 (10m)
<
*** 問2 [#kbf0e389]

(2) 実際にCSVファイルを自分のPCにダウンロードしましょう.
>
[[ex02_temp1980-2019Oct01.csv>Data:ex02_temp1980-2019Oct01.csv]] を &color(red){''右クリック''};  → 「リンク先を別名で保存」 → 適当な場所に保存
- トラックパッド等で右ボタンがない場合は,「CTRLキー押しながらクリック」,「ボタン長押し」,「二本指でタップ」等でしょう(わからないひとは自分の機種の操作法を調べてね)
- ファイルの保存先はどこでも構いません.win/macとも,デフォルトでは「自分のホームフォルダの中の「ダウンロード」フォルダ」に保存されるでしょう.
- ''保存されたファイルを開く必要はありません''.
<
データ &mathjax{x_1, x_2, \ldots, x_N}; ( &mathjax{N}; は2以上の整数)の平均が &mathjax{-10}; で分散が &mathjax{5}; であるとき,
&mathjax{ y_n = \frac{x_n + 10}{\sqrt{5}}\ (n = 1, 2, \ldots , N) }; の平均と分散を求めなさい.

*** Step2 スプレッドシートにCSVファイルをインポートする [#l84d1d81]
*** 問3 [#g2791b2c]

Classroom 上に「ex02練習X1」という課題があります.そこにリンクされたスプレッドシートを開き,入手したCSVファイルをインポートしましょう.
動画で説明しているように,「''新しいシートを挿入する''」で.
データ &mathjax{x_1, x_2, \ldots, x_N}; ( &mathjax{N}; は2以上の整数)の平均が &mathjax{5}; で分散が &mathjax{3}; であるとき,
&mathjax{ y_n = \frac{x_n + t}{s}\ (n = 1, 2, \ldots , N) }; の平均が &mathjax{ 0 }; で 分散が &mathjax{1}; になるように &mathjax{s, t}; を定めたい.
ただし,&mathjax{s>0}; とする.&mathjax{s, t}; の値を求めなさい.

上記の操作で,「ex02練習X1」スプレッドシートに,「main」というシートの他にもうひとつシートができているはずです.
シートの名前は ex02_temp1980-2019Oct01 となっているはずです(インポートしたファイルの名前のうち拡張子 .csv を除いた部分と同じ).
*** 問4 [#dd485c72]

データ &mathjax{x_1, x_2, \ldots, x_N}; ( &mathjax{N}; は1以上の整数)の平均を &mathjax{\bar{x}};,分散を &mathjax{s^2}; とおく.
このとき,

シートを切り替えて中身を見てみましょう.ここでインポートしたCSVファイルには,1980年から2019年までの40年間の大津市の気温が記録されています.
.各列の意味は,次の通り.
- year: 年
- average: その年の10月1日の日平均気温
- max: 同最高気温
- min: 同最低気温
<
#mathjax{{
s^2 = \frac{1}{N}\sum_{n=1}^N x_n^2 - \bar{x}^2
}}

*** Step3 代表値を求めてみる&度数分布表作ってみる [#ja0e032c]
が成り立つことを証明しなさい( &mathjax{(\mbox{分散}) = (\mbox{二乗の平均}) - (\mbox{平均の二乗})}; ).

(1) 「main」の「★ 気温の代表値」の下の箱のセルに,その上のセルの説明に合った値が入るように,計算式を書きましょう.
例えば,「最低気温の平均」には,1980年から2019年までの最低気温の平均値が表示されるようにしてください.
*** 問5 [#g01b57ce]

(2) 「★ 度数分布を求める関数 FREQUENCY の使い方」を観察したりいじったりして,度数分布表の作り方を学びましょう.
&mathjax{N = 5}; 個の値から成るデータ &mathjax{x_1, x_2, \ldots, x_N}; が以下のように与えられるとする.

(3) 「★ 気温の度数分布」に記された指示に従いましょう.
|&mathjax{x_1};|&mathjax{x_2};|&mathjax{x_3};|&mathjax{x_4};|&mathjax{x_5};|h
|RIGHT:|RIGHT:|RIGHT:|RIGHT:|RIGHT:|c
|2|1|8|4|5|

////////////////////////////////////////
** Google Colab を使えるようになる [#colab]
これらのデータの分散を,次の二通りの方法で求めなさい.
+ 分散の定義通り求める
+ 問4の性質を用いる

//&color(red){''工事中''};

////////////////////////////////////////
** 練習X2 [#X2]

この授業の講義資料等の一部では,Google Colab という仕組みを使います.使えるようになろう
*** PartI [#ve75985e]

(1) 以下に説明動画がありますので,その説明にしたがって notebook を閲覧・実行してみてください.
''データの準備''

+ [[ex04data1.csv>Data:ex04data1.csv]] を自分の PC にダウンロードしてください
+ Classroom 上のこの課題のスプレッドシートにこの授業で説明した手順でインポートしてください.
>
- [[はじめての Google Colab>https://ryu365-my.sharepoint.com/:v:/r/personal/a01055_mail_ryukoku_ac_jp/Documents/movie/colab_intro.mp4?csf=1&web=1&nav=eyJyZWZlcnJhbEluZm8iOnsicmVmZXJyYWxBcHAiOiJPbmVEcml2ZUZvckJ1c2luZXNzIiwicmVmZXJyYWxBcHBQbGF0Zm9ybSI6IldlYiIsInJlZmVycmFsTW9kZSI6InZpZXciLCJyZWZlcnJhbFZpZXciOiJNeUZpbGVzTGlua0RpcmVjdCJ9fQ&e=Kun5uK]] 説明動画 (5m)
- [[colab_intro.ipynb>https://github.com/takatakamanbou/Data/blob/2023/colab_intro.ipynb]] Notebook のサンプルへのリンク(「Open in Colab」ボタンを押しましょう)
- notebook は「おわりに」までやっといてね
「ファイル」>「インポート」>「アップロード」>(CSVファイルをアップロード)>「新しいシートを挿入する」
<
(2) 第1回のオリエンテーション動画で使っていた notebook が以下にありますので,閲覧・実行してみてください.
>
[[ex01notebookA.ipynb>https://github.com/takatakamanbou/Data/blob/2023/ex01notebookA.ipynb]]
<
-- インポートの仕方は,[[ex02練習X1>../ex02#X1]] で説明している通りです.Excel で開くのではありません.

////////////////////////////////////////
** 課題P1 [#P1]
''四分位点などの計算と観察''

//&color(red){''工事中''};
「おこづかい」列のデータ(サンプルサイズ 50)について,次のことをやりましょう

+ シート「main」の PartI の表のセルに,その上のセルに示された値を計算する式を書く
-- 「標準偏差」は [[''STDEVP 関数''>https://support.google.com/docs/answer/3094105?hl=ja]] (''STDEVではない'')で
-- 「第n四分位数」(n = 1, 2, 3)は, [[''QUARTILE 関数''>https://support.google.com/docs/answer/3094041?hl=ja]]で.使い方はこんなん
>
QUARTILE(範囲, n)  (範囲で指定したデータの第 n 四分位点の値を算出)
<
「第n四分位点」というのがどういう意味のものかは別のところで説明します/しています
+ 上記の値をメモしておきましょう
+ シート「ex04data1」の「おこづかい」列の一番上のひとの金額を10万円に変更しましょう
+ 3. と同様に値をメモして,どう変化したか/しなかったか観察しましょう

&color(red){''これは「課題」ですので,期限までにやって提出することが必要です.''};
期限は Classroom 上の「ex02課題P1」で確認できます.
***PartII [#e0b739fa]

*** PartI [#ve75985e]
[[ex04data2.csv>Data:ex04data2.csv]] をダウンロードして上記と同じスプレッドシートにインポートして,「データ1」,「データ2」,「データ3」列のそれぞれのデータ(サンプルサイズ 100)について,次のことをやりましょう.

+ [[このCSV ファイル>Data:ex02data.csv]] を自分の PC にダウンロードしてください.右クリックして「リンク先を別名で保存」.ファイル名は変えないように.
+ Classroom 上のこの課題のスプレッドシートに上記をインポートしてください.
-- インポートの仕方は,[[練習X1>#X1]] で説明している通りです.Excel で開くのではありません.
-- ダウンロードしたCSVファイルの名前およびインポートしたシートの名前は変更してはいけません
-- ''何度もダウンロードすると,保存したファイル名に「ex02data (1).csv」のように余計な文字列が付くことがあります.そのままにしているとどれが正しいものかわからなくなりますので,ダウンロードしたファイルをいったん全部削除してやり直しましょう.''
+ スプレッドシートの「main」の「PartI」のところの表を完成させてください.ただし,以下の指示にしたがってください
-- 平均値を求めるには ''AVERAGE関数'' を使用する. 
-- 標準偏差を求めるには ''STDEVP関数'' を使用する. ''STDEV ではありません''
-- 分散を求めるには ''VARP関数'' を使用する. ''VAR ではありません''
+ 表のそれぞれの値を紙にメモしておきましょう.「小テスト1(+2.5)」のデータは,「小テスト1」の値にそれぞれ 2.5 を加えたものとなっています.それぞれの平均値等を見て両者がどのような関係にあるか考え,メモしておきましょう.
-- 両者の平均は同じ?違う?どう違う?
-- 両者の標準偏差は?分散は?
+ 「小テスト1」と「小テスト1(+2.5)」のヒストグラムを描きましょう.ただし,以下の指示にしたがってください.
-- 横軸の範囲は 0 から 10 
-- それ以外の条件(「パケットサイズ」等)は自分で決める.ヒストグラムとして適切なものとなるようにしてください.
+ PartII の表のセルに,PartI と同様に計算式を書く
+ 上記の値をメモしましょう.3種類のデータのヒストグラムと表の値を観察して,3種類でどこが(ほぼ)同じでどこが違うか観察しましょう
+ 3つのデータそれぞれのヒストグラムを描く.ヒストグラムは3つ別々に描きましょう.横軸の範囲やパケットサイズは揃えてね.
描き方については,以下の「ちょっと便利な描き方」を参照してください.
>
ex04data2 のヒストグラムのちょっと便利な描き方
+ メニューから「挿入」 > 「グラフ」と選択.右側にグラフエディタが開く.
+ グラフの種類を「ヒストグラム グラフ」に.
+ 「データ範囲」を選んで,シート「ex04data2」の「データ1」から「データ3」までのデータが入っている範囲を選択(見出しの文字列も含める).
+ 「系列」のところに「データ1」,「データ2」,「データ3」という3つが並んで,3つの列のデータを色分けしたひとつのヒストグラムができる.
+  「行3を見出しとして使用」にチェックを入れる(3行目は見出しの文字が入ってるセルのはず).
+ 横軸縦軸の範囲やパケットサイズ等を設定する.横軸は -8 から 4 まで,縦軸は 30 まで,パケットサイズは 1 としよう.
+ そのグラフの右上の「:」から「グラフをコピー」.
>
注意: このとき(Chrome限定で?),「Ctrl+C, Ctrl+Vのキーボードショートカットをなんたら」というメッセージが出ることがあるようですが,そのまま無視して作業をやり直せば問題ないようです
(発生する条件が不明なので調査中).
<
+ 適当な場所でメニューから「編集」> 「貼り付け」すると,コピーしたグラフの複製が貼り付けられる.2つ複製して同じの3つにしよう.
+ それぞれのグラフの「系列」に「データ1」,「データ2」,「データ3」と並んでいるところから,不要なものをクリックして「削除」
+ 必要に応じて個別のグラフの設定をする(タイトルとか)


*** PartII [#e0b739fa]

+ PartI と同様に,「PartII」のところの表を完成させてください.
+ 「小テスト2」のヒストグラムを描きましょう
+ 「小テスト1」と「小テスト2」の平均値およびヒストグラムの形を観察して,メモしておきましょう




** 宿題 [#homework]

//&color(red){''工事中''};


&color(red){''次のことを次回の授業までに必ずやっておいてください.''};

+ [[ex02課題P1>#P1]]
+ [[ex03>../#ex03]] の &color(blue){★要予習★};
+ [[ex05>../#ex05]] の &color(blue){★要予習★};


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS