#author("2024-09-13T17:53:41+09:00","default:takataka","takataka")
#author("2024-10-09T23:12:11+09:00","default:takataka","takataka")
* データ分析 2024年度 ex04 [#xa9b83a6]

&color(red){''工事中''};
//&color(red){''工事中''};

#contentsx


////////////////////////////////////////
** Quiz [#quiz]

授業時間中に Moodle 上でQuiz(小テスト)を行います.
開始時刻等は授業時間中にお知らせします.
Moodle へのアクセスの仕方については,[[第1回のページ>../ex01#moodle]] へ

** Notebookと授業動画 [#g7418074]

[[今回の Notebookと授業動画>../#ex04]] のうち「&color(blue){★要予習★};」のものは,授業開始までに予習しているはずです.
もしもまだの場合,まずはそれらの notebook を実行し動画を視聴してください.

////////////////////////////////////////
** 練習X1 [#X1]

*** 問1 [#y8b28a9b]

ex04notebookA の「a 倍して  b を加えると?」に示されていることを証明しなさい.

*** 問2 [#kbf0e389]

データ &mathjax{x_1, x_2, \ldots, x_N}; ( &mathjax{N}; は2以上の整数)の平均が &mathjax{-10}; で分散が &mathjax{5}; であるとき,
&mathjax{ y_n = \frac{x_n + 10}{\sqrt{5}}\ (n = 1, 2, \ldots , N) }; の平均と分散を求めなさい.

*** 問3 [#g2791b2c]

データ &mathjax{x_1, x_2, \ldots, x_N}; ( &mathjax{N}; は2以上の整数)の平均が &mathjax{5}; で分散が &mathjax{3}; であるとき,
&mathjax{ y_n = \frac{x_n + t}{s}\ (n = 1, 2, \ldots , N) }; の平均が &mathjax{ 0 }; で 分散が &mathjax{1}; になるように &mathjax{s, t}; を定めたい.
ただし,&mathjax{s>0}; とする.&mathjax{s, t}; の値を求めなさい.

*** 問4 [#dd485c72]

データ &mathjax{x_1, x_2, \ldots, x_N}; ( &mathjax{N}; は1以上の整数)の平均を &mathjax{\bar{x}};,分散を &mathjax{s^2}; とおく.
このとき,

#mathjax{{
s^2 = \frac{1}{N}\sum_{n=1}^N x_n^2 - \bar{x}^2
}}

が成り立つことを証明しなさい( &mathjax{(\mbox{分散}) = (\mbox{二乗の平均}) - (\mbox{平均の二乗})}; ).

*** 問5 [#g01b57ce]

&mathjax{N = 5}; 個の値から成るデータ &mathjax{x_1, x_2, \ldots, x_N}; が以下のように与えられるとする.

|&mathjax{x_1};|&mathjax{x_2};|&mathjax{x_3};|&mathjax{x_4};|&mathjax{x_5};|h
|RIGHT:|RIGHT:|RIGHT:|RIGHT:|RIGHT:|c
|2|1|8|4|5|

これらのデータの分散を,次の二通りの方法で求めなさい.
+ 分散の定義通り求める
+ 問4の性質を用いる


////////////////////////////////////////
** 練習X2 [#X2]

*** PartI [#ve75985e]

''データの準備''

+ [[ex04data1.csv>Data:ex04data1.csv]] を自分の PC にダウンロードしてください
+ Classroom 上のこの課題のスプレッドシートにこの授業で説明した手順でインポートしてください.
>
「ファイル」>「インポート」>「アップロード」>(CSVファイルをアップロード)>「新しいシートを挿入する」
<
-- インポートの仕方は,[[ex02練習X1>../ex02#X1]] で説明している通りです.Excel で開くのではありません.

''四分位点などの計算と観察''

「おこづかい」列のデータ(サンプルサイズ 50)について,次のことをやりましょう

+ シート「main」の PartI の表のセルに,その上のセルに示された値を計算する式を書く
-- 「標準偏差」は [[''STDEVP 関数''>https://support.google.com/docs/answer/3094105?hl=ja]] (''STDEVではない'')で
-- 「第n四分位数」(n = 1, 2, 3)は, [[''QUARTILE 関数''>https://support.google.com/docs/answer/3094041?hl=ja]]で.使い方はこんなん
>
QUARTILE(範囲, n)  (範囲で指定したデータの第 n 四分位点の値を算出)
<
「第n四分位点」というのがどういう意味のものかは別のところで説明します/しています
+ 上記の値をメモしておきましょう
+ シート「ex04data1」の「おこづかい」列の一番上のひとの金額を10万円に変更しましょう
+ 3. と同様に値をメモして,どう変化したか/しなかったか観察しましょう

***PartII [#e0b739fa]

[[ex04data2.csv>Data:ex04data2.csv]] をダウンロードして上記と同じスプレッドシートにインポートして,「データ1」,「データ2」,「データ3」列のそれぞれのデータ(サンプルサイズ 100)について,次のことをやりましょう.

+ PartII の表のセルに,PartI と同様に計算式を書く
+ 上記の値をメモしましょう.3種類のデータのヒストグラムと表の値を観察して,3種類でどこが(ほぼ)同じでどこが違うか観察しましょう
+ 3つのデータそれぞれのヒストグラムを描く.ヒストグラムは3つ別々に描きましょう.横軸の範囲やパケットサイズは揃えてね.
描き方については,以下の「ちょっと便利な描き方」を参照してください.
>
ex04data2 のヒストグラムのちょっと便利な描き方
+ メニューから「挿入」 > 「グラフ」と選択.右側にグラフエディタが開く.
+ グラフの種類を「ヒストグラム グラフ」に.
+ 「データ範囲」を選んで,シート「ex04data2」の「データ1」から「データ3」までのデータが入っている範囲を選択(見出しの文字列も含める).
+ 「系列」のところに「データ1」,「データ2」,「データ3」という3つが並んで,3つの列のデータを色分けしたひとつのヒストグラムができる.
+  「行3を見出しとして使用」にチェックを入れる(3行目は見出しの文字が入ってるセルのはず).
+ 横軸縦軸の範囲やパケットサイズ等を設定する.横軸は -8 から 4 まで,縦軸は 30 まで,パケットサイズは 1 としよう.
+ そのグラフの右上の「:」から「グラフをコピー」.
>
注意: このとき(Chrome限定で?),「Ctrl+C, Ctrl+Vのキーボードショートカットをなんたら」というメッセージが出ることがあるようですが,そのまま無視して作業をやり直せば問題ないようです
(発生する条件が不明なので調査中).
<
+ 適当な場所でメニューから「編集」> 「貼り付け」すると,コピーしたグラフの複製が貼り付けられる.2つ複製して同じの3つにしよう.
+ それぞれのグラフの「系列」に「データ1」,「データ2」,「データ3」と並んでいるところから,不要なものをクリックして「削除」
+ 必要に応じて個別のグラフの設定をする(タイトルとか)




** 宿題 [#homework]

//&color(red){''工事中''};


&color(red){''次のことを次回の授業までに必ずやっておいてください.''};

+ [[ex05>../#ex05]] の &color(blue){★要予習★};

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS