#author("2024-09-13T17:53:41+09:00","default:takataka","takataka") #author("2024-10-09T23:12:11+09:00","default:takataka","takataka") * データ分析 2024年度 ex04 [#xa9b83a6] &color(red){''工事中''}; //&color(red){''工事中''}; #contentsx //////////////////////////////////////// ** Quiz [#quiz] 授業時間中に Moodle 上でQuiz(小テスト)を行います. 開始時刻等は授業時間中にお知らせします. Moodle へのアクセスの仕方については,[[第1回のページ>../ex01#moodle]] へ ** Notebookと授業動画 [#g7418074] [[今回の Notebookと授業動画>../#ex04]] のうち「&color(blue){★要予習★};」のものは,授業開始までに予習しているはずです. もしもまだの場合,まずはそれらの notebook を実行し動画を視聴してください. //////////////////////////////////////// ** 練習X1 [#X1] *** 問1 [#y8b28a9b] ex04notebookA の「a 倍して b を加えると?」に示されていることを証明しなさい. *** 問2 [#kbf0e389] データ &mathjax{x_1, x_2, \ldots, x_N}; ( &mathjax{N}; は2以上の整数)の平均が &mathjax{-10}; で分散が &mathjax{5}; であるとき, &mathjax{ y_n = \frac{x_n + 10}{\sqrt{5}}\ (n = 1, 2, \ldots , N) }; の平均と分散を求めなさい. *** 問3 [#g2791b2c] データ &mathjax{x_1, x_2, \ldots, x_N}; ( &mathjax{N}; は2以上の整数)の平均が &mathjax{5}; で分散が &mathjax{3}; であるとき, &mathjax{ y_n = \frac{x_n + t}{s}\ (n = 1, 2, \ldots , N) }; の平均が &mathjax{ 0 }; で 分散が &mathjax{1}; になるように &mathjax{s, t}; を定めたい. ただし,&mathjax{s>0}; とする.&mathjax{s, t}; の値を求めなさい. *** 問4 [#dd485c72] データ &mathjax{x_1, x_2, \ldots, x_N}; ( &mathjax{N}; は1以上の整数)の平均を &mathjax{\bar{x}};,分散を &mathjax{s^2}; とおく. このとき, #mathjax{{ s^2 = \frac{1}{N}\sum_{n=1}^N x_n^2 - \bar{x}^2 }} が成り立つことを証明しなさい( &mathjax{(\mbox{分散}) = (\mbox{二乗の平均}) - (\mbox{平均の二乗})}; ). *** 問5 [#g01b57ce] &mathjax{N = 5}; 個の値から成るデータ &mathjax{x_1, x_2, \ldots, x_N}; が以下のように与えられるとする. |&mathjax{x_1};|&mathjax{x_2};|&mathjax{x_3};|&mathjax{x_4};|&mathjax{x_5};|h |RIGHT:|RIGHT:|RIGHT:|RIGHT:|RIGHT:|c |2|1|8|4|5| これらのデータの分散を,次の二通りの方法で求めなさい. + 分散の定義通り求める + 問4の性質を用いる //////////////////////////////////////// ** 練習X2 [#X2] *** PartI [#ve75985e] ''データの準備'' + [[ex04data1.csv>Data:ex04data1.csv]] を自分の PC にダウンロードしてください + Classroom 上のこの課題のスプレッドシートにこの授業で説明した手順でインポートしてください. > 「ファイル」>「インポート」>「アップロード」>(CSVファイルをアップロード)>「新しいシートを挿入する」 < -- インポートの仕方は,[[ex02練習X1>../ex02#X1]] で説明している通りです.Excel で開くのではありません. ''四分位点などの計算と観察'' 「おこづかい」列のデータ(サンプルサイズ 50)について,次のことをやりましょう + シート「main」の PartI の表のセルに,その上のセルに示された値を計算する式を書く -- 「標準偏差」は [[''STDEVP 関数''>https://support.google.com/docs/answer/3094105?hl=ja]] (''STDEVではない'')で -- 「第n四分位数」(n = 1, 2, 3)は, [[''QUARTILE 関数''>https://support.google.com/docs/answer/3094041?hl=ja]]で.使い方はこんなん > QUARTILE(範囲, n) (範囲で指定したデータの第 n 四分位点の値を算出) < 「第n四分位点」というのがどういう意味のものかは別のところで説明します/しています + 上記の値をメモしておきましょう + シート「ex04data1」の「おこづかい」列の一番上のひとの金額を10万円に変更しましょう + 3. と同様に値をメモして,どう変化したか/しなかったか観察しましょう ***PartII [#e0b739fa] [[ex04data2.csv>Data:ex04data2.csv]] をダウンロードして上記と同じスプレッドシートにインポートして,「データ1」,「データ2」,「データ3」列のそれぞれのデータ(サンプルサイズ 100)について,次のことをやりましょう. + PartII の表のセルに,PartI と同様に計算式を書く + 上記の値をメモしましょう.3種類のデータのヒストグラムと表の値を観察して,3種類でどこが(ほぼ)同じでどこが違うか観察しましょう + 3つのデータそれぞれのヒストグラムを描く.ヒストグラムは3つ別々に描きましょう.横軸の範囲やパケットサイズは揃えてね. 描き方については,以下の「ちょっと便利な描き方」を参照してください. > ex04data2 のヒストグラムのちょっと便利な描き方 + メニューから「挿入」 > 「グラフ」と選択.右側にグラフエディタが開く. + グラフの種類を「ヒストグラム グラフ」に. + 「データ範囲」を選んで,シート「ex04data2」の「データ1」から「データ3」までのデータが入っている範囲を選択(見出しの文字列も含める). + 「系列」のところに「データ1」,「データ2」,「データ3」という3つが並んで,3つの列のデータを色分けしたひとつのヒストグラムができる. + 「行3を見出しとして使用」にチェックを入れる(3行目は見出しの文字が入ってるセルのはず). + 横軸縦軸の範囲やパケットサイズ等を設定する.横軸は -8 から 4 まで,縦軸は 30 まで,パケットサイズは 1 としよう. + そのグラフの右上の「:」から「グラフをコピー」. > 注意: このとき(Chrome限定で?),「Ctrl+C, Ctrl+Vのキーボードショートカットをなんたら」というメッセージが出ることがあるようですが,そのまま無視して作業をやり直せば問題ないようです (発生する条件が不明なので調査中). < + 適当な場所でメニューから「編集」> 「貼り付け」すると,コピーしたグラフの複製が貼り付けられる.2つ複製して同じの3つにしよう. + それぞれのグラフの「系列」に「データ1」,「データ2」,「データ3」と並んでいるところから,不要なものをクリックして「削除」 + 必要に応じて個別のグラフの設定をする(タイトルとか) ** 宿題 [#homework] //&color(red){''工事中''}; &color(red){''次のことを次回の授業までに必ずやっておいてください.''}; + [[ex05>../#ex05]] の &color(blue){★要予習★};