#author("2020-12-01T08:39:08+09:00","default:takataka","takataka") #author("2020-12-01T08:40:39+09:00","default:takataka","takataka") * データ分析 2020年度 ex10 [#xa9b83a6] //&color(red){''工事中''}; //#contentsx ** ex10A [#kadaiA] ''回帰分析入門(3)'' - 方法を理解したうえでもう一度表計算ソフトに頼ってやってみよう - //> //&size(13){''この課題そのものには点数は付きませんし,提出も不要です.しかし,あとでこの内容に関する小テストを行います.そのできや点数には影響しますので,必ず取り組んでください.質問は Teams 上でどうぞ.''}; //< ''(1) 準備'' [[Google Classroom 上のこの課題>https://classroom.google.com/w/MTYxODcxNTM2OTg0/tc/MjM3Njk3NTU2OTc3]]のスプレッドシート,以下の二つの CSV ファイルをインポートしましょう > ''&color(#0000a0){注意: たいていの場合,ブラウザは,ファイルを自分の PC の中にある自分用の「ダウンロード」という名前のディレクトリ/フォルダにダウンロードする設定になっています.ダウンロード先のディレクトリ/フォルダにすでに同名のファイルが存在していた場合,ブラウザが気をきかせて,「hoge.csv」という名前を勝手に「hoge (1).csv」とかに変えて保存することがあります.以下の二つのファイルは,以前にもダウンロードしたことがあるはずですので,そうなるかもしれません.ですが,中身は同じデータのはずです.「hoge (1).csv」みたいな名前のまま扱うのは混乱のもとですし超かっちょ悪いです.ダウンロードし直さないで以前のを使うか,「ダウンロード」に存在している古い方を削除してからダウンロードするか,どちらかにしましょう.};'' < - [[ex08gorigori.csv>Data:ex08gorigori.csv]] - [[ex06mpi.csv>Data:ex06mpi.csv]] ''(2) ゴリゴリくん'' + 「シート1」に,「気温」を横軸,「アイス売上数」を縦軸にとった散布図を描きましょう -- 横軸縦軸の範囲は [[ex08課題A>../ex08#kadaiA]] と同じで -- トレンドラインも描きましょう.トレンドラインの設定時には,「ラベル」オプションのところをいじって回帰直線の式がグラフ中に表示されるようにし,さらに,「''決定係数''を表示する」にチェックを入れましょう -- グラフに表示される &mathjax{R^2}; の値がその決定係数の値です.この値の意味は,あとで解説します.値をメモしておきましょう. + 「気温の平均」と「売上数の平均」と書かれたセルの下のセルに,それぞれの値を求める数式を入れましょう + 「回帰直線の傾き」と書かれたセルの下のセルに,LINEST関数を用いた式を書いて,回帰係数(傾きと切片)の値を求めましょう.ただし,グラフと同様に,気温を説明変数,アイス売上数を被説明変数としてください. + 「気温の値 [度]」の右のセルの値が気温 &mathjax{x}; を表すとき,上記の回帰係数&mathjax{\hat{a}, \hat{b}}; を用いれば,その気温のときのアイス売上数の予測値 &mathjax{\hat{y}}; を #mathjax{{ \hat{y} = \hat{a}x + \hat{b} }} と計算することができます.「売上数予測値 [個]」と書かれたセルの右のセルに,この計算をする式を書きましょう. + 気温 &mathjax{x}; の値をいろいろ変えて,売上数の予測値がどのように変化するか観察しましょう.特に,次のときの値をメモしておきましょう. -- 気温 10, 20, 30 度のとき -- 気温が平均値のとき(予測値はどんな値になってるだろう?) + ex08gorigori.csv の最初のデータは,気温が 5.56 で売上数が 8 です.この値を手動でいじって,回帰分析の結果が,データ中に存在する ''外れ値'' (他と比べて極端に大きかったり小さかったりする値)の影響をどのように受けるか調べよう. セルの値を書き換えて,回帰式やグラフがどのように変化するか観察してください. ++ 最初のデータの売上数を 8 から 50, 100, 1000 に変えてみる ++ 売上数を 8 に戻して,気温を 30, 50 に変えてみる ++ 最後に (5.56, 8) に戻しておこう ''(3) 数学vs情報'' + 「シート1」に,次の二つの散布図を描きましょう.それぞれ,縦軸横軸の範囲は [0, 100] として,ゴリゴリくんのときと同じように,グラフの中にトレンドライン,その式,決定係数を表示させましょう. -- ex06mpi.csv の「数学」を横軸,「情報」を縦軸とした散布図 -- 逆に,「情報」を横軸,「数学」を縦軸とした散布図 -- 二つのグラフの区別がつくように,横軸縦軸のタイトルをきちんとつけよう + 枠線で囲まれた表のセルの適切な位置に LINEST関数を使った式を書いて,表に記された値を求められるようにしましょう. + グラフや式の値を観察しましょう. -- 決定係数の値をメモしておきましょう -- これら二つの回帰分析は,説明変数と被説明変数を入れ替えたものとなっています. それぞれで得られた回帰式は,実質同じものと言えるでしょうか? &mathjax{y = ax+b}; を &mathjax{x}; について解けば &mathjax{x = \frac{y}{a} - \frac{b}{a}}; という式が得られますが,そうなっているでしょうか? それぞれで得られた回帰式は,実質同じものと言えるでしょうか? &mathjax{y = ax+b}; を &mathjax{x}; について解けば &mathjax{x = \frac{y}{a} - \frac{b}{a}}; という式が得られますが,2つの回帰直線はそういう関係になっているでしょうか? -- 実は,そうはなっていません.このことは,それぞれの直線がぜんぜん異なる点を通っていることからも見てとれます.数学 89, 情報 47 のひととか. このことについては,あとで説明します.