データ分析 2021年度 ex09†
課題A†
回帰分析入門(3) - 方法を理解したうえでもう一度表計算ソフトに頼ってやってみよう -
- Google Classroom 上のこの課題のスプレッドシートに以下の CSV ファイルをインポートしましょう
注意: たいていの場合,ブラウザは,ファイルを自分の PC の中にある自分用の「ダウンロード」という名前のディレクトリ/フォルダにダウンロードする設定になっています.ダウンロード先のディレクトリ/フォルダにすでに同名のファイルが存在していた場合,ブラウザが気をきかせて,「hoge.csv」という名前を勝手に「hoge (1).csv」とかに変えて保存することがあります.以下の二つのファイルは,以前にもダウンロードしたことがあるはずですので,そうなるかもしれません.ですが,中身は同じデータのはずです.「hoge (1).csv」みたいな名前のまま扱うのは混乱のもとですし超かっちょ悪いです.「ダウンロード」に存在している古い方を削除してからダウンロードし直しましょう.
- 「Sheet1」に,「気温」を横軸,「アイス売上数」を縦軸にとった散布図を描きましょう
- 横軸縦軸の範囲は ex07課題A と同じで
- トレンドラインも描きましょう.トレンドラインの設定時には,「ラベル」オプションのところをいじって回帰直線の式がグラフ中に表示されるようにし,さらに,「決定係数を表示する」にチェックを入れましょう
- グラフに表示される \( R^2 \) の値がその決定係数の値です.この値の意味は,あとの授業で解説します.値をメモしておきましょう.
- 「気温の平均」と「売上数の平均」と書かれたセルの下のセルに,それぞれの値を求める数式を入れましょう
- 「回帰直線の傾き」と書かれたセルの下のセルに,LINEST関数を用いた式を書いて,回帰係数(傾きと切片)の値を求めましょう.ただし,グラフと同様に,気温を説明変数,アイス売上数を被説明変数としてください.
- 「売上数予測値 [個]」と記されたセルの右のセルに,「気温の値 [度]」から売上数の予測値を計算する式を書きましょう.
- 気温 \( x \) の値をいろいろ変えて,売上数の予測値がどのように変化するか観察しましょう.特に,次のときの値をメモしておきましょう.
- 気温 10, 20, 30 度のとき
- 気温が平均値のとき(予測値はどんな値になってるだろう?)
- ex08gorigori.csv の最初のデータは,気温が 5.56 で売上数が 8 です.この値を手動でいじって,回帰分析の結果が,データ中に存在する 外れ値 (他と比べて極端に大きかったり小さかったりする値)の影響をどのように受けるか調べよう.
セルの値を書き換えて,回帰式やグラフがどのように変化するか観察してください.
- 最初のデータの売上数を 8 から 50, 100, 1000 に変えてみる
- 売上数を 8 に戻して,気温を 30, 50 に変えてみる
- 最後に (5.56, 8) に戻しておこう
Moodle で Quiz を受験†
この科目のMoodleコース へ行って Quiz を受験しましょう.
開始時刻等は授業時間中にお知らせします.
次のことを次回の授業までに必ずやっておいてください
(1) ex10 の以下の Notebook を閲覧実行し動画を視聴してください
決定係数/データ分析における注意点
ex10notebookA.ipynb | Data2021-10-movie1 (24m)
(2) ex10課題A