データ分析 2021年度 ex07†
工事中
課題A†
回帰分析入門(1) - 表計算ソフトに頼ってやってみよう -
この課題そのものには点数は付きませんし,提出も不要です.しかし,あとでこの内容に関する小テストを行います.そのできや点数には影響しますので,必ず取り組んでください.質問は Teams 上でどうぞ.
この課題についての解説動画: Data2021-07-movie2
スプレッドシートとデータの準備†
- ex08gorigori.csv を自分の PC にダウンロードしてください
- Google Classroom 上のこの課題のスプレッドシートにこの授業で説明した手順でインポートしてください.
問題の設定とデータの観察†
インポートしたデータは,あるアイス販売店で集計した,1日ごとの平均気温(単位は[度])とその日のアイス売上数(単位は[個])を表したものです.
気温を \( x \) [度],アイス売上数を \( y \) [個] としたとき, \( y \) を \( x \) の式で表すことを考えてみましょう.
そのような式が求まれば,平均気温からその日のアイス売上数を予測することができそうです.
ここでは,その式として,
\[ y = ax+b
\]
という単純な直線の方程式を考えてみます.
まずは,インポートしたデータの散布図を描きましょう
- 横軸の範囲は [-5, 40],縦軸の範囲は [0, 130] としてください
- 横軸縦軸それぞれにタイトルをつけてください.タイトルは,列の見出しと同じにするのがよいでしょう
「予測値」列の作成†
「シート1」に,上記の \( a \) と \( b \) の値を表すセルがあります.
その値を使い, 個々の気温の値 \( x_n \) に対して \( ax_n + b \) という値を計算する列をつくりましょう.
列の見出しには,「予測値」と記しておいてください.
データと予測値の直線を重ねたグラフの作成†
散布図に直線 \( y=ax+b \) を重ねたグラフを描きましょう.
先に作った散布図とは別に,新しいグラフを挿入します.
- メニューから 「挿入」 > 「グラフ」 を選択
- グラフエディタで 「グラフの種類」を「折れ線グラフ」に
- 「データ範囲」として, ex08gorigori シートのデータ値が存在する範囲を選択(一番上の見出しも含めたらよい)
- 横軸が行番号で3つの折れ線グラフが描かれる
- グラフエディタの「設定」タブで,「X軸」を気温にして「系列」から気温を削除
- 「カスタマイズ」タブで,「すべての系列に適用」を「アイス売上数」に切り替えて,「ポイントのサイズ」と「線の太さ」を適切に変更
- 最初に作った方のグラフと同様に,横軸縦軸の範囲とタイトルを設定
- \( a \) と \( b \) の値を表すセルの値を変更すると,予測値の直線のグラフが変化するはずです.\( a \) と \( b \) の値をいろいろ変えて,データにうまくあてはまるような値を探しましょう.
ソフトに直線の式を求めさせてみる†
- 先に描いた散布図の方のグラフエディタを開き,「カスタマイズ」タブの「カスタマイズ」 > 「系列」で,「トレンドライン」にチェックを付け,「ラベル」として「方程式を使用」を選択してみましょう
- 散布図の方に直線が描かれ,ラベルとして直線の式が示されるはずです.
次回以降解説しますが,この直線は,この「気温」対「アイス売上数」のデータによくあてはまる(予測の誤りが少ない)ものになっています.
- 上記の直線の傾きと切片の値は,関数を使って求めることもできます.
以下のリンク先の文書も参考にしながら,「シート1」のセルF8, F9, F10にそれぞれ,SLOPE関数,INTERCEPT関数, LINEST関数を使った式を書いて,それらの値が求まることを確認しましょう.引数の順番に注意.
- 得られた傾きと切片の値をノート等にメモしておきましょう(有効数字を考えると下の方の桁の値は不確かですが,すべての桁の値をメモしといてください).また,気温とアイス売上数の間にどんな関係があるか,グラフと式を眺めて考えてみましょう.
別のデータでも...†
動画中ではこの課題の続きとして別のデータでもやってねと言ってますが,別の課題とすることにしました.