データ分析 2023年度 ex09†
Quiz†
授業時間中に Moodle 上でQuiz(小テスト)を行います.
開始時刻等は授業時間中にお知らせします.
Moodle へのアクセスの仕方については,第1回のページ へ
Notebookと授業動画†
今回の Notebookと授業動画 のうち「★要予習★」のものは,授業開始までに予習しているはずです.
もしもまだの場合,まずはそれらの notebook を実行し動画を視聴してください.
練習X1†
二酸化炭素濃度の変化を回帰分析する
気象庁のサイト https://www.jma.go.jp/jma/index.html から二酸化炭素濃度の年平均値のデータを入手して回帰分析しよう
Step1 データの準備†
- 以下の入手先から CSV ファイルをダウンロードしましょう
入手先: https://www.data.jma.go.jp/ghg/kanshi/obs/co2_yearave.html の「数値データ(CSV形式)」のところ(※)
- Google Classroom 上のこの課題のスプレッドシートに上記の CSV ファイルをインポートしましょう
注意:
- CSVファイル内の注釈に記されているように,2011年等の一部の年の値は本当は特別扱いが必要かもしれませんが,この課題ではそのまま扱って構いません
- 同じく,2022年の値は速報値なので他と同じように扱うべきではないかもしれませんが,この課題では気にせずそのまま扱って構いません
- ppm という単位の意味はこちらをどうぞ: Wikipedia https://ja.wikipedia.org/wiki/Ppm
※ この数値データのページへは,次のようにたどることで到達できます
- 気象庁のサイトトップ のページ上部の「各種データ・資料」をクリック
- 「データ集」の「二酸化炭素(CO2)」をクリック
- 月平均値のデータが表示される
- ページ下部の「大気中二酸化炭素濃度の観測結果(年平均値)」をクリック
Step2 回帰分析†
「年」を説明変数,「二酸化炭素濃度の年平均値(綾里)[ppm]」を被説明変数として回帰分析しよう
- 「main」に散布図とトレンドラインを描きましょう
- 横軸の範囲は「年」の範囲に合わせ,縦軸の範囲は [300, 450] としましょう
- 横軸縦軸に適切なタイトルを付けましょう
- トレンドラインの設定は 「グラフエディタ」 > 「カスタマイズ」 > 「系列」 から
- 「main」の表の「練習X1」の行に,次のものを求める数式を書こう
- 回帰直線の傾きと切片: LINEST 関数を使うこと
- 相関係数とその2乗の値: 相関係数は CORREL 関数(または PEARSON 関数)で求まります.2乗の方は,=D7*D7 とかするだけ
- 決定係数: RSQ 関数で求まります
- 表示される数値の桁数を変更してみましょう.Google Sheets 上部の「.0」や「.00」のボタンを押せば桁数を増減できます.それぞれ 5 桁表示されるようにしましょう.
- 相関係数や決定係数のように 0.987... のような値となるものについては,先頭の 0 は数えないで 5 桁と考えましょう(この辺のことは,後日「誤差と有効数字」というテーマの回に学びます)
Step3 考察その1†
- 分析結果から,二酸化炭素濃度がどのような傾向にあるか, etc. を考えよう
- 求めた数値をメモしておこう
Step4 考察その2†
「回帰分析入門(3) 性質と注意点」に出てきたことを実際のデータで確かめてみよう.
- 1987年の二酸化炭素濃度の値を 450 に変えると何が起こるか観察しよう.あとで値をもとに戻すのを忘れずに
- 「練習X1のデータで」と書かれたセルの下のセルに,説明変数の平均,被説明変数の平均,説明変数の値が平均値のときの被説明変数の予測値,を求める式を書いて得られる値を観察しよう
練習X2†
練習X1と同様の分析を別のデータでやってみましょう
- ex09co2.csv をダウンロードして,練習X1でいじったスプレッドシートにインポートしましょう
- 練習X1と同様に散布図を描いたり表に数式を入力したりしましょう
- 求めた値をメモし,考察しましょう(練習X1の考察その2の部分はやらなくてよい)
- こちらのデータは,練習X1のデータの二酸化炭素濃度の値に適当な乱数値を加えて作った人工的なものです.散布図,相関係数,決定係数の違いを観察しましょう
次のことを次回の授業までに必ずやっておいてください.
- ex10 の ★要予習★