#author("2020-12-14T00:16:10+09:00","default:takataka","takataka") #author("2020-12-14T15:51:32+09:00","default:takataka","takataka") * データ分析 2020年度 ex12 [#xa9b83a6] //&color(red){''工事中''}; #contentsx ** ex12A [#kadaiA] ''復習&練習'' 実際の統計データを入手して回帰分析をする練習 - 練習なので,完成見本を提示しておきます.見たらわかる通り,データをインポートして,グラフを描いて,数式ちょろっと書くだけ.データの性質や分析結果を考察する過程はここでは省略してます. - この課題は提出不要&採点なしです.自分で見本と見比べて間違いを修正しましょう. *** データの入手 [#g7511147] e-Stat https://www.e-stat.go.jp/ という政府統計ポータルサイトから,「都道府県別の人口」と「都道府県別の最低賃金」のデータを入手して,回帰分析してみましょう. + 「都道府県・市区町村のすがた(社会・人口統計体系)」 https://www.e-stat.go.jp/regional-statistics/ssdsview へ(ブラウザで右クリック > 「新しいタブで開く」とかにしとくと,このページといったりきたりしやすいかも). + 「都道府県データ」にチェックを付けて,「データ表示」を押す + 「地域選択」の画面になる + [2]地域候補 で「全てを選択」すると,「地域候補」にリストされてた項目が全て「選択中地域」へ移動する + 「00000_全国」は不要なので,選択して「地域を削除」する(あとでインポートしたシートを手動で編集してもよいが...) + 「確定」すると,「表示項目選択」の画面になる + [1] 絞り込みの「分野」がデフォルトで 「A 人口・世帯」になっていて,[2] 候補項目 の中に「A1101 総人口(人)」というのがあるはず. + それをクリックして,「項目を選択」 + [1] 絞り込みで以下を選択 -- 分野 「F 労働」 -- 大分類 「F6 就業条件」 -- 小分類 「F65 最低賃金」 + [2] 候補項目 で 「F6501 地域別最低賃金」をクリックして,「項目を選択」 + 「選択中項目」が「A1101 総人口(人)」と 「F6501 地域別最低賃金」になったことを確認して,「確定」 + 人口と最低賃金の表が表示されるはず.上部の「調査年」は2018年度になっているはず(なってなかったら選択しよう). + 右上の「ダウンロード」を押す + 「表ダウンロード」というポップアップウィンドウが出現する.「ダウンロード範囲」のチェックを「ページ上部の選択項目」に変更する以外は,デフォルトのままで大丈夫 + 「ダウンロード」を押して先へ進み,CSVファイルをダウンロードする. -- ダウンロードした CSV ファイルには,FEI_PREF_数字列.csv という名前が付くようです.数字列部分は単純にダウンロード処理の通し番号(?)がついてるだけっぽいです. *** スプレッドシートの編集 [#za2f1859] + [[Google Classroom 上のこの課題>https://classroom.google.com/u/0/w/MTYxODcxNTM2OTg0/tc/MjQzNjE3NTIxNTQ5]] のところに,以下の2つのスプレッドシートがあることを確認しよう -- ex12kadaiA 自分が編集するためのもの -- ex12kadaiA_sample 見本 + ex12kadaiA に,ダウンロードした CSV ファイルをインポートしよう + 人口が[人]単位だと大きすぎて扱いづらい(回帰直線の式が解釈しにくい,計算誤差の影響が出やすい)ので,列を増やして[千人]単位の値を求めよう + 見本と見比べながら編集しよう.表には単に数値を入力するのではなく,数式を入力すること. コピペして見本を再現しても何の意味もありません.何をやっているか考えながらやってください. + 求めた値をメモしておこう.また,人口200万人の都道府県の最低賃金はいくらになると予測されるかも計算してメモしておこう. + 求めた値をメモしておこう.また,人口200万人相当の値をセルに入力し,そのときの最低賃金の予測値を算出してメモしておこう. ** ex12B [#kadaiB] ''レポート課題 part I'' データを入手して簡易的な回帰分析をしよう - この ''part I'' で入手したデータを回帰分析して,次回出題の ''part II'' でレポートとして仕上げてもらう予定です - ''&color(red){以下にデータの入手法の説明がありますが,各自どのデータを使うべきかは決まっています.間違えないようにしてください.};'' 自分がどのデータを使うべきかは, [[Google Classroom 上のこの課題>https://classroom.google.com/u/0/w/MTYxODcxNTM2OTg0/tc/MjQwNzM5OTYxMjY3]]の「データ割当表」というスプレッドシートで確認してください - データの入手法の指示にしたがって CSV ファイルを入手して, [[Google Classroom 上のこの課題>https://classroom.google.com/u/0/w/MTYxODcxNTM2OTg0/tc/MjQwNzM5OTYxMjY3]]のスプレッドシートへインポートしましょう -- インポートしたシートの名前はわかりやすいものに変えても構いません - 指示された値を説明変数・被説明変数として,次のことをやりましょう ++ 相関係数・決定係数を計算する(セルに正しい数式を書くこと) ++ 回帰直線の傾きと切片を計算する(セルに正しい数式を書くこと) ++ 「説明変数の値」の右隣のセルに適当な値を入力し,「予測値」の右隣のセルに,その説明変数の値に対する被説明変数の予測値を計算する数式を書く --- 「説明変数の値」は,データDのひとは 10[g] に,それ以外のひとは 2020[年] にしてください ++ 説明変数を横軸,被説明変数を縦軸とする散布図を描き,トレンドライン,その式と決定係数も表示する. - *** データ A: 「世界の年平均気温の変化」 の入手法 [#dataA] 気象庁のサイト https://www.jma.go.jp/jma/index.html から1891年から2019年までの世界の年平均気温のデータを入手して回帰分析しよう - 入手先: https://www.data.jma.go.jp/cpdinfo/temp/list/an_wld.html の「数値ファイル(CSV形式)はこちらから」のところ - 説明変数: 「年」 - 被説明変数: 「世界全体」.この値は,「基準値」からの偏差であることに注意.「基準値」の定義は上記ページに記されています - 注意: -- CSV をインポートした際に,「+0.04」といった値がちゃんと数値とみなされないことがあるかもしれません(数値と解釈されてれば 「+」 ついて見えないはず).そういうときは,範囲を指定して,メニューから「表示形式」 > 「数字」 > 「数値」と選択すれば ok -- 考察する際には,被説明変数が基準値からの偏差であることに注意しましょう(被説明変数の値が -0.5 というのは,気温 -0.5 度ではない). *** データ B: 「北極海氷域面積の変化」 の入手法 [#dataB] 気象庁のサイト https://www.jma.go.jp/jma/index.html から1979年から2019年までの極域の海氷域面積のデータを入手して回帰分析しよう - 入手先: https://www.data.jma.go.jp/gmd/kaiyou/shindan/a_1/series_global/series_global.html のグラフの下の「グラフのデータ(単位:万平方キロメートル)のところ(これは CSV ファイルではありません,↓の注意参照) - 説明変数: 「年」 - 被説明変数: 「北極域年平均値」 (単位はデータのリンク先のところに記されています) - 注意: -- 入手可能なデータの拡張子が .csv ではなく .txt となっています.ダウンロードする際は,CSV のときと同様に,ブラウザで右クリックして「リンク先を別名で保存」等しましょう -- 拡張子は .txt ですが,ファイルの中身は CSV の形式で書かれているので, Google スプレッドシートに .csv と同様にインポートできます *** データ C: 「二酸化炭素濃度の変化」 の入手法 [#dataC] 気象庁のサイト https://www.jma.go.jp/jma/index.html から1987年から2019年までの二酸化炭素濃度の年平均値のデータを入手して回帰分析しよう - 入手先: https://ds.data.jma.go.jp/ghg/kanshi/obs/co2_yearave.html の「数値データ」のところ - 説明変数: 「年」 - 被説明変数: 「二酸化炭素濃度の年平均値(綾里)[ppm]」 - 注意: -- 注釈に記されているように,2011年の値は本当は特別扱いが必要かもしれませんが,この課題では気にせずそのまま扱って構いません -- 注釈に記されているように,2019年の値は速報値なので他と同じように扱うべきではないかもしれませんが,この課題では気にせずそのまま扱って構いません -- ppm という単位の意味はこちらをどうぞ: Wikipedia https://ja.wikipedia.org/wiki/Ppm *** データ D: 「おもりの重さとバネの長さの関係」の入手法 [#dataD] 「データ分析」のサイト https://www-tlab.math.ryukoku.ac.jp/wiki/?Data/2020 からおもりの重さとバネの長さのデータを入手して回帰分析しよう - 入手先: http://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/ex09spring.csv - 説明変数: 「おもりの重さ[g]」 - 被説明変数: 「バネの長さ[mm]」