MVA/2023/omake の履歴(No.1)

\( U \) は \( m\times r \) 列直交行列（各列のベクトルが直交し大きさが1）
\( V \) は \( n\times r \) 列直交行列
\( S \) は \( r\times r \) 対角行列で，その対角要素 \( \sigma_1, \sigma_2, \ldots, \sigma_r \) は全て正

です．\( \sigma_1, \sigma_2, \ldots, \sigma_r \) を \( X \) の特異値といい，この行列分解を特異値分解といいます．

このとき，\( X^{\rm T}X \) を \( V \) と \( S \) を用いて表しなさい．

Step1 ができたらいったん takataka に見せてください．Step2 につながるお話をします．

↑

Step2†

Step1 が（高橋の説明も含めて）分かると，データを表す \( N\times D \) 行列 \( X \) が与えられたとき（平均は \( \mathbf{0} \) とします）， \( X \) の分散共分散行列 \( \frac{1}{N}X^{\rm T}X \) を計算してからその固有値固有ベクトルを求める必要はなく，\( X \) を特異値分解した結果からそれらが求まることが分かります． ex05notebookB の適当な箇所にセルを追加して，Vの固有値固有ベクトルをXの特異値分解（np.linalg.svd 使いましょう）を用いて計算して表示するコードを書きなさい．

↑

omake06†

画像処理してみよー

omake06.ipynb
期限: ~~第8回演習開始時~~ 第9回の時間中にいったん見せてもらえれば（未完成でも），第10回演習開始時まで延長します

↑

omake07†

自分で適当なデータを探して，Colab notebook を使って重回帰分析または主成分分析をやってみましょう．期限は特に設けませんので，できた時点で takataka に見せてください．データの入手の仕方や前処理のやり方などなど，随時相談にのります．

↑

omake08†

もっと手書き数字認識してみよー

ex11 課題C の続きとして，次のことをやってみましょう

(1) 主成分分析 + 二次判別分析による識別の実験で，削減後の次元数をいろいろ変えて学習データとテストデータに対する正解率を算出し，横軸に次元数，縦軸に正解率をとったグラフを描きましょう．一つのグラフに学習・テスト両方の値を描くとよいです．次元数を減らさないときの値も含めるとよいです．

(2) scikit-learn で実装されている他の手法でも実験してみましょう．おすすめは次の二つ（やってみるのはどちらか一方だけでもよいです）．

K-近傍法 https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html
ランダムフォレスト https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html

次元削減しないでデータをそのまま使ったらよいです．主成分分析 + 二次判別分析の場合には次元数を変えると結果が変わりました．この次元数のように，自動的には推定されず人間が設定する必要のあるパラメータを「ハイパーパラメータ」といいます．上記の二つの手法にもハイパーパラメータがあります．前者では `n_neighbors` がそれです．後者にはいろいろありますが，`n_estimators` が代表的です．これらの値を変えて結果を観察しましょう．

MVA/2023/omake の履歴(No.1)

多変量解析及び演習 2022年度 おまけ課題†

はじめに†

omake02†

omake03†

omake04†

omake04A†

omake04B†

omake05†

Step1†

Step2†

omake06†

omake07†

omake08†

多変量解析及び演習 2022年度おまけ課題†