SJS/2017/ex09

SJS2017 ex09†

SJS2017 ex09

↑

これまでの分†

以前の分を全て報告してokをもらってから，今回分にすすみましょう．

↑

準備†

今回の課題では，gnuplot を使います．以前の作業でインストール済みのはずですが，インストールをやり直す必要があるかもしれません． takataka に相談してください．

↑

課題A†

↑

シグモイドを gnuplot でぐりぐり†

次のような関数 \( s(x) \) を考える．これはシグモイド関数と呼ばれるものの一つの形である．

\[ s(x) = \frac{1}{1+\exp(-x)} \]

gnuplot でこの関数のグラフを描いてみよう．参考： wiki:Docs/gnuplot

$ gnuplot
gnuplot> s(x) = 1.0/(1+exp(-x))
gnuplot> plot s(x)

式の形とこの結果を元に，次の問に答えなさい．

s(0) の値はいくつ？
s(x) の値域はどんな？

次に，\( a, b, c \) を定数として，\( z = s(ax+by+c) \) とおいてみる．(x,y,z)の3次元空間にこの曲面を描いて眺めよう．マウスでで3次元グラフをぐりぐり回したりズームしたりできるはず．

gnuplot> z(x, y, a, b, c) = s( a*x + b*y + c )
gnuplot> splot z(x,y,1,0,2)
gnuplot> splot z(x,y,1,0,-2)
gnuplot> splot z(x,y,1,1,-2)
gnuplot> splot z(x,y,1,-1,-2)

ぐりぐりできない場合は，デフォルトの描画環境が対応してないのかもしれない．

gnuplot> set terminal qt     出力先を Qt に変更
gnuplot> replot                    再描画．これでぐりぐりできるかも

上記でうまくいかない場合は，次を試してみよう

gnuplot> set terminal x11    出力先を X11 に変更．
gnuplot> replot                   再描画．これでぐりぐりできるかも

↑

びぶん†

\( z = s(x) \) の導関数 \( \frac{dz}{dx} \) を求めよう．求めた式をながめていると，\( z \) 自身を使うと簡潔に

\[ \frac{dz}{dx} = z \times \mbox{hoge} \]

という形に表すことができることに気づく．hoge の部分には，\( z \) を使った式が入る．これを求めなさい．

↑

びぶんぶん†

\( X = ax+by+c \) とおくと，高校で習った合成関数の微分を思い出すと，

\[ \frac{\partial z}{\partial a} = \frac{\partial}{\partial a} s(ax+by+c) = \frac{\partial s(X)}{\partial X}\frac{\partial X}{\partial a} \]

である．これと↑の結果を用いて，\( z \) の \( a \) に関する微分， \( b \) に関する微分，\( c \) に関する微分をそれぞれ，\( z,a,b,c,x,y \)を用いた式で表しなさい．

↑

びぶんぶんぶん†

\( t \) を定数として，

\[ h = -t\log z - (1-t) \log (1-z) \]

とおく．\( \frac{\partial h}{\partial a} \)，同 b, c を↑と同様に式で表しなさい．

↑

なんじゃこりゃ†

次の課題を待て

↑

課題B†

以下を読んで理解しなさい．

↑

ロジスティック回帰と2クラス識別†

\( D \)次元特徴ベクトルで与えられるデータを「ほげクラス」に属するものとそれ以外（「ほげじゃないもののクラス」）に分類する問題（すなわち2クラスの識別問題）を考える．以下では簡単のため，\( D = 2 \) の場合に限定する．

ある2次元データを \( \bm{x} = (x, y) \) とする．このとき，先の課題で登場した \( z = s(ax+by+c) \) という式の値によって，データ \( \bm{x} \) が「ほげクラス」に属する確率を推定することにしよう（このようなモデルをロジスティック回帰モデルという）．パラメータ \( a, b, c \) を調節するとこの推定確率が変化するので，クラス既知の学習データを用いてこれらのパラメータを学習させる．

学習データとして，\( N \)個の特徴ベクトル \( \bm{x}_1, \bm{x}_2, \dots , \bm{x}_{N} \) （\( \bm{x}_n = (x_n,y_n) \)）と，それぞれの所属クラスを表す教師信号 \( t_1, t_2, \dots , t_N \) （ \( \bm{x}_n \) がほげクラスなら \( t_n = 1 \)，さもなくば \( t_n = 0 \) ）を用意する．この学習データに対して，\( z_n = s(ax_n+by_n+c) \) が正解 \( t_n \) に近づくようにパラメータ \( a,b,c \) を決定したい．そこで，\( z_n \) の正解との近さの規準として

\[ h_n = -t_n\log z_n - (1-t_n)\log ( 1 - z_n) \]

というものを考える．今の問題では \( t_n \) が 0 か 1 であるから，式の形から，\( t_n = 0 \) ならば \( z_n \) が小さい（0に近い）ほど \( h_n \) が小さくなり，\( t_n = 1 \) ならば逆に\( z_n \) が大きい（1に近い）ほど \( h_n \) が小さくなることがわかる．全ての学習データに対する \( h_n \) の和を \( H \) と表すことにする．つまり

\[ H = \sum_{n=1}^{N} h_{n} \]

である．この \( H \) を最小化するようにパラメータ \( a,b,c \) を決めれば，学習データをうまく2クラスに分類できるだろう．これが，ロジスティック回帰による2クラス識別の考え方である．なんでシグモイドかとかなんで \( H \) という式（これを交差エントロピーという）を考えるのかとかは省略．

↑

確率的勾配降下法による交差エントロピー最小化†

\( H \) を最小にするパラメータ \( a,b,c \) を求める問題は非線形最適化問題なので，一撃で解を求めることは一般に不可能である．このような最適化問題の解法はたくさんあるが，今の場合は目的関数（最小化したい関数）が微分できるので，目的関数の微分すなわち勾配を利用する「勾配法」がよく用いられる．これは，パラメータを適当な初期値に設定した状態からスタートして，\( H \) の微係数の値を調べながら，\( H \) が小さくなる方向に徐々にパラメータを変化させていく方法である．

いまの学習の目的は \( H \) の最小化だから，本来は上記のように \( H \) の勾配を調べてパラメータを修正するべきだが，そのような方法には多少問題がある（ここでは詳しく述べないが，学習の進め方の微調整が必要とか，コンピュータによる計算の効率がよくないとか）．実際には，\( H \) の勾配を調べてパラメータを修正するかわりに，\( h_n \) の勾配を用いて個々の学習データごとにパラメータを修正することを繰り返すことで，確率的に \( H \) が最小化されることを期待する，というアプローチをとることがある．このような方法を，確率的勾配降下法(Stochastic Gradient Desecent, SGD)という．

\( h_n \) のパラメータ \( \theta \) に対する偏微係数 \( \frac{\partial h_n}{\partial \theta} \)（\( \theta \) は \( a,b,c \)を表す）は，先の課題で得た式で計算できる．このとき，SGDによる学習の手順は次のようになる．

パラメータを適当な乱数で初期化する
以下を適当な回数繰り返す
1. \( N \) 個の学習データの中から一つをランダムに選択する（その番号を \( n \) とする）
2. \( (x_n,y_n) \) に対するモデルの出力 \( z_n = s(ax_n + by_n + c) \) を計算する
3. \( h_n \) を計算する
4. パラメータ \( \theta \) の値を次式で更新する
  \[ \theta^{\rm new} = \theta -\eta \frac{\partial h_n}{\partial \theta} \]
  \( \eta \) は小さな正の定数である．

\( \frac{\partial h_n}{\partial \theta} \) は現在のパラメータ値の地点における \( h_n \) の傾きであるから，このようにすると，\( h_n \) が少し小さくなる（下る）方向にパラメータを修正することになる．このような計算を何度も繰り返すと，やがて学習データ全体の交差エントロピーを小さくするようなパラメータにたどりつく（ \( H \) を最小にするパラメータにたどり着く保証はないけれども，準最適なパラメータを見つけることができる）だろう．これが，（ロジスティック回帰モデルの）SGDによる学習の手順である．

takataka

龍谷大学
　先端理工/数理
　　高橋隆史
　　　時間割/2024