SJE/2015/ex10

SJE2015 ex10†

課題A†

MNISTのデータを最近傍法で識別してみよう．

前回の識別法では，クラス毎に1つの見本（プロトタイプ）を用意して，テストデータを，最も近いプロトタイプのクラスに分類していた．これを一般化すれば，1つのクラスに複数のプロトタイプを用意して，それらの中からテストデータと最も近いプロトタイプを探して，そのテストデータはそのプロトタイプと同じクラスに分類する，という方法が考えられる．これを最近傍(Nearest Neighbor)法という．

前回の最短距離法は，このNN法で1クラス1プロトタイプとし，かつプロトタイプを学習データの平均とした，という特別な場合に相当する．プロトタイプは，あらかじめ集めておいたクラスラベル既知のデータに何らかの処理を施して作成してもよいが，最も単純でよく使われるのは，「学習データ全部そのまんま使ってまえ」という方法である．

というわけで，MNISTのデータをこのようなNN法で識別するプログラムを作って実験しなさい．プログラムと，テストデータの誤識別率が何%になったかを報告すること（学習データの誤識別率は...調べる必要ないことは明らかですよね）．

ただし，上記の説明から想像つくようにNN法は記憶コストも計算コストも大きい．最初のうちは学習データの最初の1000件だけを用いてテストデータを識別させるようにしてデバグ＆動作確認し，それから全部使って実行，という方針でやることをおすすめします．

takataka

龍谷大学
　先端理工/数理
　　高橋隆史
　　　時間割/2025

SJE2015 ex10†

課題A†

takataka

最新の25件