パターン認識と回帰分析の目的は、ともにデータセットから予測関数を求めることにある。予測関数は、パターン認識では識別関数と、回帰分析では回帰関数とそれぞれ呼ばれているが、本質的には同じものである。その違いは、出力変数が離散変数か連続変数かの違いでしかない。ここではパターン認識と回帰分析をひとまとめに考え、その基礎となる技術の解説をおこなう。
目次 |
モデルの自由度が高いときに十分な訓練データが与えられなければ、分散が高くなり、結果としてMSEが増大する。この問題をオーバーフィッティング(過適応)という。
後述する確率モデルによって表現しなければならない。
決定理論との相性。事前確率の入れ替え
入力変数から出力変数を予測する方法には、大きく分けて2とおりある。
ここで、はモデルパラメーターである。
単純にパターン認識や回帰分析をするだけならば、予測関数を直接推定するだけで十分である。しかしながら、条件付き確率分布を推定することで、次のようなメリットがある。
パターン認識や回帰分析の確率モデルは、識別モデルと生成モデルに分けられる。
識別モデルの方がモデルパラメーターの数が少なくなるので、パターン認識や回帰分析を解く目的ならば識別モデルが一番適している。
パターン認識の識別モデル
ここで、はロジスティックシグモイド関数である。このモデルの正当性は、確率分布が指数関数族で表せるという仮定のもとで、生成モデルから式変形することにより一般的に得られる。
回帰分析の識別モデル
最尤法では、学習データがもっとも生起しやすいようにモデルパラメーターを決める:
がモデルパラメーターの推定値である。を尤度関数という。
実際には、尤度関数を直接最大化するのではなく、対数尤度関数を最大化することが多い。対数をとることで、
となり、解析的な取り扱いが容易となるためだ。とくに、確率分布が指数関数族であらわされる場合は右辺が多項式になるので、解析的にとなるを求めることができる。
条件付き確率分布をとモデル化した場合、学習アルゴリズムが最小二乗法と同じになることが数学的に証明されている。
基本的な考え方は、最尤法にしたがうが、尤度関数を最大化するのではなく、モデルパラメーターの事後確率を最大化する:
事前確率を考慮することで、オーバーフィッティングを回避できる。ただし、次に説明するベイズ推定法とは異なり、適切な事前確率が見つけ出せなければ、無意味な答えを出すモデルとなってしまう。
最尤法や最大事後確率推定法のようにモデルパラメーターを点推定するのではなく、モデルパラメーターに関して期待値を計算するのがベイズ推定法である。期待値を計算することで、あらゆるモデルパラメーターのあらゆる場合を重みつきで評価しているので、オーバーフィッティングを回避することができる。ベイズ推定法を定式化すると次式のようになる。
文献によってはモデルパラメーターについて周辺化すると述べているが、同じことである。ベイズ推定法は、モデルパラメーターに関して周辺化する必要があるため、厳密に解析できる問題は限られている。多くの場合は、ラプラス近似やサンプリング法を利用することで近似することになる。
条件付き確率から予測関数を求める方法が決定理論である。
識別率を最大化するように予測関数を決定する。定式化すると下記のようになる。
条件付き確率が正規分布を用いてモデル化される場合、予測関数と分布の平均は一致する:
予測関数をとしたときに、予想される損失の期待値を最小化する。確率変数の分布が条件付き確率によってあらわされるときに(このとき、)、と決定してしまったときの損失をとすると、損失の期待値は
とあらわせる。これを最小化する予測関数を求めればよい。変分法を用いれば、その答えは、
であると導かれる。したがって、予測分布が正規分布のときは、識別率最大化法と期待損失最小化法は同じ予測関数を導くことになる。
書き込み中