Rohit Singh, Tommi Jaakkola, and Ali Mohammad. 6.867 Machine Learning. Fall 2006. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.
Lecture 5. Linear Regression, Active Learning
regression (回帰)とは,exampleに対して,labelではなく連続なresponse(観測値)を推測することであって,ここでは実数とする. またここではlinear regression modelのみを扱うが,これは簡単にlinearでないmodelに拡張できる(次章).
という写像がlinear regression modelであって,つまりdecision boundaryの直線が推測値になる. また,推測値の周りの観測値の分布が問題となるが,ここではresponseを期待値として,に依存しない分散の正規分布を使う. PDFは
ここで,だから,
となる.
training data について,conditional likelihoodを最大化することで最適なパラメータを見つける.
がLikelihoodであって, またlogをとって,
まずはに関係なく. mean squared error(MSE)
を最大化するをみつける.
これは行列
( はtraining data の番目のexampleの第次元とする)
とを使うと,
となる.これを最小化する解をとすると,
である. これがの関数と考えると線形であり,この性質は後で使う.
は, をによってMSEの最小値を与えられた後で,
で決定できる.
Bias and Variance of the Parameter Estimates
が,未知のパラメータの線形モデルに従っていて,(14)で計算したがどれほど適切なのかを議論する. このときはの推測と考えることが出来る.仮定より
が成り立つ.
と行列表示する.で,またとは独立である. (14)に代入して,
である. だから, 両辺の期待値を取れば,
である. このように,推測値の期待値が真の値に一致するとき, 推測はunbiased(不偏)であるという.
さらに,
であって,つまりはのノイズを受け継ぎ,そのノイズがどのような形をしているかはの関数として書ける.
さて,
が任意のに を固定するたびに成り立つ. さらにvarianceは
以上から, biasがであることを考えれば
さらに,
だから,
すなわち,が十分大きいとき,推定したパラメータの分散はである.
0 件のコメント:
コメントを投稿