2017年8月13日日曜日

MIT OCW, Machine Learning 05日目 線形回帰

Rohit Singh, Tommi Jaakkola, and Ali Mohammad. 6.867 Machine Learning. Fall 2006. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 5. Linear Regression, Active Learning

regression (回帰)とは,exampleに対して,labelではなく連続なresponse(観測値)を推測することであって,ここでは実数とする. またここではlinear regression modelのみを扱うが,これは簡単にlinearでないmodelに拡張できる(次章).

という写像がlinear regression modelであって,つまりdecision boundaryの直線が推測値になる. また,推測値の周りの観測値の分布が問題となるが,ここではresponseを期待値として,に依存しない分散の正規分布を使う. PDFは

ここで,だから,

となる.
training data について,conditional likelihoodを最大化することで最適なパラメータを見つける.

がLikelihoodであって, またlogをとって,

まずはに関係なく. mean squared error(MSE)

を最大化するをみつける.
これは行列
( はtraining data の番目のexampleの第次元とする)
を使うと,

となる.これを最小化する解をとすると,

である. これがの関数と考えると線形であり,この性質は後で使う.
は, をによってMSEの最小値を与えられた後で,

で決定できる.

Bias and Variance of the Parameter Estimates

が,未知のパラメータの線形モデルに従っていて,(14)で計算したがどれほど適切なのかを議論する. このときの推測と考えることが出来る.仮定より

が成り立つ.

と行列表示する.で,または独立である. (14)に代入して,

である. だから, 両辺の期待値を取れば,

である. このように,推測値の期待値が真の値に一致するとき, 推測はunbiased(不偏)であるという.
さらに,

であって,つまりのノイズを受け継ぎ,そのノイズがどのような形をしているかはの関数として書ける.
さて,

が任意のを固定するたびに成り立つ. さらにvarianceは

以上から, biasがであることを考えれば

さらに,

だから,

すなわち,が十分大きいとき,推定したパラメータの分散はである.

0 件のコメント:

コメントを投稿