Rohit Singh, Tommi Jaakkola, and Ali Mohammad. 6.867 Machine Learning. Fall 2006. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.
1.
答案.
(b) E[errorLOOCV(Sn)]=E[1n∑terrort(Sn)]=nn⋅E[(y−ˆfSn−1(x))2]=E[(y−ˆfSn−1(x))2]
(c) var[errorLOOCV(Sn)]=var[1n(error1(Sn)+⋯+errorn(Sn))]=1n2var(n∑1errori(Sn))<(1)var(error1(Sn))=E[(y−ˆfSn−1(x))2]
(1)の不等号を示せなければならなのだが,模範解答でも定性的に言及されただけだからもう明らかでいいと思う
(d)
fkkeepがtraining errorを0にするというのは,任意のt∈{1,..,n}でyt=x(t)rが成り立つということ. ytを生成するYとxrを生成するXrは独立で,P(Y=1)=P(Xr=1)=0.5,P(Y=−1)=P(Xr=−1)=0.5だから,fkkeepがtraining errorを0にする確率はP(∀t.Y=Xr)=(1)∏tP(Y=Xr)=1/2n. (1): 各サンプルの生成の独立性
fkflipも同様で,足し合わせると求める確率2−(n−1)が得られる.
(e)
Mrにおいてfrkeepのtraining error ϵ<<1/2とする.
frkeepのerrori(Sn)を考える(i=1,...,n)
ϵ<<1/2だから,training setからi番目を引いてもMrから選ばれるestimatorは変わらず.frkeepのまま. したがって^fr−i=frkeepが任意のiで成立.
よってerrorLOOCV(Sn)=(1/n)⋅∑i(yi−fr−i(xi))2=(1/n)⋅∑i(yi−frkeep(xi))2
これはfrflipのtraining errorがϵ<<1/2の時も同じ. よって示せた.
模範解答.
(a)
r.v. A,Bが同じdistributionをもつとき,E[f(A)]=E[f(B)]であるのを利用する.これは
E[f(A)]=∫f(x)pA(x)dx=∫f(x)pB(x)dx=E[f(B)]
からわかる.
A,Bがそれぞれr.v.の集合であっても成立する. A={S−1n,(x1,y1)}, B={Sn−1,(x,y)}とする.ただしS−1nでtrainし,(x1,y1)を識別子, Sn−1はn−1個のtraining dataで(x,y)を識別する. A,Bは同じdistributionを持つから,与えられた四季が成立する.
(f)
training error をδとすると,classifierはnδ/4回間違える. ある次元iにおいてtraining errorがϵ以下である時,すなわち間違いがせいぜいfloor(nϵ/4)であるとする.間違いの回数をkとおくと,間違いの起こる場合の数はnCk通りで,まさにそこで間違いが起こる確率は21−n. よってtraining errorがϵ未満である確率は
p=floor(nϵ/4)∑k=0nCk12n−1
errorがϵ以上である確率は1−pで,d次元全てがそうである確率は(1−p)d.これが1/2以下であれば少なくとも1つの次元でerrorがϵ未満となる. よって
(1−p)d≤1/2を解くと,
d≥1log211−p
2.
答案.
(a)
P(Sn|{l})=∑θ∈{−1,1}2−1n∏t=1[1+ytθlxtl2]=12n+1[n∏t=1(1+ytxtl)+n∏t=1(1−ytxtl)]
(d) marginal likelihoodが減少し始めるとき
模範解答.
(b) 与えられた式は間違いに対して確率0を割り当ててしまう.
P(Sn|J)=∑θ∈{1,−1}|J|2−|J|∏[1|J|∑j∈Jf(ytθj,xtj)]
とする.
0 件のコメント:
コメントを投稿