Lecture 16. Characteristic Functions
1. Equivalence of the Tree Definitions of the Multivariate Normal Distribution
1.1 The definitions
Lec.15の定義を再掲する.
Definition 16-1
Xがnondegenerate (multivariate) normal distributionをもつ
⇔
fX(x)=1√(2π)n|detV|exp[−x−μ)V−1(x−μ)T2]
と,joint PDFが書ける.ここでμは実ベクトルで,Vはpositive definateである.
Definition 16-2
Xが(multivariate) normal distributionをもつ
⇔
X=DW+μ
と,行列Dと実ベクトルμ,各要素がN(0,1)に従う確率ベクトルWで書ける.
Definition 16-3
Xが(multivariate) normal distributionをもつ
⇔ 任意の実ベクトルaについて,aTXがnormalである.
これらの定義が同値であることを証明する.
2. Proof of Equivalence
Lec.15で, def 16-2であればdef 16-3が成立することを学んだ.
Theorem 15-1(再掲)
def 16-2の意味でX=(X1,...,Xn)がmultivariate normalで,μ=(μ1,...,μn)とすると
(d) |D|≠0であるとき,V=DDT=cov(X,X)によってdef 16-1の意味でもnondegenerate multivariate normalである.
proof.
μ=0と仮定する. X=DWでD−1が存在するとき,Lec.10 2-1から
fX(x)=fW(D−1w)|detD|
と書ける.Wi∼N(0,1)でi.i.d.だから
fW(w)=1√(2π)nexp[−12wTw]
で,したがって
fX(x)=1√(2π)n|detDDT|exp(−12(D−1)TD−1x)
そこで,
Theorem 16-1
(a) Xがdef 16-1を満たすとき, def 16-2も満たす
(b) Xがdef 16-3を満たすとき, def 16-2も満たす と示せば良い
proof.
(a)
仮定のもとで,Vはpositive definateなので,D2=VとなるsymmetricなDがあって(Spectral Decomposition), (detD)2=det(D2)=det(V)>0から, Dは可逆. W=D−1(X−μ)とすると,E[W]=0で,さらに
cov(W,W)=E[D−1(X−μ)(X−μ)TD−1]=D−1E[(X−μ)(X−μ)T]D−1=D−1VD−1=I
したがってWiたちはdef 16-1の意味でnormalでかつcovariance matrixが単位行列だからindependentである.
(b)
仮定のもとで,V=cov(X,X)として,これは対称行列だから
3. Whitening of a Sequence of Normal Random Variables
Xがmultivariate normal vectorとして,基底変換によってW=(W1,...,Wn)をつくるとき,様々な作り方が考えられるが,
W1=X1W2=X2−E[X2|X1]W3=X3−E[X3|X1,X2]⋮Wn=Xn−E[Xn|X1,...,Xn−1]
とすることが出来る.ただし
(a) Wiはそれぞれ, (X1,...,Xi−1)をもとにXiから得られる新しい情報と考えることができる.Wiたちをinnovationsという.
(b) conditional expectationは線形写像だから,WiはXiの線形写像と考えることが出来る. 下三角行列Lを使ってW=LXと書ける.これはWiがX1,...,Xiによって決定されるということであって,これをXからWへの変換はcausalであるという.また,L−1もまた下三角行列だから,causally invertibleという.この関係をwhitening filterと呼ぶことが有る.
(c) Wiたちはそれぞれ独立で,これはE[(X−E[X|Y)])Y]=0から言える. またここからWiとX1,...,Xi−1はuncorrelatedであることが言えて,さらにW1,...,Wi−1ともuncorrrelated.normalだからuncorrelated => independent. varianceが0でなければ,varianceが1となるように出来る.
(d) Wのcovariance matrix Bは対角行列で,cov(X,X)=L−1B(L−1)T. Bを(L−1B1/2)(B1/2(L−1)T)と,下三角行列と上三角行列に分解することをCholesky factorizationという.
4. Introduction to Characteristic Functions
moment generating function MX(s)をすでに定義したが,s≠0⇒MX(s)=∞のような場合には意味を持たない(Cauchy distributionを思い出せ). そこでsを複素数s=it,i=√−1,t∈Rと考えて,
ϕX(t)=E[eitX]
と定める. XがPDF fをもつcontinuous random variableとすると,
ϕX(t)=∫eitxf(x)dx
が成立する.eitXはcomplex-value random variableであるが,三角関数での表示を思い出せば
ϕX(t)=E[cos(tX)]+iE[sin(tX)]
として計算できる.さらに
(a) |eitX|≤1が任意のtに成立するから,ϕX(t)は必ず定義されて,しかも|ϕX(t)|≤1である.
(b) moment generating fucntionの主要な性質はcharacteristic functionと共通する.
Theorem 16-2
(a) Y=aX+bとすると,ϕY(t)=eitbϕX(at)
(b) X,YがindependentならϕX+Y(t)=ϕX(t)ϕY(t)
(c) X,Yがindependentで,Zが確率pでXに等しく,確率1−pでYに等しいとき,
ϕZ(t)=pϕX(t)+(1−p)ϕY(t)
(c) Inversion theorem 同じcharacteristic functionをもつrandom variableがあるとき,分布も同じ
(d) XがmultivariateなときϕX(t)=E[eitTX]でcharacteristic functionを定めて,(c)はこれでも成立
(e) Xがcontinuous でPDFがfXとすると,
fX(x)=12πlimT→∞∫T−Te−itxϕX(t)dt
がXが微分可能な点xで成立する.
(f) dominated convergence theoremを,定数関数1に支配される複素数の実部と仮部にそれぞれ使って,
Xn→Xa.s.がなら,任意のt∈Rに
limϕXn(t)=limE[eitXn]=E[limeitXn]=E[eitX]=limϕX(t)
(g) E[|X|k]<∞ならば
dkdtkϕX(t)|t=0=ikE[Xk]