David Gamarnik, and John Tsitsiklis. 6.436J Fundamentals of Probability. Fall 2008. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.
Lecture 6. Discrete random variables and their expectations
4. Expected Values(期待値)
4.1 Preliminaries: infinite sums
a1+a2+⋯という級数があるとき,全ての項が非負ならその順番を並び替えても級数の和がもとと同じになる.また,項が必ずしも非負でない場合に並び替えで和が変わらない条件というのは,絶対収束性であった.すなわちS+,S−をそれぞれ級数から非負の項のみ取り出した和と,負の項のみ取り出した和とするとき,S+,S−がともに有限であればよかった.
また,{aij}i,jという二重のインデックスが振られた数列の和についても,全ての項が非負であるか絶対収束すれば
∑i∑jaij=∑j∑iaij=∑i,jaij
と書けるのであった.
4.2 Definition of the expectation
random variable X のPMFを要約する値の一つに,expectation(期待値)がある.
Definition 6-2(Expectation)
discrete random variable XとそのPMF pXがあるとき,Xのexpected value(expectation, or mean)を
E[X]=∑xxpX(x)
と定める.これが常にはwell-definedでないことはすでに注意した.
4.3 Properties of the expectation
expectationの別の表現として,Xが非負の整数値しか取れないなら,
E[X]=∑n≥0P(X>n)
がある.
Proposition 6-3
discrete random variable X とg:R→Rがあるとき,
E[g(x)]=∑{x|pX(x)>0}g(x)pX(x)
この定理で,g(x)=x2とすると,Y=X2のexpectationがE[Y]=∑xx2pX(x)とわかる.
E[Y]をE[X2]とも書く.E[X2]をXのsecond momentという.より一般に,E[Xr]をXのrth momentという.さらに,E[(X−E[X])r]をXのrth central momentといい,特にXの2nd central moment E[(X−E[X])2]をXのvariance(分散)といい,V[X]とか,var[X]と書く.
さらにXのvarianceの根をstandard deviation(標準偏差)といい,σXとか,単にσと書く.
Proposition 6-4
X,Y同じprobability spaecのdiscrete random variableとする.以下,両辺でそれぞれの値に確定値が定義されているとき
(a) X≥0,a.s.⇒E[X]≥0
(b) X=c,a.s.⇒E[X]=c
(c) a,b∈Rに,E[aX+bY]=aE[X]+bE[y]
(d) E[X]<∞⇒V(X)=E[X2]−E[X]2
(e) V(aX)=a2V(X)
(f) X,Yが独立なら,E[XY]=E[X]E[Y],V(X+Y)=V(X)+V(Y)
(g) X1,...,Xnが独立なら
E[ΠX1]=ΠE[Xi], V(∑Xi)=∑V(Xi)
Lecture 7. Discrete random variables and their expectations (cont)
1. Comments on Expected Values
(a) E[X]は∑x:x<0xpX(x),∑x:x>0xpX(X)がともに有限である場合にのみ有限確定値をもつ.これはE[|X|]=∑x|x|pX(x)<∞と同値である.これを満たすrandom variableはintegrableであるという.
(b) 任意のXにE[X2]は∞を許せば常に定義されている.特にE[X2]<∞であるとき,Xはsquare integrableという.
(c) |x|≤1+x2から,E[|X|]≤1+E[X2]である.よって,square integrableならばintegrableである.
(d) V(X)=E[X2]−E[X]2だから,(i)Xがsquare integrable ならばV[X]<∞ (ii) Xがintegrableだがsquare integrableでないとき,V[X]=∞. (iii) Xがintegrable でないなら,V[X]は未定義.
2. Expected values of Some Common Random Variables
(a) Bernoulli
X∼Ber(p)であるとき,
E[X]=1⋅p+0⋅(1−p)=pV[X]=E[X2]−E[X]2=12⋅P+02⋅(1−p)−p2=p(1−p)
(b) Binomial
X∼Bin(n,p)とする.このときX=∑ni=1Xiと,Xi∼Ber(p)によって書ける.
よって
E[X]=n∑i=1E[Xi]=npV[X]=n∑i=1V[Xi]=np(1−p)
(C) Geometric
X∼Geo(p)とする.E[X]=∑n≥0P(X>n)を使う.
P(X>n)=∑∞j=n+1(1−p)j−1p=(1−p)nから,
E[X]=∑n≥0(1−p)n=1/pV[X]=1−pp2
(d) * Poisson*
X∼Poi(λ)とする.
E[X]=e−λ∑n≥0nλnn!=e−λ∑n≥1λn(n−1)!=λe−λ∑n≥0λnn!=λ
また,
V[X]=λ
これは,Poisson分布がBinomial分布のλ=np,n→∞,p→0の極限であることからも言える.
(e) Power
X∼Pow(α)であるとき,
E[X]=∑k≥01(k+1)α
これをRiemmanのζ functionといい,ζ(α)と書く.
3. Covariance and Correlation
3.1 Covariance
Definition
square integrable random variable X,Yについて,そのcovariance(分散)を
cov(X,Y):=E[(X−E[X])(Y−E[Y])]
と定める.|XY|≤X2+Y22から,X,Yがsquare integrableという仮定のもとで,cov(X,Y)<∞である.
X−E[X]とY−E[Y]が同じ符号を取りやすいときはcov(X,Y)>0,異なる符号を取りやすいときはcov(X,Y)<0と考えることができる.よって,cov(X,Y)の符号はXとYの関係を要約する.
以下にcovarianceの重要な性質をいくつか挙げる.
(a) cov(X,X)=V(X)
(b) cov(X,Y+a)=cov(X,Y)
(c) cov(X,Y)=cov(Y,X)
(d) cov(X,aY+bZ)=a⋅cov(X,Y)+b⋅cov(X,Z)
また,
cov(X,Y)=E[XY]−E[X]E[Y]
である.
X,Yが独立であればE[XY]=E[X]E[Y]であって,cov(X,Y)=0である.逆は必ずしも成り立たない.
3.2 Variance of the sum of random variables
~Xi=Xi−E[Xi]とすると,
V(n∑i=1Xi)=E[n∑i=1n∑j=1~Xi~Xj]=∑i∑jE[~Xi~Xj]=∑E[~Xi2]+2n−1∑i=1n∑j=i+1E[~Xi~Xj]=∑V(Xi)+2n−1∑i=1n∑j=i+1cov(Xi,Xj)
である.特に,
V(X1+X2)=V(X1)+V(X2)+2cov(X1,X2)
である.
Correlation coefficient
X,Yのcorrelation coefficient(相関係数)を
ρ(X,Y):=cov(X,Y)√V(X)V(Y)
と定める.正規化されたcovarianceと考えることができる.
Theorem 7-1
X,Yは正のvarianceを持ったdiscrete random variableとする.またρ(X,Y)を単にρとする.このとき
(a) −1≤ρ≤1
(b) ρ=±1のとき,Y−E[Y]=a(X−E[X])の確率が1となるような定数aがある.
proof.
(a) ˜X=X−E[X],˜Y=Y−E[Y]とする.Cauchy-Scwartzの不等式より,
(ρ(X,Y))2=(E[˜X˜Y])2E[˜X2]E[˜Y2]≤1
∵cov(X,Y)=cov(˜X,˜Y)=E(˜X˜Y)
(b) ˜Y=a˜Xなら,
ρ(X,Y)=E[˜Xa˜X]√E(˜X2)E((a˜X)2)=aV(X)|a|V(X)=a|a|=±1
逆に,(ρ(X,Y))2=1とすると,E[˜X2]E[˜Y2]=(E[˜X˜Y])2である.
ここで
E[(˜X−E(˜X˜Y)E(˜Y2)Y)2]=E[˜X2]−(E(˜X˜Y))2E[˜Y2]
を考えると,˜X−E(˜X˜Y)E(˜Y2)˜Yというrandom variableが0をとる確率は1である.よって示せた.
4. Indicator Variables and the Inclusion-Exclusion Formula
indicator functionは,event Aに対して,IA:Ω∋ω↦{1 ω∈A0ω∉A
と定義され,E[IA]=P(A)である.indicator functionによって今後の様々な定理や証明を簡潔に書ける.
4.1 The inclusion-exclusion formula
IA∩B=IaIB,またIA∪B=IA+IB−IAIBである.
両辺のexpectationを考えると,
P(A∪B)=P(A)+P(B)−P(A∩B)
これを一般化する.{Aj}n1⊂Fとする.B=supとすると,
が成立.両辺のexpectationを取って,
これをInclusion-exclusion theoremという.
5. Conditional Expectations
によって,とにいてのconditional PMF が定義でき,さらににはconditional expectationが定義できる.
Definition 7-2
とdiscrete random variable があるとき,がある時ののconditional expectationを
と定める.
また,という形のconditional expectationとは,とした場合,すなわち
である.が非負であるかintegrableであるならconditional expectationは有限値を取る.
5.1 The total expectation theorem
はの分割とする.random variable を
と定める.このときである.したがって
である.
Example(The mean of the geometric)
とする.すなわち.ここで
が成立.コイントスの例をとれば,次の回目のコイントスで表が出る確率は,1回コイントスをした時点で回目のコイントスで表が出る確率に等しいということ.このようなdistributionをmemoryless(無記憶)であるという.
について解いて,.
同様に
から,
これを解いて
したがって
5.2 The conditional expectation as a random variable
をdiscrete random variableとする.を固定するとは実数として定まり,の関数と考えることができる.をの関数と考えてと書くとすると,はrandom variableである.
Theorem 7-2
がmeasurableで,が非負かintegrableであるとき,
であって,特にとすれば,である.
proof.
系:
はのからのestimationと考えられて,はestimation errorである.この定理は,estimation errorがいかなる関数ともcorrelationを持たないことを主張している.
0 件のコメント:
コメントを投稿