プログラミング練習: 2017-07-09

2017年7月15日土曜日

Gamarnik, Tsisiklis. Fundamentals of Probability 10日目写像で作られる確率変数のpdf

David Gamarnik, and John Tsitsiklis. 6.436J Fundamentals of Probability. Fall 2008. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 10. Derived Distributions

random variable $X$ とPDF $f_X$ が与えられ,measurable $g$ があるとき, $Y=g(X)$ のdistribution(CDF, PDF or PMF)を知りたいことがよく有る. $X$ がdiscreteならば
$p_Y(y) = \sum_{\{x |g(x)=y\}} p_X(x)$
でよいが、continuousな場合はより複雑になる.

1. Functions of a Single Random Variable

Calculation of the PDF of a Function Y=g(X) of a Continuous Random Variable X

(a) $F_Y(y)=P(g(X) \leq y) = \int_{\{x | g(x) \leq y\}} f_X(x)dx$
(b) $f_Y(y) = \frac{dF_Y}{dy} (y)$

Example

$Y = g(X) = X^2$ とする. $X$ がcontinuousであって, $f_X$ をPDFとする.このとき
$\begin{aligned} F_Y(y) &= P(Y \leq y) \\ &= P(X^2 \leq y) \\ &= P(-\sqrt{y} \leq X \leq \sqrt{y}) \\ &=F_X(\sqrt{y}) - F_X(-\sqrt{y}) \end{aligned}$
よって
$f_Y(y) = \frac{dF_Y}{dy}(y) = \frac{1}{2\sqrt{y}} (f_X(\sqrt{y}) + f_X(-\sqrt{y}))$

Example

$X$ は非負で $Y= \exp(X^2)$ とする.
$F_Y(y) = \begin{cases} 0 \ \ \ &(y < 1) \\ P(e^{X^2} \leq y) \ \ \ &(y \geq 1) \end{cases}$
ここで $P(e^{X^2} \leq y) = P(X^2 \leq \log y) = P( X\leq \sqrt{\log y})$
よって $f_Y(y) = f_X(\sqrt{\log y}) / (2y \sqrt{\log y})$

1.1 The Case of Monotonic Functions

$A \subset g(\Omega)$ で $g:\mathbb{R} \rightarrow \mathbb{R}$ が狭義単調増加かつ微分可能なとき, $B= \{g(x)| x \in A\}$ とする. $g_{|A}$ は可逆で $g_{|A}^{-1}$ がある. $y \in B$ に,chain ruleによって
$f_Y(y) = \frac{d}{dy} P(g(X) \leq y) = \frac{d}{dy}P(X \leq g_{|A}^{-1}(y)) = \frac{d}{dy}F_X(g_{|A}^{-1}(y))= f_X(g_{|A}^{-1}(y))\frac{dg_{|A}^{-1}(y)}{dy}$
$\frac{dg_{|A}^{-1}}{dy}(y) = \frac{1}{g'(g^{-1}(y))}$
を代入して
$f_Y(y) = f_X(g^{-1}(y))\frac{1}{g'(g_{|A}^{-1}(y))}$
$g$ が狭義単調現象の場合にもほとんど同様に
$f_Y(y) = f_X(g^{-1}(y))-\frac{1}{g'(g_{|A}^{-1}(y))}$
が成立して,
$f_Y(y) = f_X(g^{-1}(y)) \frac{1}{|g'(g^{-1}(y))|}$
である.
$f_Y(y)|dy| = f_X(x)|dx|$
で, $y=g(x), dy=|g'(x)|\cdot |dx|$ から
$f_Y(y)|g'(x)| = f_X(x)$
と考えれば良い.

1.2 Linear Functions

$g(x) = ax + b$ つまり $Y=aX + b$ となる場合を考える. $a\neq 0$ とする.このとき
$g'(x) = a, g^{-1}(y) = (y-b)/a$ であって,
$f_Y(y) = \frac{1}{|a|}f_X((y-b)/a)$
である.

Example (A linear function of a normal random variable is normal)

$X =^d N(0, 1), Y =aX + b$ とする.
$f_Y(y) = \frac{1}{\sqrt{2\pi}|a|} \exp(-\frac{(y-b)^2}{2a^2})$
すなわち $Y \sim N(b, a^2)$ である.

2. Multivariate Transformations

$X = (X_1, ..., X_n)$ というjointly continousなrandom variableのベクトルを考えて,joint PDFは $f_X(x) = f_X(x_1,... ,x_n)$ とする. $g: \mathbb{R}^n \rightarrow \mathbb{R}^n$ があって, $Y=(y_1,...,y_n)=g(X)$ とする. $g=(g_1, ..., g_n)$ とすると $Y_i = g_i(X)$ である.
$g$ が　openな $A \subset \mathbb{R}^n$ で連続微分可能であるとき, $B=g(A)$ で $g$ が可逆とする.
このｔき $g_{|B}^{-1}$ が存在する.
1次元の場合とほとんど同様の議論で多次元版に拡張できる.

2.1 Linear Functions

$g$ は線形で, $g=Mx$ とする. $M$ は $n \times n$ 行列である. $x \in A$ を固定して $\delta > 0$ とする.
$x \in A$ と $\delta > 0$ を固定する. $C = [x, x+\delta]^n \subset A$ という超立方体を考えて $D = MC = g(C)$ とする. $D$ の体積は $| \det M|\cdot \delta^n$ である.
$y = Mx$ として, $f_X(x)$ が $x$ で連続なら
$P(X\in C) = \int_C f_X(t)dt = f_X(x)\delta^n + o(\delta^n) \sim f_X(x) \delta^n$
が成立する.したがって
$f_X(x) \delta^n \sim P(X \in C) = P(Y \in D) \sim f_Y(y) \cdot vol(D) = f_Y(y)|\det M| \delta^n$
である.両辺を $\delta^n$ で割って, $f_X(x) = f_Y(y) \cdot |\det M|$ が言える.
$M$ が可逆であれば $M^{-1}$ があって,さらに $\det (M^{-1}) = 1/ (\det M)$ に注意すれば,
$f_Y(y) = f_X(M^{-1}y) \cdot \frac{1}{|\det M|}$
が成立する. $M$ が非可逆なら $Y$ は $S \subset \mathbb{R}$ でのみ値をとり,jointly continuousでない. $S$ はある $\mathbb{R}^m , m < n$ に同型なので, $Y$ を $\mathbb{R}^m$ のjoint PDFとして書ける.

2.2 The General Case

$g$ が $x$ ｒで連続微分可能な場合, $M(x)$ を $g$ の $x$ におけるJacobi行列とする. $D=g(C)$ は直線で囲まれた図形ではないが,1つぎのTaylor展開によって $g$ は $x$ の周りで線形近似できる. $D$ が体積 $|\det M(x)|\cdot \delta^n + o(\delta^n)$ を持つから,線形の場合と同様に
$f_Y(y) = \frac{f_X(g^{-1}(y))}{|M(g^{-1}(y))} = f_X(g^{-1}(y)) \cdot |M^{-1}(g^{-1}(y))|$
である.ここで $J(y)$ を $g^{-1}(y)$ のJacobi行列とすれば, $y=g(x)$ で $J(y) = M^{-1}(x)$ であって,
$f_Y(y) = f_X(g^{-1}(y)) \cdot |J(y)|$
である.

3. A Single Function of Multiple Random Variables

$X = (X_1, ..., X_n), g_1: \mathbb{R}^n \rightarrow \mathbb{R}$ があって,random variable $Y = g_1(X)$ とする.
$F_Y(y) = P(g(X) \leq y) = \int_{\{x| g(x)\leq y\}} f_X(x)dx$
を微分すればPDFを得られる.
もう一つの方法に, $g_2, ..., g_n: \mathbb{R}^n \rightarrow \mathbb{R}, Y_i = g_i(X)$ を, $g=(g_1, ..., g_n)$ が可逆であるように定義して2.2で述べた公式を用いて $Y=(Y_1, ...,Y_n)$ のjoint PDFを求め, $Y_1$ のPDFを積分によって求めるというのが有る.
最も単純な $Y_i, i\geq 2$ の定め方は $Y_i = X_i$ であって, $g(x) = (g_1(x), x_2, ..., x_n)$ として, $h:\mathbb{R}^n \rightarrow \mathbb{R}$ を $g^{-1}$ の第一次元とする( $y=g(x), x_1 = h(y)$ ).
このとき $g^{-1}(y)= (h(y), y_2, .., y_n)$ ,Jacobi 行列は
$J(y) = \left( \begin{array}{} \frac{\partial}{\partial y_1}h(y) & \frac{\partial}{\partial y_2} h(y) &\cdots & \frac{\partial}{\partial y_n} h(y) \\ 0 & 1 &\cdots & 0 \\ \vdots \\ 0 & 0 & \cdots & 1 \end{array} \right)$
よって $|\det J(y)| = |\frac{\partial h}{\partial y_1}(y)|$
$f_Y(y)= \int f_X(h(y),y_2, .., y_n) \left| \frac{\partial h}{\partial y_1} (y) \right| dy_2 \cdots dy_n$

Example

$X_1, X_2$ は正でjointly continousで, $Y_1 = g(X_1, X_2) =X_1X_2$ のPDFを求める.
$x_1 = y_1 / x_2$ から $h(y_1, y_2) = y_1 / y_2$ であって, $h_{y_1}=1/y_2$
$f_{Y_1}(y_1) = \int f_X(y_1/y_2, y_2) \frac{1}{y_2}dy_2 = \int f_X(y_1/y_2, x_2) \frac{1}{x_2}dx_2$
$X_1, X_2 =^d U(0, 1)$ とすると
$f_X(y_1/x_2, x_2 ) = f_{X_1}(y_1/x_2)f_{X_2}(x_2) = 1 \ \ \ (x_2 \geq y_1)$
から
$f_{Y_1}(y_1) = \int^1_{y_1} \frac{1}{x_2} dx_2 = -\log y$
$\begin{aligned} 1-F_{Y_1}(y_1) = P(X_1 X_2 \geq y_1) &= \int^1_{y_1}\int^1_{y_1/x_1} dx_2 dx_1 \\ &= \int_{y_1} (1-y_1/x_1)dx_1 \\ &= (1-y_1)+y_1\log y_1\end{aligned}$
したがって $f_{Y_1}(y_1) = -\log y_1$

4. Maximum And Minimum of Random Variables

$X_1, ..., X_n$ は独立とする.また $X^{(1)} \leq X^{(2)} \leq \cdots \leq X^{(n)}$ は $\{X_i\}$ のorder statisticsとする.すなわち $X^{(1)}$ は $\{X_i\}$ の最少, $X^{(2)}$ は $\{X_i\}$ の二番目に小さい要素,… である.
このoder statistics のjoint distributionと $\min X_j, \max X_j$ のdistributionを求める.
$P(\max X_j \leq x) = P(X_1, ..., X_n \leq x) = P(X_1 \leq x) \cdots P(X_n \leq x) = F_{X_1}(x) \cdots F_{X_n}(x)$
が成立し,また
$\begin{aligned} P(\min X_j \leq x) &= 1 - P(\min X_j > x) \\ &= 1 - P(X_1, ..., X_n) > x) \\&=1-(1-F_{X_1}(x)) \cdots (1-F_{X_n}(x)) \end{aligned}$
である.
特に $\{X_j\}$ がi.i.d.(独立だが同じdistribution)でそのCDFが $F$ , PDFが $f$ とするとき,
$P(\max X_j \leq x) = F^n(x), \ \ P(\min X_j \leq x) = 1 - (1- F(x))^n$
であって,
$f_{\max X_j} (x) = nF^{n-1}(x) f(x) , \ \ f_{min X_j} (x) = n(1-F(x))^{n-1} f(x)$

5. Sum of Independent Random Variables - Convolution

$X, Y$ は独立なdiscrete random variableとする. $X+Y$ のPMFは
$p_{X+Y}(z) = P(X+Y=z) = \sum_{\{(z, y)|x+y=z\}}P(X=x, Y=y) = \sum_x p_X(x)p_Y(z-x)$
である.continuousでも,jointly continousなら
$P(X+Y\leq z) = \int_{\{x,y|x+y\leq z\}} f_{X,Y}(x, y) dxdy = \int^{\infty}_{-\infty} \int^{z-x}_{-\infty} f_{X, Y} (x, y) dydx$
ここで $t=x+y$ とすると
$P(X+Y\leq z) = \int \int^z f_{X,Y} (x, t-x) dtdx$
$t$ で微分して
$f_{X+Y}(z) = \int f_{X, Y}(z-x)dx$
特に $X, Y$ が独立なら
$f_{X+Y}(z) = \int^\infty_{-\infty} f_X(x) f_Y(z-x)dx$
である.

2017年7月14日金曜日

Gamarnik, Tsisiklis. Fundamentals of Probability 09日目連続確率変数の条件付き確率

David Gamarnik, and John Tsitsiklis. 6.436J Fundamentals of Probability. Fall 2008. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 9. Continuous Random Variables

2. Conditional PDFs

discrete random variable の場合にはconditional CDFは $F_{X|Y}(x|y) = P(X \leq x| Y = y), P(Y=y)>0$ によって定義された.一方continous random variableの場合は $P(Y=y) = 0$ が常に成立するので,単純にdiscreteを拡張するわけには行かない。そこで、 $F_{X|Y}(x|y)$ を $P(X\leq x| y\leq Y \leq y+\delta)$ の $\delta \rightarrow 0$ の極限と考える.ここで
$\begin{aligned}F_{X|Y}(x|y) &\sim P(X\leq x | y \leq Y \leq y + \delta) \\ &= \frac{P(X \leq x, y \leq Y \leq y + \delta)}{P(y \leq Y \leq y + \delta)} \\ &\sim \frac{\int^x_{-\infty} \int^{y+\delta}_y f_{X, Y}(u, v)dudv}{\delta f_Y(y)} \\ &\sim \frac{\delta \int^x_{-\infty} f_{X, Y} (u, y) du}{\delta f_Y(y)} \\ &= \frac{\int^x_{-\infty} f_{X,Y}(u,y)du}{f_Y(y)} \end{aligned}$
この式がDef 9-1を動機づける.

Definition 9-1

(a)
$Y$ があるときの $X$ のconditional CDFを
$F_{X|Y}(x|y) = \int^x_{-\infty} \frac{f_{X, Y} (u, y)}{f_Y(y)}du$
を $f_Y(y) >0$ なる $y$ に定める.
(b)
$Y$ があるときの $X$ のconditional PDFを
$f_{X|Y}(x|y) = \frac{f_{X,Y}(x, y)}{f_Y(y)}$
を $f_Y(y) >0$ に定める.
(c)
$Y=y$ があるときの $X$ のconditional expectationを
$E[X|Y-y] = \int x f_{X|Y} (x|y)dx$
を $f_Y(y)>0$ に定める.
(d)
$Y=y$ があるとき, $\{X \in A\}$ のconditional probabilityを
$P(X \in A| Y = y) = \int_A f_{X|Y} (x|y)dx$
を $f_Y(y) > 0$ に定める.

4. Conditional Expectation as a Random Variable

discreteの場合と同様, $E[X|Y=y]$ はまたrandom variableである.すなわち
$E[X|Y] :\Omega \ni \omega \mapsto E[X|Y=Y(\omega)] = \int x f_{X|Y=Y(\omega)}(x|y) \in \mathbb{R}$
はrandom variableである.
measurableな $g$ があるとき $E[E[X|Y]g(Y)]=E[Xg(Y)]$ である.特に $g=1$ を考えればE[E[X|Y]]=E[X]$である.

4.1 Optimality properties of conditional expectations

$E[X|Y]$ は $Y$ を与えられたときの $X$ のestimation(推測)と考えることが出来る.実際 $E[X|Y]$ は $X-E[X|Y]$ をestimation errorと考えたときこれが他のestimationのすべてのestimation errorのうち最少とするという点で最良のestimationである.

Theorem 9-1

$E[X^2] < \infty$ とする.measurable $g: \mathbb{R} \rightarrow \mathbb{R}$ について
$E[(X-E[X|Y])^2]\leq E[(X-g(Y))^2]$
である.

proof.

$\begin{aligned} E[(X-y(Y))^2] &= E[(X-E[X|Y])^2] + E[(E[X|Y] - g(Y))^2] +\\ & E[(X-E[X|Y])(E[X|Y]-g(Y))]] \geq E[(X-E[X|Y])^2] \end{aligned}$

5. Mixed Versions of Bayes’ Rule

$X$ をまだ観測されていないrandom variableで, CDFは既知な $F_X$ とする. $X$ と独立でないrandom variable $Y$ があって,そのconditional CDF は $F_{Y|X}$ であるとする. Yの現れを観測したとき $X$ を推測することを考える. $X$ の具体的な値を1つ推測することもあるが, $X$ の $Y$ を条件としたconditional distributionを考えることが多い.これはBayes’ ruleを使って実現できる.
$X, Y$ がともにdiscreteであるとき
$p_{X|Y}(x|Y) = \frac{p_X(x)p_{Y|X}(y|x)}{p_Y(y)} = \frac{p_X(x) p_{Y|X}(y|x)}{\sum_{x'} p_X(x')p_{Y|X}(y|x')}$
である. $X, Y$ がともにcontinuousであるなら
$f_{X|Y}(x|y) = \frac{f_X(x) f_{Y|X}(y|x)}{f_Y(y)} = \frac{f_X(x)f_{Y|X}(y|x)}{\int f_X(x')f_{Y|X}(y|x')dx'}$
である.
一方がdiscreteでもう一方がcontinuousである場合を考える. $K$ がdiscreteで $Z$ がcontinuousとし,joint distributionを $f_{K,Z}(k,z)$ とおくと
$P(K=k, Z\leq z) = \int^z_{-\infty} f_{K,Z}(k,t)dt$
さらに
$p_K(k)= P(K=k) = \int^\infty_{-\infty} f_{K,Z}(k, t)dt$
$F_Z(z) = P(Z\leq z) = \sum_k \int^z_{-\infty} f_{K,Z} (k,t)dt = \int^z_{-\infty}\sum_k f_{K,Z} (k,t)dz$
したがって
$f_Z(z) = \sum_k f_{K,Z}(k,z)$
が $Z$ のPDFである.
$P(K=k) > 0$ であれば
$P(Z \leq z| K=k) = \int^z_{-\infty} \frac{f_{K,Z} (k, t)}{ p_K(k)}dt$
であって,
$f_{Z|K}(z|k) = f_{K,Z}(k,z)/p_K(k)$
と定めて良い.また別の議論で
$p_{K|Z}(k|z) = \frac{p_K(k) f_{Z|K}(z|k)}{f_Z(z)} = \frac{p_K(k) f_{Z|k}(z|k)}{\sum_{k'} p_K(k')f_{Z|K}(z|k')}$
と示せる.

Gamarnik, Tsisiklis. Fundamentals of Probability 08日目連続確率変数

David Gamarnik, and John Tsitsiklis. 6.436J Fundamentals of Probability. Fall 2008. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 8 Continuous Random Variables

1. Continuous Random Variables

random variable: $X \rightarrow \mathbb{R}$ が連続であるとは，CDFが
$P(X \leq x) = F_X(x) = \int^x_{-\infty} f_X(t)dt$
と書けるような $f: [0, \infty)$ があるということで，またこの $f$ を $X$ のPDF(probability density function)と呼ぶのだった．さらにこのとき，Borel集合 $B$ に
$P(X \in B) = \int_B f_X(x) dx$
が成立する．

2. Examples

2.1 Uniform

区間 $[a, b]$ を考えて,
$F_X(x) = \begin{cases} 0 & x \leq a \\ (x-a)/(b-a) \ \ \ & a < x \leq b \\ 1 & x > b\end{cases}$
とすると $F_X$ はCDFの条件を満たしている．これを $U(a, b)$ と書く．またこれのPDFは $f_X(x) = \begin{cases} 1/(b-a) \ \ & x \in [a, b] \\ 0 & otherwise\end{cases}$ である．
また $[a, b]=[0, 1]$ であるとき，probability lawは $[0, 1]$ 上のLebesgue measureである．

2.2 Exponential

$\lambda > 0$ を固定し， $F_X(x) = \begin{cases}1 - e^{-\lambda x} \ \ \ &(x \geq 0) \\ 0 & x < 0 \end{cases}$ とする．このとき $F_X$ はCDFの条件を満たし，そのPDFは $f_X(x) = \begin{cases} \lambda e^{-\lambda x} \\ 0 \end{cases}$ である．この分布を $\text{Exp}(\lambda)$ と書く．
exponential distributionはgeometric distributionの極限と見ることが出来る．すなわち， $\delta>0$ を固定して $F_X(k\delta)$ を $k = 1, 2, ..$ に考えると，これはgeometric CDFに一致する．
直感的には， $\delta$ 単位時間ごとに確率 $\lambda \delta$ で表が出るコインを投げ続け， $X$ を初めて表が出るまでの時間の確率変数とするのである．
Exp( $\lambda$ )はmemorylessness property(無記憶性)という重要な性質を持つ．

Theorem 1

$X$ をexponentially distributed random variableとする．このとき任意の $x, t \geq 0$ に
$P(X>x+t | X>x) = P(X>t)$
が成立する．

proof.

$X$ を $\lambda$ をパラメータに持つexponential random variableとする．
$\begin{aligned}P(X> x+t| X>t) = \frac{P(X > x+t, X>x)}{P(X>x)} = \frac{P(X>x+t)}{P(X>x)} \\ = \frac{e^{-\lambda(x+t)}}{e^{-\lambda x}} = e^{-\lambda t} = P(X>t ) \end{aligned}$

2.3 Normal distribution

パラメータ $\mu \in \mathbb{R}$ と $\sigma > 0$ をもつnormal (or Gaussian) distributionを
$f_X(x) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp \left(-\frac{(x-\mu)^2}{2\sigma^2} \right)$
というPDFで定める．これを $N(\mu, \sigma^2)$ と略記し， $N(0, 1)$ を特にstandard normal distributionという．normal distributionのCDFを解析的に書くことはできないが，standard normal distributionの場合には数票が与えられている．standardでないnormal distributionの場合は簡単な変数変換によって計算できる．すなわち $X \sim N(\mu, \sigma^2)$ について， $Y=(X-\mu)/\sigma$ とすると， $Y \sim N(0,1)$ であるから，
$P(X \leq c) = P(\frac{X-\mu}{\sigma} \leq \frac{c-\mu}{\sigma}) = \Phi((c-\mu)/\sigma)$
である．ただし $\Phi$ は $N(0, 1)$ のCDFとする．

2.4 Cauchy distribution

$f_X(x) = 1/(\pi(1+x^2))$ というPDFをもつdistributionをCauchy distributionという．

2.5 Power law

discrete power law $p_X(k) = 1/k^{\alpha} - 1/(k+1)^{\alpha}, \ P(X \geq k) = 1/k^\alpha$ を離散的に拡張する．
$P(X>x) = \beta/x^\alpha, F_X(x) = 1 - \beta/x^\alpha$ .

3. Expected Values

discreteの場合と同じように，PDF $f_X$ をもつcontinuous random variable $X$ にも，expecetd value E[X]を
$E[X] := \int^\infty_{-\infty} xf_X(x) dx$
と定義する．この積分の収束性は $\int |x|f_X(x) < \infty$ が十分条件である．このとき， $X$ はintegrableであるという．
discrete の場合のexpectationについて得られた定理の全てがcontinuousの場合にも成立する．
ただし，総和でなく積分で表現しなければならないものもいくつかある．

Proposition 8-1

$X$ を非負なrandom variableとする．すなわち $P(X<0)=0$ ．このとき
$E[X] = \int^{\infty}_0 (1-F_X(t))dt$

proof.

$\begin{aligned} \int^\infty_0 (1-F_X(t))dt &= \int^\infty_0P(X>t) dt = \int^\infty_0 \int^\infty_t f_X(x)dx dt \\ &=\int^\infty_0 f_X(x) \int^x_0 dtdx = \int^\infty_0 xf_X(x) dx = E[X]\end{aligned}$

Proposition 8-2

$X$ のPDFが $f_X$ とする． $g: \mathbb{R} \rightarrow \mathbb{R}$ がmeasurableなら $g(X)$ はintegrableであって，
$E[g(X)] = \int^\infty_{-\infty} g(t)f_X(t)dt$

proof.

$g(x) = g^{+}(x) - g^{-}(x), g^+ = \max\{g, 0\}, g^-=\max\{-g, 0\}$ と， $g$ を正の部分と負の部分に分ける．とくに $t\geq 0$ に $g(x) > t \Leftrightarrow g^+(x) > t$ である．
$E[g(X)] = \underline{\int^\infty_0 P(g(X)>t)dt}_{(1)} - \underline{\int^\infty_0 P(g(X)< -t) dt}_{(2)}$
ここで
$(1) = \int^\infty_0 \int_{\{x|g(x)>t\}} f_X(x)dx dt = \int^\infty_{-\infty}\int_{\{t|0 \leq t < g(x)\}} f_X(x) dtdx = \int^\infty_{-\infty} g^+(x)f_X(x) dx$
同様に
$(2) = \int^\infty_{-\infty} g^-(x)d_X(x)dx$
足し合わせて
$E[g(X)] = \int g(x) f_X(x) dx$
がたしかに成立する．

4. Joint Distributions

$X, Y$ という同じprobability spaceのrandom variableの組を与えられたとき，
$f_{X,Y} : \mathbb{R}^2 \rightarrow [0, \infty)$ で，
$F_{X, Y} (x, y) = P(X \leq x, Y \leq y) = \int^x_{-\infty}\int^y_{-\infty}f_{X,Y}(u,v)dudv$
となるようなmeasurable $f_{X,Y}$ があるとき， $X,Y$ はjointly continuousであるといい， $f_{X,Y}$ をjoint PDFといい， $F_{X, Y}$ をjoint CDFという．
joint PDFが連続な点で，
$\frac{\partial^2 F}{\partial x \partial y} (x, y) = f_{X, Y}(x, y)$
が成立する．また， $\mathbb{R}^2$ のBorel set $B$ に，
$P((X, Y) \in B) = \int_B f_{X,Y}(x, y) dx dy = \int_{\mathbb{R}^2} I_B(x, y) f_{X, Y}dxdy$
が成立する．さらに $B$ のLebesgue measure が0なら $P(B)=0$ である．
さて，
$P(X \leq x) = \int^x_{-\infty} \int^\infty_{-\infty} f_{X,Y}(u,v)dudv$
だから， $X$ にはmarginal PDF
$f_X(x) = \int^\infty_{-\infty} f_{X,Y}(x, y)dy$
が得られる．
$x,Y$ がjointly continuous なら $X,Y$ はともにcontinous random variableであることがわかった．
一方，同じprobability spaceのcontinous random variableの組であっても,jointly continousであるとは限らない．

Proposition 8-3

$X, Y$ はjoijntly continousで,そのPDFは $f_{X,Y}$ とする． $g: \mathbb{R}^2 \rightarrow \mathbb{R}$ がBorel measurableかつ $g(X)$ がintegrableであるとき，
$E[g(X, Y)] = \int \int g(u,v) f_{X, Y} (u, v) dudv$
が成立する．

5. Independence

$X, Y$ がindependentであるとは， $B_1, B_2 \in \mathcal{B}$ に
$P(X \in B_1, Y \in B_2) = P(X \in B_1) P(Y \in B_2)$
が成立することと同値であった．
discreteの場合と同様，これと同値な命題がいくつか存在する．

Theorem 8-2

$X, Y$ はjointly continousとする．以下は同値である．
(a) X, Y はindependent
(b) 任意の $x, y \in \mathbb{R}$ に $\{X \leq x\}, \{Y \leq y\}$ というeventはindependent
(c) 任意の $x, y \in \mathbb{R}$ に $F_{X, Y} (x, y) = F_X(x) F_Y(y)$
(d) $f_X, f_Y, f_{X, Y}$ がそれぞれ $F_X, F_Y, F_{X,Y}$ のPDFであるとき，ほとんどすべての点 $(x, y)$ で $f_{X, Y}(x, y) = f_X(x) f_Y(y)$

proof.
Lec.6とほとんど同様．

2017年7月13日木曜日

The Rust Programming Language 2nd 14日目

https://doc.rust-lang.org/book/second-edition/
Apache License　Version 2.0

Generic Types, Traits, and Lifetimes

Validating References with Lifetimes

referenceにはかならずlifetime(寿命)という，referenceが有効であるスコープをもっているが，大方の場合それは明示されずコンパイラに推測される．lifetimeを特に指定する場合には，generic lifetime parametersを使う．lifetimeはRust独特の機能であって，時に非常に重要なので，この章でその基本的な概念を述べた後，19章で応用的なlifetimeの扱い方を学ぶ．

Lifetime Prevent Dangling References

dangling(宙ぶらりん) referenceは，すでに意味を失った変数へのreferenceで，これを放置すると，あるデータにアクセスしようとして他のデータにアクセスしてしまうことがある．lifetimeの目的はdanglin referenceが出来るのを防ぐことである．
例えばlist 10-16では内側の{ }で定義されたxへのreferenceをrに代入しているが，xは内側の{ }が終了すると同時に消えてしまうので，その時点でrも有効ではなくなる．つまりxのlifetimeは内側の{ }の中で，rのlifetimeは外側の{ }の中だから，その外でのreferenceは無効になる．
list 10-16

{
    let r;

    {
        let x = 5;
        r = &x;
    }

    println!("r: {}", r);
}

The Borrow Checker

list 10-16にlifetimeの注釈を加えてみる．
list 10-17

{
    let r;         // -------+-- 'a
                   //        |
    {              //        |
        let x = 5; // -+-----+-- 'b
        r = &x;    //  |     |
    }              // -+     |
                   //        |
    println!("r: {}", r); // |
                   //        |
                   // -------+
}

rのlifetimeを'a, xのlifetimeを'bで書いた．コンパイラはそれぞれのlifetimeを比較し，rが“`x““をborrowしているのを見つけて，エラーを出す．
list 10-18はdangling referenceを持たず，正常にコンパイルできる．
list 10-18

{
    let x = 5;            // -----+-- 'b
                          //      |
    let r = &x;           // --+--+-- 'a
                          //   |  |
    println!("r: {}", r); //   |  |
                          // --+  |       rustでは，宣言した順とは逆順に
}                         // -----+       変数が無効化されていくのだった

Generic Lifetimes in Functions

2つのstring sliceを引数に与えて，長い方のstring sliceを返す関数longestを考える．
longestの実装は後回しにして，例えばlongeestはlist 10-19のように利用できる．
src/main.rs list 10-19

fn main() {
  let string1 = String::from("abcd");
  let string2 = "xyz";

  let result = longest(string1.as_str(), string2);
  println!("The longest string is {}", result);
}

は正常に動けば”abcd”を出力するはずだ．
list 10-20は longestの案だが，コンパイルできない．
src/main.rs list 10-19

fn longest(x: &str, y: &str) -> &str {
  if x.len() > y.len() {
    x
  } else {
    y
  }
}

shell

error[E0106]: missing lifetime specifier
   |
1  | fn longest(x: &str, y: &str) -> &str {
   |                                 ^ expected lifetime parameter
   |
   = help: this function's return type contains a borrowed value, but the
   signature does not say whether it is borrowed from `x` or `y`

エラーメッセージは返り値のreferenceがx, yどちらを指せばいいのかわからないと言っている．しかしプログラマもx, yのどちらが長いかは事前にわからないし，与えられる引数のlifetimeがどうであるかもわからない．そこで，generic lifetime parameterによってrefereneたちの間の関係性を記述し，borrow checkerを助けることにする．

Lifetime Annotation Syntax

lifetime annotationは変数のlifetimeそのものを変えることはできないが，複数のreferenceを関連付けることが出来る．構文としては，アポストロフィ`'とそれに続くlifetime parameterの名前(ふつう小文字1文字)を書く．'aが最も使われる書き方である．lifetime annotation自体は,referenceの&の直後に書く．たとえば

&i32          // a reference
&'a i32       // a reference with an explicit lifetime
&'a mut i32   // a mutable reference with an explicit lifetime

などと書く．

2017年7月12日水曜日

Gamarnik, Tsisiklis. Fundamentals of Probability 07日目離散確率変数の期待値

David Gamarnik, and John Tsitsiklis. 6.436J Fundamentals of Probability. Fall 2008. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 6. Discrete random variables and their expectations

4. Expected Values(期待値)

4.1 Preliminaries: infinite sums

$a_1 + a_2 + \cdots$ という級数があるとき，全ての項が非負ならその順番を並び替えても級数の和がもとと同じになる．また，項が必ずしも非負でない場合に並び替えで和が変わらない条件というのは，絶対収束性であった．すなわち $S_{+}, S_{-}$ をそれぞれ級数から非負の項のみ取り出した和と，負の項のみ取り出した和とするとき， $S_{+}, S_{-}$ がともに有限であればよかった．
また, $\{a_{ij}\}_{i, j}$ という二重のインデックスが振られた数列の和についても，全ての項が非負であるか絶対収束すれば
$\sum_{i}\sum_j a_{ij} = \sum_j \sum_i a_{ij} = \sum_{i,j} a_{ij}$
と書けるのであった．

4.2 Definition of the expectation

random variable X のPMFを要約する値の一つに,expectation(期待値)がある.

Definition 6-2(Expectation)

discrete random variable $X$ とそのPMF $p_X$ があるとき， $X$ のexpected value(expectation, or mean)を
$\mathbb{E}[X] = \sum_x xp_X(x)$
と定める．これが常にはwell-definedでないことはすでに注意した．

4.3 Properties of the expectation

expectationの別の表現として, $X$ が非負の整数値しか取れないなら,
$\mathbb{E}[X] = \sum_{n \geq 0} P(X > n)$
がある.

Proposition 6-3

discrete random variable $X$ と $g: \mathbb{R} \rightarrow \mathbb{R}$ があるとき,
$E[g(x)] = \sum_{\{x| p_X(x) > 0\}} g(x)p_X(x)$

この定理で, $g(x)=x^2$ とすると, $Y=X^2$ のexpectationが $\mathbb{E}[Y]=\sum_x x^2p_X(x)$ とわかる.
$\mathbb{E}[Y]$ を $\mathbb{E}[X^2]$ とも書く． $\mathbb{E}[X^2]$ を $X$ のsecond momentという．より一般に， $\mathbb{E}[X^r]$ を $X$ の $r$ th momentという.さらに, $\mathbb{E}[(X-\mathbb{E}[X])^r]$ を $X$ の $r$ th central momentといい,特に $X$ の2nd central moment $\mathbb{E}[(X - \mathbb{E}[X])^2]$ を $X$ のvariance(分散)といい, $\text{V}[X]$ とか， $\text{var}[X]$ と書く．
さらに $X$ のvarianceの根をstandard deviation(標準偏差)といい， $\sigma_X$ とか，単に $\sigma$ と書く.

Proposition 6-4

$X, Y$ 同じprobability spaecのdiscrete random variableとする．以下，両辺でそれぞれの値に確定値が定義されているとき

(a) $X \geq 0, a.s. \Rightarrow \mathbb{E}[X] \geq 0$
(b) $X = c, a.s. \Rightarrow \mathbb{E}[X] = c$
(c) $a, b \in \mathbb{R}$ に, $E[aX+bY] = aE[X] + bE[y]$
(d) $E[X] < \infty \Rightarrow V(X) = E[X^2]-E[X]^2$
(e) $V(aX) = a^2 V(X)$
(f) $X, Y$ が独立なら, $E[XY]=E[X]E[Y], V(X+Y) = V(X)+V(Y)$
(g) $X_1, ..., X_n$ が独立なら
$E[\Pi X_1] = \Pi E[X_i],\ \ V(\sum X_i) = \sum V(X_i)$

Lecture 7. Discrete random variables and their expectations (cont)

1. Comments on Expected Values

(a) $E[X]$ は $\sum_{x: x<0} xp_X(x), \sum_{x: x>0} xp_X(X)$ がともに有限である場合にのみ有限確定値をもつ.これは $E[|X|] = \sum_x |x| p_X(x) < \infty$ と同値である.これを満たすrandom variableはintegrableであるという．
(b) 任意の $X$ に $E[X^2]$ は $\infty$ を許せば常に定義されている.特に $E[X^2] < \infty$ であるとき， $X$ はsquare integrableという．
(c) $|x| \leq 1 + x^2$ から， $E[|X|] \leq 1 + E[X^2]$ である．よって,square integrableならばintegrableである．
(d) $V(X)=E[X^2]-E[X]^2$ だから，(i) $X$ がsquare integrable ならば $V[X]<\infty$ (ii) $X$ がintegrableだがsquare integrableでないとき， $V[X]=\infty$ . (iii) $X$ がintegrable でないなら， $V[X]$ は未定義．

2. Expected values of Some Common Random Variables

(a) Bernoulli
$X \sim Ber(p)$ であるとき，
$\begin{aligned} &E[X] = 1 \cdot p + 0 \cdot (1-p) = p \\ &V[X] = E[X^2]-E[X]^2 = 1^2 \cdot P + 0^2 \cdot (1-p) - p^2 = p(1-p)\end{aligned}$
(b) Binomial
$X \sim Bin(n, p)$ とする.このとき $X=\sum_{i=1}^n X_i$ と, $X_i \sim Ber(p)$ によって書ける.
よって
$\begin{aligned} & E[X]=\sum_{i=1}^n E[X_i] = np \\ &V[X]=\sum_{i=1}^n V[X_i] = np(1-p) \end{aligned}$
(C) Geometric
$X \sim Geo(p)$ とする． $E[X] = \sum_{n\geq 0} P(X>n)$ を使う．
$P(X > n) = \sum_{j=n+1}^\infty (1-p)^{j-1}p = (1-p)^n$ から,
$\begin{aligned} &E[X] = \sum_{n \geq 0} (1-p)^n = 1/p \\ & V[X] = \frac{1-p}{p^2}\end{aligned}$
(d) * Poisson*
$X \sim Poi(\lambda)$ とする．
$\begin{aligned} E[X] &= e^{-\lambda}\sum_{n \geq 0} n\frac{\lambda^n}{n!}\\ &=e^{-\lambda} \sum_{n \geq 1} \frac{\lambda^n}{(n-1)!} \\&=\lambda e^{-\lambda} \sum_{n \geq 0} \frac{\lambda^n}{n!} = \lambda \end{aligned}$
また,
$V[X] = \lambda$
これは,Poisson分布がBinomial分布の $\lambda =np, n \rightarrow \infty, p \rightarrow 0$ の極限であることからも言える．
(e) Power
$X \sim Pow(\alpha)$ であるとき，
$E[X] = \sum_{k \geq 0} \frac{1}{(k+1)^\alpha}$
これをRiemmanの $\zeta$ functionといい， $\zeta(\alpha)$ と書く．

3. Covariance and Correlation

3.1 Covariance

Definition

square integrable random variable $X, Y$ について，そのcovariance(分散)を
$cov(X, Y):= E[(X-E[X])(Y-E[Y])]$
と定める. $|XY| \leq \frac{X^2+Y^2}{2}$ から， $X,Y$ がsquare integrableという仮定のもとで， $cov(X, Y) < \infty$ である．

$X-E[X]$ と $Y-E[Y]$ が同じ符号を取りやすいときは $cov(X, Y) > 0$ ,異なる符号を取りやすいときは $cov(X, Y)<0$ と考えることができる．よって， $cov(X, Y)$ の符号は $X$ と $Y$ の関係を要約する．
以下にcovarianceの重要な性質をいくつか挙げる.
(a) $cov(X, X) = V(X)$
(b) $cov(X, Y+a) = cov(X, Y)$
(c) $cov (X, Y) = cov(Y, X)$
(d) $cov(X, aY+bZ) = a\cdot cov(X, Y) + b \cdot cov(X, Z)$
また,
$cov(X, Y) = E[XY]-E[X]E[Y]$
である．
$X, Y$ が独立であれば $E[XY]=E[X]E[Y]$ であって， $cov(X, Y)=0$ である．逆は必ずしも成り立たない．

3.2 Variance of the sum of random variables

$\tilde{X_i} = X_i - E[X_i]$ とすると，
$\begin{aligned} V(\sum_{i=1}^n X_i) &= E\left[\sum_{i=1}^n \sum_{j=1}^n \tilde{X_i} \tilde{X_j} \right] \\ &= \sum_i \sum_j E[\tilde{X_i} \tilde{X_j}] \\ &= \sum E[\tilde{X_i}^2] + 2 \sum_{i=1}^{n-1}\sum_{j=i+1}^n E[\tilde{X_i} \tilde{X_j}] \\ &= \sum V(X_i) + 2 \sum_{i=1}^{n-1}\sum_{j=i+1}^n cov(X_i, X_j)\end{aligned}$
である．特に,
$V(X_1 + X_2) = V(X_1)+V(X_2) + 2cov(X_1, X_2)$
である．

Correlation coefficient

$X, Y$ のcorrelation coefficient(相関係数)を
$\rho(X, Y) := \frac{cov(X, Y)}{\sqrt{V(X)V(Y)}}$
と定める．正規化されたcovarianceと考えることができる．

Theorem 7-1

$X, Y$ は正のvarianceを持ったdiscrete random variableとする．また $\rho(X, Y)$ を単に $\rho$ とする．このとき
(a) $-1 \leq \rho \leq 1$
(b) $\rho=\pm 1$ のとき， $Y-E[Y]= a(X-E[X])$ の確率が1となるような定数 $a$ がある．

proof.

(a) $\tilde{X} = X -E[X], \tilde{Y} = Y -E[Y]$ とする．Cauchy-Scwartzの不等式より，
$(\rho (X, Y))^2 = \frac{(E[\tilde{X} \tilde{Y}])^2}{E[\tilde{X}^2]E[\tilde{Y}^2]} \leq 1$
$\because cov(X, Y) = cov(\tilde{X}, \tilde{Y}) = E(\tilde{X}\tilde{Y})$
(b) $\tilde{Y} = a \tilde{X}$ なら，
$\rho (X, Y) = \frac{E[\tilde{X}a\tilde{X}]}{\sqrt{E({\tilde{X}^2}) E((a\tilde{X})^2)}} = \frac{aV(X)}{|a|V(X)} = \frac{a}{|a|} = \pm 1$
逆に， $(\rho(X, Y))^2 = 1$ とすると， $E[\tilde{X}^2] E[\tilde{Y}^2]=(E[\tilde{X}\tilde{Y}])^2$ である.
ここで
$E\left[ \left(\tilde{X} - \frac{E(\tilde{X}\tilde{Y})}{E(\tilde{Y}^2)}Y\right)^2 \right] = E[\tilde{X}^2] - \frac{(E(\tilde{X}\tilde{Y}))^2}{E[\tilde{Y}^2]}$
を考えると， $\tilde{X} - \frac{E(\tilde{X}\tilde{Y})}{E(\tilde{Y}^2)}\tilde{Y}$ というrandom variableが0をとる確率は1である．よって示せた．

4. Indicator Variables and the Inclusion-Exclusion Formula

indicator functionは，event $A$ に対して， $I_A: \Omega \ni \omega \mapsto \begin{cases} 1 \ \ \ & \omega \in A \\ 0 & \omega \notin A \end{cases}$
と定義され， $E[I_A]=P(A)$ である．indicator functionによって今後の様々な定理や証明を簡潔に書ける．

4.1 The inclusion-exclusion formula

$I_{A\cap B} = I_a I_B$ ,また $I_{A \cup B} = I_A +I_B -I_AI_B$ である．
両辺のexpectationを考えると，
$P(A\cup B) = P(A) +P(B) - P(A \cap B)$
これを一般化する． $\{A_j\}_1^n \subset \mathcal{F}$ とする． $B=\sup A_j$ とすると，
$I_B = 1 - \Pi(1-I_{A_j})$
が成立．両辺のexpectationを取って,
$P(B) = 1 - \sum_{1 \leq j \leq n} P(A_j) + \sum_{1 \leq i < j \leq n} P(A_i \cap A_j) - \sum_{1\leq i<j<k\leq n} P(A_i \cap A_j \cap A_k) + \cdots (-1)^n P(A_1 \cap \cdots \cap A_n)$

これをInclusion-exclusion theoremという．

5. Conditional Expectations

$p_{X|A}(x) = P(X=x | A)$ によって， $A \in \mathcal{F}$ と $X$ にいてのconditional PMF $p_{X|A}$ が定義でき，さらに $p_{X|A}$ にはconditional expectationが定義できる．

Definition 7-2

$A \in \mathcal{F}, P(A) >0$ とdiscrete random variable $X$ があるとき， $A$ がある時の $X$ のconditional expectationを
$E[X|A]:= \sum_x xp_{X|A}(x)$
と定める．

また， $E[X|Y=y]$ という形のconditional expectationとは, $A=\{Y=y\}$ とした場合，すなわち
$E[X|Y=y] = \sum_x xp_{X|Y} (x|y)$
である． $X$ が非負であるかintegrableであるならconditional expectationは有限値を取る．

5.1 The total expectation theorem

$\{A_i\}\subset \mathcal{F}$ は $\Omega$ の分割とする．random variable $Y$ を $Y(\omega) = \begin{cases} i \ \ \ &(\omega \in A_i) \\ 0 &(\text{otherwise})\end{cases}$
と定める．このとき $p_Y(i) =P(A_i), E[X|Y =i] =E[X|A_i]$ である．したがって
$E[X] = \sum_i E[X|A_i]P(A_i)$
である．

Example(The mean of the geometric)

$X \sim geo(p)$ とする．すなわち $p_X(k)=(1-p)^{k-1}p$ ．ここで

$\begin{aligned} P(X-1=k | X>1) &= \frac{P(X=k+1, X>1)}{P(X>1)} \\ &= \frac{P(X=k+1)}{P(X>1)} \\ &= \frac{(1-p)^kp}{1-p}=(1-p)^{k-1}p \\ &=P(X=k)\end{aligned}$
が成立．コイントスの例をとれば，次の $k$ 回目のコイントスで表が出る確率は，1回コイントスをした時点で $k+1$ 回目のコイントスで表が出る確率に等しいということ．このようなdistributionをmemoryless(無記憶)であるという．

$E[X] = E[X|X>1]P(X>1)+E[X|X=1]P(X=1) = (1+E[X])(1-p) + 1 \cdot p$
$E[X]$ について解いて, $E[X]=1/p$ .
同様に
$E[X^2]=E[X^2|X>1]P(X>1)+E[X^2|X=1]P(X=1)$
$E[X^2|X>1] = E[(X-1)^2|X>1]+E[2(X-1)+1|X>1]=E[X^2]+2/p+1$ から，
$E[X^2]=(1-p)(E[X^2]+2/p+1)+p$
これを解いて
$E[X^2] = 2/p^2 - 1/p$
したがって
$V(X) = E[X^2]-(E[X])^2 = \frac{1-p}{p^2}$

5.2 The conditional expectation as a random variable

$X, Y$ をdiscrete random variableとする． $y$ を固定すると $E[X|Y=y]$ は実数として定まり， $y$ の関数と考えることができる． $E[X|Y=y]$ を $y$ の関数と考えて $E[X|Y]:\mathbb{R} \rightarrow \mathbb{R}$ と書くとすると， $E[X|Y]$ はrandom variableである．

Theorem 7-2

$g: \mathbb{R} \rightarrow \mathbb{R}$ がmeasurableで， $Xg(Y)$ が非負かintegrableであるとき，
$E[E[X|Y]g(Y)] = E[Xg(Y)]$
であって，特に $g=1$ とすれば， $E[E[X|Y]]=E[X]$ である．

proof.

$\begin{aligned}E[E[X|Y]g(Y)] &= \sum_y E[X|Y=y]g(y)p_Y(y) \\ &= \sum_y \sum_x xp_{X|Y}(x|y)g(y)p_Y(y) \\&=\sum_{x, y} xg(y)p_{X,Y}(x, y) = E[Xg(Y)] \end{aligned}$

系: $E[(E[X|Y]-X)g(Y)]=0$
$E[X|Y]$ は $X$ の $Y$ からのestimationと考えられて， $E[X|Y]-X$ はestimation errorである．この定理は，estimation errorがいかなる関数 $g$ ともcorrelationを持たないことを主張している．

2017年7月9日日曜日

Gamarnik, Tsisiklis. Fundamentals of Probability 06日目離散確率変数1

David Gamarnik, and John Tsitsiklis. 6.436J Fundamentals of Probability. Fall 2008. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 6. Discrete random variables and their expectations

1. A Few Useful Random Variables

$X$ の値域がたかだか可算であるときrandom variable $X$ をdiscrete random variableといい,そのPMF(probability mass function) $p_X: \mathbb{R} \ni x \mapsto P(X=x) \in [0, 1]$ は, $X$ と一対一に対応するのだった.以下は特に重要なPMFたちである.

(a) Discrete uniform

$a, b \in \mathbb{Z}, a < b$ に,
$p_X(k) = \begin{cases} 1 / (b - a + 1), \ \ &k \in \{a, a+1, ..., b\} \\ 0 & \text{otherwise} \end{cases}$

(b) Bernoulli

$p \in [0, 1]$ に,
$p_X(1)=p, p_X(0)=1-p$
(本文では $p_X(0)=p, p_X(1)=1-p$ なのだが,過去に出てきたコイントスの例だと1で表,0で裏を表すようにしていたし,(c)の解説では表の場合の確率をpとしていた.おそらく誤植だろう.)

$n \in \mathbb{N}, p \in [0, 1]$ に,
$p_X(k) = \left( \begin{array}{} n \\ k\end{array}\right) p^k (1-p)^{n-k}$
binomial random variableは,表が出る確率 $p$ のコイントスを $n$ 回繰り返して $k$ 回表が出る確率を表している.

(d) Geometric

$0 < p \leq 1$ として,
$p_X(k) = (1-p)^{k-1}p, \ \ \ k \in \mathbb{N}$
geometric random variableは表が出る確率 $p$ のコイントスで $k$ 回目に初めて表が出る確率を表している.

(e) Poisson

$\lambda > 0$ に,
$p_X(k) = e^{-\lambda} \frac{\lambda^k}{k!}$
Poisson random variableはbinomial random variableの極限と考えることが出来る.

(f) Power law(冪乗則)

$\alpha > 0$ に,
$p_X(k) = \frac{1}{k^\alpha} - \frac{1}{(k+1)^\alpha}$
ここで
$P(X \geq k) = \frac{1}{k^\alpha}$
が成立する.

Notation

上で定義したPMFをそれぞれ $dU(a, b), Ber(p), Bin(n, p), Geo(p), Pois(\lambda), Pow(\alpha)$ と略記することにする.また $X$ が例えばdU( $a, b$ )が定めるPMFを持つとき, $X \sim dU(a, b)$ と書くように, $\sim$ という記号を導入する.また, $X \;{\tiny\begin{matrix}^{\scriptsize d}\\ \normalsize = \end{matrix} }\; Y$
によって, $X$ と $Y$ が同じPMFを持つことを示すとする.

1.1 Poisson distribution as a limit of the binomial

Poisson distributionははbinomial distributionのnを大きく,pを小さくした極限で,例えばある年での事故件数のような稀な事象のモデルを作るときによく使われる.この場合 $\lambda$ はその稀な事象の平均件数を表している.

Proposition 6-1.(Binomial convergence to Poisson)

$X_n = \text{Bin}(n, \lambda/n)$ がすべての $n$ に成立し, $X\;{\tiny\begin{matrix}^{\scriptsize \Delta}\\ \normalsize = \end{matrix} }\; Pois(\lambda)$ とする.このとき $n \rightarrow \infty$ によって $X_n$ のPMFは $X$ のPMFに収束する.つまり,
$\forall k\ \lim_{n \rightarrow \infty}P(X_n=k) = P(X=k)$

proof.

$P(X_n = k) = \frac{n(n-1)\cdots (n-k+1)}{n^k} \frac{\lambda^k}{k!} \left(1 - \frac{\lambda}{n} \right)^{n-k}$
$k$ を固定して $n \rightarrow \infty$ とすると, $j \in \{1, ..., k\}$ で
$\frac{n-k+j}{n} \rightarrow 1, (1-\frac{\lambda}{n})^{-k} \rightarrow 1, (1-\frac{\lambda}{n})^n \rightarrow e^{-\lambda}$
よって $\lim_{n\rightarrow \infty}P(X_n=k) \rightarrow e^{-\lambda}\frac{\lambda^k}{k!}=P(X=k)$

2. Joint, Marginal, And Conditional PMFs

2.1 Marginal PMFs

$X, Y$ は同じprobability spaceのrandom variableとする.それぞれのprobability lawがPMF $p_X, p_Y$ によって書けるとき,これらをmarginal PMFとよぶ.(ようするにただのPMF)

2.2 Joint PMFs

$p_{X, Y} (x, y) = P(X=x, Y=y)$
で定義される $p_{X,Y}: \mathbb{R}^2 \rightarrow [0, 1]$ を $X, Y$ のjoint PMFという.より一般に, $\{X_i\}_{i=1}^N$ というrandom variableたちがあるとき,これらのjoint PMFは
$p_{X_1, ..., x_N} (x_1, ..., x_N) = P(X_1=x_1, ..., X_N=x_N)$
で定義される.random variableのベクトル $X=(X_1, ..., X_N)$ を定義して,上のjoint PMFを単に $p_X(x)$ と書くことが有る.
$X, Y$ のjoint PMFは, $X$ と $Y$ によって決められるeventの確率を決めることが出来る.例えば, $A$ を $(x, y)$ がある性質を満たす集合とすると,
$P((X, Y) \in A) = \sum_{(x, y) \in A} p_{X, Y}(x, y)$
が成立する.ところで,marginal PMFによって, $X, Y$ のmarginal PMFを計算できる.
$p_X(x) = \sum_y p_{X,Y} (x, y), p_Y(y) = \sum_x p_{X,Y}(x,y)$
である.

2.3 Conditional PMFs

$X, Y$ が同じprobability spaceのdiscrete random variableであって,joint PMFは $p_{X, Y}$ であるとする.このとき $X$ と $Y$ のconditional PMFを,
$p_{X|Y} (x|y) := P(X=x|Y=y) \ \ \ \text{if}\ \ P(Y=y)>0$
によって定める.定義より
$p_{X|Y}(x|y)=\frac{p_{X,Y}(x, y)}{p_Y(y)}$
である.

Independence of Random Variables

3.1 Independence of general random variables

random variable $X, Y$ がindependent(独立)とは,一方の値が決まってももう一方の値の分布が変わらないということである.形式的には

Definition 6-1 (Independence of random variables)

(a) $X_1, ..., X_n$ を同じprobability spaceのrandom variableとする.
$P(X_1 \in B_1, ..., X_n \in B_n) = P(X_1 \in B_1) \cdots P(X_n \in B_n)$
が任意のBorel subsetたち $B_1, ..., B_n$ になりたつとき, $\{X_i\}_1^n$ はindependent(独立)であるという.
(b) $\{X_s| s \in S\}$ の独立性は,その任意の有限部分集合の独立性と同値とする.

Proposition 6-2

任意の $\{x_1, ..., x_n\}\subset \mathbb{R}^n, \ \ \{s_1, ..., s_n\} \subset S$ に, $\{X_{s_i}\leq x_i\}_{i=1}^n$ というeventたちがindependentなら, $\{X_s\}_{s \in S}$ もまたindependent.
(event $A, B$ がindependent $\Leftrightarrow P(A \cap B) = P(A)P(B)$ )

proof. 略
random variable $X_1, ..., X_n$ のjoint CDFを,
$F_{X_1, ..., X_n}(x_1, ..., x_n) := P(X_1 \leq x_1, ..., X_n \leq x_n)$
と定める.prop.2の観点から, $\{X_i\}_1^n$ の独立性は
$\forall x_1, ..., x_n\ \ \ F_{X_1, ..., X_n}(x_1, ..., x_n) = F_{X_1}(x_1) \cdots F_{X_n}(x_n)$
と同値である.

3.2 Independence of Discrete Random Variables

有限個のdiscrete random variableの独立性はjoint PMFがmarginal PMFの積になることと同値である.

Theorem 6-1

$X, Y$ はdiscrete random variableとする.以下は同値
(a) $X, Y$ は独立
(b) $\forall x, y \in \mathbb{R}$ に, $\{X=x\}$ と $\{Y=y\}$ というeventは独立
(c) $\forall x, y \in \mathbb{R}$ に $p_{X, Y}(x, y) = p_X(x)p_Y(y)$
(d) $\forall x, y \in \mathbb{R}$ に, $p_Y(y)>0$ なら $p_{X|Y}(x|y) = p_X(x)$

proof.

( $a \Rightarrow b$ )

定義より明らか

( $b \Leftrightarrow c$ )

$\begin{aligned} \{X=x\}, \{Y=y\} \text{が独立} &\Leftrightarrow \forall x, y \ \ P(X=x, Y=y) = P(X=x)P(Y=y) \\&\Leftrightarrow \forall x, y \ \ p_{X,Y}(x, y) = p_X(x) p_Y(y) \end{aligned}$

( $c \Rightarrow d$ )

明らか

( $c \Rightarrow a$ )

仮定のもとで,任意のBorel set $A, B$ に
$\begin{aligned} P(X \in A, Y \in B) &= \sum_{x \in A, y \in B} P(X=x, Y=y) \\ &= \sum_{x \in A, y \in B} p_{X, Y}(x, y) \\ &= \sum_{x \in A, y \in B} p_X(x)p_Y(y) \\&=(\sum_{x \in A}p_X(x))(\sum_{y \in B}p_Y(y)) \\ &= P(X \in A) P(Y \in B)\end{aligned}$

Theorem 6-2

$X, Y$ が独立なdiscrete random variableとする. $g, h:\mathbb{R}\rightarrow \mathbb{R}$ を任意の関数とする.このとき $g(X),g(Y)$ というrandom varibaleは独立である

3.3 Examples

Example

$X_1, ..., X_n$ を,同じパラメータ $p$ をもつBernoulli random variableたちとする. $X=X_1 + \cdots +X_n$ とすると, $X$ は $(n, p)$ のbinomial random variableである.

Example

$X, Y$ を,それぞれ $(n, p), (m, p)$ のパラメータを持つ独立なbinomial random variableとする. $Z=X+Y$ とすると, $Z$ はパラメータ $(n+m, p)$ をもつbinomial random variableである.

Example

確率 $p$ で表が出るコイントスを $n$ 回行う. $X$ を表が出た回数として, $Y=n-X$ とすると, $Y$ は裏が出た回数のrandom variableである. $P(X=0) = (1-p)^n, P(Y=0) =p^n$ であるが, $P(X=0, Y=0)=0 \neq P(X=0)P(Y=0)$ から, $X,Y$ は独立でない.

一方で,コイントスの回数もまたランダムであるとき,表が出る回数のrandom variableと裏が出る回数のrandom variableは独立になる. $N$ をパラメータ $\lambda$ のPoisson random variableとすると,conditional PMF $p_{X|N}(\cdot|n)$ は $(n, p)$ のbinomialであって, $Y=N-X$ とすると, $X,Y$ は独立となる.(次定理)

Theorem 3. (Splitting of a Poisson random variable)

上の条件のもとで $X, Y$ は独立であり, $X \;{\tiny\begin{matrix}^{\scriptsize d}\\ \normalsize = \end{matrix} }\; Pois(\lambda p), Y \;{\tiny\begin{matrix}^{\scriptsize d}\\ \normalsize = \end{matrix} }\; Pois(\lambda(1-p))$ である.

The Rust Programming Language 2nd 12日目 Error Handling

Apache License　Version 2.0

Error Handling

RustはエラーをRecoverableとUnrecoverableに分けている.前者は生じたことをユーザーに知らせてインプットし直させたりして解決しうるエラーであり,後者はarrayの長さよりも大きいindexを指定するような,回復不能なエラーである.
RustではResult<T, E>型によって前者の発生を伝え,後者の場合panic! macro が実行を停止する.この章ではまずpanic!の扱い方を論じてからResult<T, E>を論じる.さらに,エラーから復帰するか停止するかを決めるに当たっての方法論を述べる.

Unrecoverable Errors with `panic!`

バグが生じて,プログラムがそれをどう処理するかわからないとき,panic! macroはエラーメッセージを出力し,メモリをきれいにしてから実行を停止する.

Unwinding the Stack Versus Aborting on Panic

デフォルトではpanic!によってプログラムはunwinding(解きほぐし？)を始める.unwindingはRustの関数が持っていたデータを削除することである.これには時間がかかるので,ただちにabortしてメモリをそのままにプログラムを停止することもできる.この場合OSがメモリを掃除することになる.プログラムのサイズをできるだけ小さくしたいときはcargo.tomlの[profile]にpanic = 'abort'を追加することでabortを指定できる.

試しにpanic!を呼んでみよう.
src/main.rs

fn main() {
  panic!("crash and burn");
}

shell

Finished dev [unoptimized + debuginfo] target(s) in 0.0 secs
 Running `target/debug/error_handling`
thread 'main' panicked at 'crash and burn', src/main.rs:2
note: Run with `RUST_BACKTRACE=1` for a backtrace.

エラーメッセージが示すsrc/main.rsの2行目には我々が書いたpanic!があるが,普通のプログラムではエラーメッセージが示している部分を更に我々が書いたコードが呼んでいることが多いので,その場合にはbacktraceによって,我々のコードが孕んでいるバグを見つけることができる.

Using a `panic!` backtrace

src/main.rs

fn main() {
  let v = vec![1, 2, 3];
  v[100];
}

このコードはvというVectorの割り当てられた範囲外のメモリを参照している.
Cのような言語はこうしたコードを無事コンパイルして,実行時にbufer overreadという危険な状態が生じる.Rustではunrecoverableなエラーを生じ,panic!する.
shell

Finished dev [unoptimized + debuginfo] target(s) in 0.0 secs
 Running `target/debug/error_handling`
thread 'main' panicked at 'index out of bounds: the len is 3 but the index is 100', /checkout/src/libcollections/vec.rs:1488
note: Run with `RUST_BACKTRACE=1` for a backtrace.

このエラーメッセージにはlibcollections/vec.rsというファイルが含まれる.このファイルでRustはVec<T>型を実装していて,[]をvに対して使うときに呼び出される.panic!は実際にはここで起こっているのである.
最終行ではRUST_BACKTRACEを有効にすることでbacktraceを行えることがわかる.実際にやってみよう.
shell

ren@ren-ThinkCentre-Edge72:~/Projects/error_handling$ RUST_BACKTRACE=1 cargo run
    Finished dev [unoptimized + debuginfo] target(s) in 0.0 secs
     Running `target/debug/error_handling`
thread 'main' panicked at 'index out of bounds: the len is 3 but the index is 100', /checkout/src/libcollections/vec.rs:1488
stack backtrace:
   0: std::sys::imp::backtrace::tracing::imp::unwind_backtrace
             at /checkout/src/libstd/sys/unix/backtrace/tracing/gcc_s.rs:49
   1: std::sys_common::backtrace::_print
             at /checkout/src/libstd/sys_common/backtrace.rs:71
   2: std::panicking::default_hook::{{closure}}
             at /checkout/src/libstd/sys_common/backtrace.rs:60
             at /checkout/src/libstd/panicking.rs:355

   3: std::panicking::default_hook
             at /checkout/src/libstd/panicking.rs:371
   4: std::panicking::rust_panic_with_hook
             at /checkout/src/libstd/panicking.rs:549
   5: std::panicking::begin_panic
             at /checkout/src/libstd/panicking.rs:511
   6: std::panicking::begin_panic_fmt
             at /checkout/src/libstd/panicking.rs:495
   7: rust_begin_unwind
             at /checkout/src/libstd/panicking.rs:471
   8: core::panicking::panic_fmt
             at /checkout/src/libcore/panicking.rs:69
   9: core::panicking::panic_bounds_check
             at /checkout/src/libcore/panicking.rs:56
  10: <collections::vec::Vec<T> as core::ops::Index<usize>>::index
             at /checkout/src/libcollections/vec.rs:1488
  11: error_handling::main
             at ./src/main.rs:3
  12: __rust_maybe_catch_panic
             at /checkout/src/libpanic_unwind/lib.rs:98
  13: std::rt::lang_start
             at /checkout/src/libstd/panicking.rs:433
             at /checkout/src/libstd/panic.rs:361
             at /checkout/src/libstd/rt.rs:57
  14: main
  15: __libc_start_main
  16: _start

11行目で,src/main.rsの3行目がエラーに関係していることを教えてくれる.

Recoverable Errors with `Result`

殆どのエラーはプログラムをただちに終了させるほどのものではなく,例えば開くファイルをユーザーが指定するときに存在しないパスを入力してしまったときのような,もう一度正しいインプットをするように促すだけですむものもある.Chap.2 でみたように,Result型を使ってこのような状況を扱うことが出来る.ResultはOkかErrの値を取るEnumであって,以下のように定義されている.

enum Result<T, E> {
  Ok(T),
  Err(E),
}

TとEはgeneric type parameterといって,Chap.10で詳しく述べる.今は,Tの場合にOkとともに返す値の型が,Eの場合にErrとともに返す値の型を表すと考えれば良い.

Result型を返す関数を使ってみよう.
src/main.rs

use std::fs::File;

fn main() {
    let f = File::open("hello.txt");
    // File::openはResult型を返す.
    // 正常に読み出すとResult<T>:std::fs::File
    // 読み出しでエラーが生じるとReulst<E>std::io::Error型が入る
}

読み出しに成功するとfはOkのインスタンスで,ファイルへのhandleを持つことになり,失敗するとErrのインスタンスでエラーの詳細を持つことになる.
Resultによって挙動を変えるときには以下のようにする.

src/main.rs

use std::fs::File;

fn main() {
  let f = File::open("hello.txt");

  let f = match f{
    Ok(file) => file,
    Err(error) => {
      panic!("There was a problem opening the file \n : {:?}", error)
    },
  };
}

match構文によってfの型で場合分けし,正常な場合はfにハンドラを改めて代入し,異常な場合はpanic!する.このとき,以下のようなエラーが出力される.
shell

thread 'main' panicked at 'There was a problem opening the file
: Error { repr: Os { code: 2, message: "No such file or directory" } }', src/main.rs:9
note: Run with `RUST_BACKTRACE=1` for a backtrace.

Matching on Different Errors

先程はOkかErrかのみで分岐したが,Errの内容によってさらに分岐することも出来る.例えば,File::openが,開くファイルが存在しないためにエラーを出した場合,新しくそのファイルを作れば復帰できる一方で,開くファイルへのパーミッションを持っていないときにはpanic!したいとする.このときは,以下のように書く.
src/main.rs

use std::fs::File;
use std::io::ErrorKind;
fn main() {
  let f = File::open("hello.txt");

  let f = match f {
    Ok(file) => file,
    Err(ref error) if error.kind() == ErrorKind::NotFound => {
      match File::Create("hello.txt") {
        Ok(fc) => fc,
        Err(e) => {
          panic!{
            "tried to create file but there was a problem: {:?}",
            e
          }
        },
      }
    },
  };
}

Propagating Errors

関数が別の何かを呼んで,その何かがエラーを生じたときに,もとの関数がそのエラーの内容によって分岐するように出来る.これをpropagatingといい,もとの関数がエラーをどう処理するかを関数の他の内部状態で決めたいときに使われる.
以下のコードでread_username_from_fileを呼んだ関数はResultを返される.
src/main.rs, list9-5

use std::io;
use std::io::Read;
use std::fs::File;

fn read_username_from_file() -> Result<String, io::Error> {
  let f = File::open("hello.txt");

  let mut f = match f{
    Ok(file) => file,                 // fにファイルへのハンドラを代入
    Err(e) => return Err(e),          // Err(io::Error)
  };

  let mut s = String::new();

  match f.read_to_string(&mut s) {    // sにfの中身を(あれば)代入
    Ok(_) => Ok(s),                   // Ok(String)
    Err(e) => Err(e),                 // Err(io::Error)
  }
  // 返される値はResult型であり,呼んだ関数がエラー処理を行うことになる.
}

fn main() {
    let result = read_username_from_file();
    println!("The return result is \n : {:?}", result);
}

shell

Running `target/debug/error_handling`
The return result is
: Err(Error { repr: Os { code: 2, message: "No such file or directory" } })

簡潔に書く方法に?キーワードを使う方法が有る.

A Shortcut for Propagating Error: `?`

先ほどと同じ機能を持つ関数を?を使って書く.
src/main.rs, list9-6

use std::io;
use std::io::Read;
use std::io::File;

fn read_username_from_file() -> Result<String, io::Error> {
  let mut f = File::open("hello.txt")?;
              // Okならfは中身(ハンドラ)をfに代入し継続
              // Errなら関数を終了してResultを呼んだもとに返す

  let mut s = String::new();
  f.read_to_string(&mut s)?;
              // Ok ならstatementはread_to_stringのOkの中身
              // Errなら関数を終了してResultを呼んだもとに返す
  Ok(s)
}

Result型の後に?がつくと,Okの場合はその中身を返し,関数を継続する.Errの場合はそれを呼んだもとに返してただちに関数を終了する.
list9-6はさらに簡潔に書ける.
src/main.rs, list9-7

use std::io;
use std::io::Read;
use std::fs::File;

fn read_username_from_file() -> Result<String, io::Error> {
  let mut s = String::new();

  File::open("hello.txt")?.read_to_string(&mut s)?;
  Ok(s)
}

`?` Can Only Be Used in Functions That Return `Result`

Errに?をつけると,Err自体がその関数の返す値になるので,?キーワードを使う関数は最初から返り値の型がResultでなければならない.

To `panic!` or Not To `panic!`

多くの場合panic!でプログラムを落とすより,条件分岐を使って通常の状態に復帰することを考えるべきだが,panic!を使うべき場面もいくつか存在する.

Examples, Prototype code, and Test: Perfectly Fine to Panic

サンプルコードや青写真を書くときには,高度なエラーの取扱はロジックをわかりにくくする恐れが有るし,unwrapやexpectのほうが明瞭にどこでエラーが起きたかわかりやすい場合が有る.テストを行う場合も同様である.

Cases When You Have More Infromation Than The Compiler

必ずResultがOkとなるような仕組みが有るときは,unwrapかexpectを使ってErrの場合の処理を書くのを省略できる.例えば

use std::net::IpAddr;
let home = "127.0.0.1".parse::<IpAddr>().unwrap();

とする.”127.0.0.1”は有効なIPアドレスだからparseは成功するはずだが,parseは本質的にResultを返すmethodだから,Errが返されたときの処理も書かないとコンパイラに怒られる.これを回避して簡潔に書くため,単にunwrapを使える.
仮にIPアドレスをユーザーが入力するプログラムなら,無効なIPアドレスを入力される場合が考えられるので,Resultによってエラー処理を書くほうが良い.