PRML 2.3.1 条件付き確率分布
Apr 25, 2018PRML 2.3.1 条件付き確率分布
PRML難しい。
分からないところ理解するとために情報を整理する。
今回は「2.3.1 条件付き確率分布」の内容を整理する。
この節でいいたいこと
多変量ガウス分布の特性の1つとして、節の最初に下記にのように述べられている。
- 2つの変数集合の同時分布がガウス分布に従うなら、一方の変数集合が与えられた時の、もう一方の集合の条件付き分布もガウス分布に従う
これを具体的に書くと
- 2つの変数集合$\boldsymbol{x_a}$, $\boldsymbol{x_b}$の同時分布$p(\boldsymbol{x_a},\boldsymbol{x_b})$がガウス分布に従うなら、一方の変数集合$\boldsymbol{x_b}$が与えられた時の、もう一方の集合の条件付き分布$p(\boldsymbol{x_a}|\boldsymbol{x_b})$もガウス分布に従う
ということ。
条件付き分布がガウス分布であるということ
多変量ガウスは $$ N(\boldsymbol{x}|\boldsymbol{\mu},\Sigma) = \frac{1}{(2\pi)^{\frac{D}{2}}} \frac{1}{| \Sigma |^{\frac{1}{2}}} \exp\left(-\frac{1}{2} (\boldsymbol{x} - \boldsymbol{\mu})^{\mathrm{T}} \Sigma^{-1} (\boldsymbol{x} - \boldsymbol{\mu}) \right) \tag{2.43} $$ となる。
多変量ガウスがD次元として、ベクトル$\boldsymbol{x}$を2つの互いに素な部分集合$\boldsymbol{x_{a}}$と$\boldsymbol{x_{b}}$に分割する。
ここで$\boldsymbol{x_{a}}$は$\boldsymbol{x}$の最初の$M$個の要素で、$\boldsymbol{x_{b}}$は残りの$D-M$個の要素で構成する。
$$ \boldsymbol{x} = \begin{pmatrix} \boldsymbol{x_{a}} \\\ \boldsymbol{x_{b}} \end{pmatrix} \tag{2.65} $$
平均ベクトル$\boldsymbol{\mu}$の分割も定義する。 $$ \boldsymbol{\mu} = \begin{pmatrix} \boldsymbol{\mu_{a}} \\\ \boldsymbol{\mu_{b}} \end{pmatrix} \tag{2.66} $$
共分散行列$\Sigma$も同様に $$ \boldsymbol{\Sigma} = \begin{pmatrix} \boldsymbol{\Sigma_{aa}} && \boldsymbol{\Sigma_{ab}} \\\ \boldsymbol{\Sigma_{ba}} && \boldsymbol{\Sigma_{bb}} \end{pmatrix} \tag{2.67} $$
ここで $$ \Lambda \equiv \Sigma^{-1} \tag{2.68} $$ となるような共分散行列の逆行列を考えた方が便利なことが多い(らしい)。現に後の計算結果はシンプルになっているので、これはそのまま受け入れる。
これを精度行列という。精度行列にも分割され形式にすると、下記のようになる。
$$ \Lambda = \begin{pmatrix} \boldsymbol{\Lambda_{aa}} && \boldsymbol{\Lambda_{ab}} \\\ \boldsymbol{\Lambda_{ba}} && \boldsymbol{\Lambda_{bb}} \end{pmatrix} \tag{2.69} $$
ここで多変量ガウスの形に着目すると、$(定数) \times \exp(多変数の二次形式)$という形になっている。
同時分布$p(\boldsymbol{x_a},\boldsymbol{x_b})$を使って条件付き分布$p(\boldsymbol{x_a}|\boldsymbol{x_b})$を表すと $$ p(\boldsymbol{x_a}|\boldsymbol{x_b}) = \frac{p(\boldsymbol{x_a},\boldsymbol{x_b})}{p(\boldsymbol{x_b})} $$ となる。
$p(\boldsymbol{x_b})$は正規化項で定数とみなすと、同時分布$p(\boldsymbol{x_a},\boldsymbol{x_b})$の指数部が二次形式であれば、条件付き分布もガウス分布に従うことが分かる。
多変量ガウスの指数部を展開する。
$$
-\frac{1}{2} (\boldsymbol{x} - \boldsymbol{\mu})^{\mathrm{T}} \Sigma^{-1} (\boldsymbol{x} - \boldsymbol{\mu}) \\
= -\frac{1}{2} \begin{pmatrix} \boldsymbol{x_{a}} - \boldsymbol{\mu_{a}} \\\ \boldsymbol{x_{b}} - \boldsymbol{\mu_{b}} \end{pmatrix}^{\mathrm{T}} \begin{pmatrix} \boldsymbol{\Lambda_{aa}} && \boldsymbol{\Lambda_{ab}} \\\ \boldsymbol{\Lambda_{ba}} && \boldsymbol{\Lambda_{bb}} \end{pmatrix} \begin{pmatrix} \boldsymbol{x_{a}} - \boldsymbol{\mu_{a}} \\\ \boldsymbol{x_{b}} - \boldsymbol{\mu_{b}} \end{pmatrix} \\
= -\frac{1}{2} (\boldsymbol{x_{a}} - \boldsymbol{\mu_{a}})^{\mathrm{T}} \Lambda_{aa} (\boldsymbol{x_{a}} - \boldsymbol{\mu_{a}}) -\frac{1}{2} (\boldsymbol{x_{a}} - \boldsymbol{\mu_{a}})^{\mathrm{T}} \Lambda_{ab} (\boldsymbol{x_{b}} - \boldsymbol{\mu_{b}}) -\frac{1}{2} (\boldsymbol{x_{b}} - \boldsymbol{\mu_{b}})^{\mathrm{T}} \Lambda_{ba} (\boldsymbol{x_{a}} - \boldsymbol{\mu_{a}}) -\frac{1}{2} (\boldsymbol{x_{b}} - \boldsymbol{\mu_{b}})^{\mathrm{T}} \Lambda_{bb} (\boldsymbol{x_{b}} - \boldsymbol{\mu_{b}}) \tag{2.70}
$$
展開した式を$x_{a}$の関数として見ると、これも二次形式となっているので、条件付き分布$p(\boldsymbol{x_a}|\boldsymbol{x_b})$もガウス分布となる。
条件付き分布の平均$\mu_{a|b}$と共分散$\Sigma_{a|b}$
$p(\boldsymbol{x_a}|\boldsymbol{x_b})$の指数部を平方完成すると、
$$
-\frac{1}{2} (\boldsymbol{x_{a}} - \boldsymbol{\mu_{a|b}})^{\mathrm{T}} \Sigma^{-1}_{a|b} (\boldsymbol{x_{a}} - \boldsymbol{\mu_{a|b}}) \\
= -\frac{1}{2}\boldsymbol{x_{a}}^{\mathrm{T}} \Sigma^{-1}_{a|b} \boldsymbol{x_{a}} + \boldsymbol{x_{a}}^{\mathrm{T}} \Sigma^{-1}_{a|b} \boldsymbol{\mu_{a|b}} + CONST \tag{m.1}
$$
$(2.70)$と平方完成した式$(m.1)$を見比べる。見比べる方法は、$(2.70)$の4つに別れた式をそれぞれ平方完成すれば良い。
$$
-\frac{1}{2} (\boldsymbol{x_{a}} - \boldsymbol{\mu_{a}})^{\mathrm{T}} \Lambda_{aa} (\boldsymbol{x_{a}} - \boldsymbol{\mu_{a}}) \\
= -\frac{1}{2}\boldsymbol{x_{a}}^{\mathrm{T}} \Lambda_{aa} \boldsymbol{x_{a}} + \boldsymbol{x_{a}}^{\mathrm{T}} \Lambda_{aa} \boldsymbol{\mu_{a}} + CONST \tag{2.70.1}
$$
$$
-\frac{1}{2} (\boldsymbol{x_{a}} - \boldsymbol{\mu_{a}})^{\mathrm{T}} \Lambda_{ab} (\boldsymbol{x_{b}} - \boldsymbol{\mu_{b}}) \\
= -\frac{1}{2}\boldsymbol{x_{a}}^{\mathrm{T}} \Lambda_{ab} \boldsymbol{x_{b}} + \frac{1}{2}\boldsymbol{x_{a}}^{\mathrm{T}} \Lambda_{ab} \boldsymbol{\mu_{b}} + \frac{1}{2}\boldsymbol{\mu_{a}}^{\mathrm{T}} \Lambda_{ab} \boldsymbol{x_{b}} + CONST \tag{2.70.2}
$$
$$
-\frac{1}{2} (\boldsymbol{x_{b}} - \boldsymbol{\mu_{b}})^{\mathrm{T}} \Lambda_{ba} (\boldsymbol{x_{a}} - \boldsymbol{\mu_{a}}) \\
= -\frac{1}{2}\boldsymbol{x_{b}}^{\mathrm{T}} \Lambda_{ba} \boldsymbol{x_{a}} + \frac{1}{2}\boldsymbol{x_{b}}^{\mathrm{T}} \Lambda_{ba} \boldsymbol{\mu_{a}} + \frac{1}{2}\boldsymbol{\mu_{b}}^{\mathrm{T}} \Lambda_{ba} \boldsymbol{x_{a}} + CONST \tag{2.70.3}
$$
$$
-\frac{1}{2} (\boldsymbol{x_{b}} - \boldsymbol{\mu_{b}})^{\mathrm{T}} \Lambda_{bb} (\boldsymbol{x_{b}} - \boldsymbol{\mu_{b}}) \\
= -\frac{1}{2}\boldsymbol{x_{b}}^{\mathrm{T}} \Lambda_{bb} \boldsymbol{x_{b}} + \boldsymbol{x_{b}}^{\mathrm{T}} \Lambda_{bb} \boldsymbol{\mu_{b}} + CONST \tag{2.70.4}
$$
$(m.1)$の
$$
-\frac{1}{2}\boldsymbol{x_{a}}^{\mathrm{T}} \Sigma^{-1}_{a|b} \boldsymbol{x_{a}}
$$
は$\boldsymbol{x_{a}}$の2次の項なので、$(2.70.1)$、$(2.70.2)$、$(2.70.3)$、$(2.70.4)$から$\boldsymbol{x_{a}}$の2次の項を探すと
$$
-\frac{1}{2}\boldsymbol{x_{a}}^{\mathrm{T}} \Lambda_{aa} \boldsymbol{x_{a}}
$$
が該当するため、これを比較すると$p(\boldsymbol{x_a}|\boldsymbol{x_b})$の分散は
$$
\Sigma^{-1}_{a|b} = \Lambda_{aa} \\
\to \Sigma_{a|b} = \Lambda^{-1}_{aa} \tag{2.73}
$$
となる。次に$(m.1)$の
$$
\boldsymbol{x_{a}}^{\mathrm{T}} \Sigma^{-1}_{a|b} \boldsymbol{\mu_{a|b}}
$$
は$\boldsymbol{x_{a}}$の1次の項なので、$(2.70.1)$、$(2.70.2)$、$(2.70.3)$、$(2.70.4)$から$\boldsymbol{x_{a}}$の1次の項を探すして、$\Lambda^{\mathrm{T}}_{ba} = \Lambda_{ab}$を考慮すると
$$
\boldsymbol{x_{a}}^{\mathrm{T}} \Lambda_{aa} \boldsymbol{\mu_{a}} - \frac{1}{2}\boldsymbol{x_{a}}^{\mathrm{T}} \Lambda_{ab} \boldsymbol{x_{b}} + \frac{1}{2}\boldsymbol{x_{a}}^{\mathrm{T}} \Lambda_{ab} \boldsymbol{\mu_{b}} - \frac{1}{2}\boldsymbol{x_{b}}^{\mathrm{T}} \Lambda_{ba} \boldsymbol{x_{a}} + \frac{1}{2}\boldsymbol{\mu_{b}}^{\mathrm{T}} \Lambda_{ba} \boldsymbol{x_{a}} \\
= \boldsymbol{x_{a}}^{\mathrm{T}} \Lambda_{aa} \boldsymbol{\mu_{a}} - \boldsymbol{x_{a}}^{\mathrm{T}} \Lambda_{ab} \boldsymbol{x_{b}} + \boldsymbol{x_{a}}^{\mathrm{T}} \Lambda_{ab} \boldsymbol{\mu_{b}} \\
= \boldsymbol{x_{a}}^{\mathrm{T}} \{ \Lambda_{aa} \boldsymbol{\mu_{a}} - \Lambda_{ab} \boldsymbol{x_{b}} + \Lambda_{ab} \boldsymbol{\mu_{b}} \} \\
= \boldsymbol{x_{a}}^{\mathrm{T}} \{ \Lambda_{aa} \boldsymbol{\mu_{a}} - \Lambda_{ab} (\boldsymbol{x_{b}} - \boldsymbol{\mu_{b}}) \} \tag{2.74}
$$
が該当するため、これを比較すると$p(\boldsymbol{x_a}|\boldsymbol{x_b})$の平均は
$$
\Sigma^{-1}_{a|b} \boldsymbol{\mu_{a|b}} = \{ \Lambda_{aa} \boldsymbol{\mu_{a}} - \Lambda_{ab} (\boldsymbol{x_{b}} - \boldsymbol{\mu_{b}}) \} \\
\to \boldsymbol{\mu_{a|b}} = \Sigma_{a|b} \{ \Lambda_{aa} \boldsymbol{\mu_{a}} - \Lambda_{ab} (\boldsymbol{x_{b}} - \boldsymbol{\mu_{b}}) \} \\
\to \boldsymbol{\mu_{a|b}} = \boldsymbol{\mu_{a}} - \Lambda^{-1}_{ab} \Lambda_{ab} (\boldsymbol{x_{b}} - \boldsymbol{\mu_{b}}) \tag{2.75}
$$
となる。
分割された精度行列($\Lambda$)を使って表した結果を共分散行列($\Sigma$)で表す
次に分割された精度行列を使って表現されている分散、及び平均を分割された共分散行列で表したい。
シューア補行列という行列関する公式を使って変換する。
定義は下記のとおり。 $$ \begin{pmatrix} A && B \\\ C && D \end{pmatrix}^{-1} = \begin{pmatrix} M && -MBD^{-1} \\\ -D^{-1}CM && D^{-1}+D^{-1}CMBD^{-1} \end{pmatrix} \tag{2.76} $$ ただし、$M$は次のように定義される。 $$ M = (A - BD^{-1}C)^{-1} \tag{2.77} $$
$$ \begin{pmatrix} \boldsymbol{\Sigma_{aa}} && \boldsymbol{\Sigma_{ab}} \\\ \boldsymbol{\Sigma_{ba}} && \boldsymbol{\Sigma_{bb}} \end{pmatrix}^{-1} = \begin{pmatrix} \boldsymbol{\Lambda_{aa}} && \boldsymbol{\Lambda_{ab}} \\\ \boldsymbol{\Lambda_{ba}} && \boldsymbol{\Lambda_{bb}} \end{pmatrix} \tag{2.78} $$ と(2.76)を用いて $$ \Lambda_{aa} = (\Sigma_{aa} - \Sigma_{ab}\Sigma^{-1}_{bb}\Sigma_{ba})^{-1} \tag{2.79} $$ $$ \Lambda_{ab} = -(\Sigma_{aa} - \Sigma_{ab}\Sigma^{-1}_{bb}\Sigma_{ba})^{-1}\Sigma_{ab}\Sigma^{-1}_{bb} \tag{2.80} $$ を得る。これらの式から条件付き分布$p(\boldsymbol{x_a}|\boldsymbol{x_b})$の平均と共分散について、次式を得る。 $$ \mu_{a|b} = \mu_{a} + \Sigma_{ab}\Sigma^{-1}_{bb}(\boldsymbol{x_{b}} - \boldsymbol{\mu_{b}}) \tag{2.81} $$ $$ \Sigma_{a|b} = \Sigma_{aa} - \Sigma_{ab}\Sigma^{-1}_{bb}\Sigma_{ba} \tag{2.82} $$