Rohit Singh, Tommi Jaakkola, and Ali Mohammad. 6.867 Machine Learning. Fall 2006. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.
モデル選択理論難しすぎ
Mixture models
mixture model(混合モデル)は与えられたデータの曖昧さを捉えるモデルで,データの背後に有る,観測できない要因についての仮定を行う. 観測された一つのexampleをというベクトルで表すとする. exampleは個の要因(とする)のどれかによって生成されているをcomponentの数という. その要因であるとすると,の事後確率はである. またの頻度をとすると,. 実際のが何であるかは一般にはわからず,全てのについて混合して,の確率
となる.
Example: Student exam model: 1-year
例えば,学生たちの試験の結果をモデル化することを考える. 学生たちは,例えば学士での専攻のような,では与えられていない要因によってことなった正答/誤答の傾向が存在すると仮定する. そのような要因が合計で個(このを選ぶのはmodel selectionの問題である)あって,さらに個々の学生がどれに該当するかわからないときのモデリングを考える.
それぞれの学生の点数が独立とするなら
である.
Example: student exam model: K-years
上の例で,過去年間のデータがあるとする. 年での学生数で,は学生の年目の試験結果とする(はただのインデックスで,が同じだからといって同じ学生であるというわけではない). とは変わらないと仮定する. しかし学生の数は各年でことなって,の頻度も一定でなく,と条件付きにする. この場合のmixture modelは
そして全てのデータを考えたときの尤度は
となる.ここでのはをも決定する.
Collaborative filtering
mixture modelは推薦システムにもよく使われる. 人のユーザに本の映画を推薦する問題を考える. ユーザはのうち極わずかだけに点数をつけているとして,つけていない映画たちをどう評価するかを推測するのが我々の課題である. このような問題をcollaborative filtering(協調フィルタリング)という.
点数はをつけられるとする. ただしはユーザの映画に対する評価とする. ユーザたちが実際に与えた評価をとする. が与えられているときと書く.
collaborative filteringでは,ユーザと映画の両方にいくつかの種類があって,それが評価に影響すると仮定する.すなわち,それぞれの映画が”movie types” の分布の上にあって,ユーザも”user types” の分布の上にあるとする. 有る映画が,すべてのユーザにとって同じタイプであるとは考えず,それぞれの映画が,その映画に対応した特徴のバッグをもっており,それぞれのユーザごとにそのバッグからタイプを取り出すと考える. この仮定はユーザにも適用される. すなわち点数を付けるたびに,そのユーザのタイプのバッグからタイプが取り出される.
を以下によって推測する.
から映画のタイプをサンプルし,またからユーザのタイプをサンプルする. さらにからをサンプルするのである. これを全てのに足し合わせて
となる. はタイプから評価への写像とを決定する.
を与えられたときの尤度は
である.
さらに,ユーザの評価のスタイルもモデルに組み込める. 例えばのような高評価に偏った評価をする人や,とのみのような極端な評価をする人を考えることが出来る.このような評価スタイルの集合をとする.ユーザのスタイルは全ての映画に一貫しているが,個々のユーザにどうスタイルを割り当てるかは未知とする. ユーザがスタイルをもつ確率はと書ける. スタイルもすべてをを重みにして総和を考えて尤度を求めるとすると,尤度は,
となる.(1): user がスタイルによって評価する尤度
このモデルは
個のパラメータを持つ.
さらに充実したモデルでは,”missing elements”のモデル,すなわちある映画の評価がなぜなされないかもモデル化するはずである.
Estimating mixtures: the EM-algorithm (期待値最大化法)
midture modelの例をいくつか見てきた. データによく合うようにパラメータを設定する方法を論じる. の要因が不明なので,で総和を取ってきたのだが,まずは要因がわかっているモデルを考える.
Complete data
それぞれのに対応するが既知であると仮定して議論する. を使うと便利である. log-likelihoddは
尤度を最大とするパラメータをハットで表すと,
となる.このようにが既知である場合には,最尤推定は簡単に行えるとわかる.
Imcomplete data
がわかっていない場合を考える. を初期のパラメータとする. このパラメータで,あるがによって生成される確率は
という二値の割当の代わりに,という”soft”な割当を使うのである. この割当はによっており,を更新していくたびに変化していく.
これらの結果から,Expectation Maximization algorithm (EM)が導かれる. EMは全てのmixture modelと更に広範なモデルに適用できる. Gaussian mixtureでのEM-algorithmは以下の通り.
Algorithm (EM)
(step1)
を定める. 例えばとし,をランダムに選んだの点に,をの分散行列としたりなどする.
(E-step)
をによって評価する.
(M-step)
パラメータを,
によって更新する.
この更新則によってlog-likelihoodは増加し,またパラメータは収束することが証明されているが, その極限ではが成立することしか保証されていない.
Example
2つのGaussianのmixture modelを考える. fig.2 はEM-algorithmのイテレーションの様子である.
0 件のコメント:
コメントを投稿