Rohit Singh, Tommi Jaakkola, and Ali Mohammad. 6.867 Machine Learning. Fall 2006. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.
停電でデータが消えるという悲しみ
Mixture models and clustering
与えられたデータは暗黙的に複数の種類に分けられると仮定し,それを踏まえてより精度の高い推測をするというのがmixture modelの動機のひとつだった. 一方で,その暗黙の構造自体を明らかにすることも有用である. このような問題をclusteringという. つまり,データセットをいくつかのclusterに分類するのである.
mixture modelをgenerative modelとして扱うには,我々が分類しようとしているクラスターがどんなものなのか知らなければならない. 最も単純な例がspherical Gaussian clusterで,すなわち
P(x;θ,m)=m∑j=1P(j)N(x;μj,σ2jI)
というmixture modelを推測する.
他にも様々なクラスタリングアルゴリズムがあり,あるものはネストしたクラスターを小さなクラスターをマージしていくことで生成し(hierarchical agglomerative clustering),またあるものはDに最適なクラスターの数を推測してからクラスタリングを行う(k-means). などと期待問題によって適したアルゴリズムは異なる.
データセットDに対してmをどのように設定すればいいかとか,Dが十分大きければEM-algorithmでよいクラスタリングが出来るのかとか,頑強なモデルであるのかとか,様々な疑問があり,その答えの一部を以下で与える.
Mixtures and K-means
Gaussian mixture modelを,全ての分散行列を同一のspherical(単位行列の定数倍)にし,さらに全てのcomponentの頻度を同一にすることで単純化する.すなわち
P(x;θ)=1mm∑j=1N(x;μm,σ2I)
を考える. これをEM-algorithmで最適化するとどうなるのかをみる.
まず,クラスターi,jの境界がどうなっているかをみる. つまりP(i|x,θ)=P(j|x,θ)をみたすxをみる. 仮定より,この点で
N(x,μi,σ2I)=N(x;μj,σ2I)が成立する.どちらのGaussianも同じsphericalな共分散行列を持つので, これが成立するxでは
‖x−μi‖=‖x−μj‖ or 2xT(μj−μi)=‖μi‖2−‖μj‖2
が成立する.
すなわち境界は線形であり,fig.1のように,任意のクラスターの組に対してこのような境界を引ける. 組ごとの比較はVoronoi partitionを導く. Voronoi partitionのあるregionでは,例えば,全ての点がμ1に最も近い.このregionは同時にP(1|x,θ)>P(j|x,θ)が任意のj≠1で成立する.
K-means
上のような単純なモデルではEM-algorithmも単純化できて,それを特にK-meansという.
K-meansでは,E-stepで,jt=argminj‖xt−μj‖とし,M-stepでμj=average{xt|jt=j}とmeanを設定し直す.
K-meansは非常によく利用されるhard assignment(各点がどれかただ一つのクラスターに分類される)版EM-algorithmである. K-meansはEM-algoと同様初期値が結果に大きく影響するので,初期値を変更して何度も行うのが望ましい. また,ある一点をμ1に割り当て,μ1から最も遠い点をμ2,μ1,μ2から最も遠い点をμ3,…として初期のμを決める方法をgreedy packingという.
Distance and clustering
これまでの議論でEuclidean distanceを使ってきたことを正当化する. ところで,多くの場合,特徴データを特別な関数でRn空間に写像して,それからclusteringを考えたりする.
例えば文書をクラスタリングすることを考える. document xを単語の入った袋と考えて,これを以下の写像によって扱いやすいベクトルにする.
nw(x)= number of times world w appears in xf(w|x)=nw(x)∑w′nw′(x)= term frequenceyϕw(x)=f(w|x)⋅log[ number of docs numer of docw with word w]_IDF
ϕ(x)=(ϕw1,...,ϕwm)(x)をTFIDF(term frequency - inverse document frequency)写像という. IDFは,多くの文書に現れるためクラスタリングに役立たなそうなwordほど小さく(1に近く)なる. こうして文書を実数空間に写して,K-meansのようなアルゴリズムに掛けることができる.
クラスタリングを行う際には適切な距離関数を使うことが非常に重要で,適切な距離を使うためにクラスタリングアルゴリズムを選んでもよいほどである. ほとんどのアルゴリズムは任意の距離関数で使える. 適切な距離関数はモデル選択理論を使って選ぶことが出来る.
0 件のコメント:
コメントを投稿