Участник:Pavlov99

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

EM-алгоритм с последовательным добавлением компонент — общий метод нахождения функции плотности распределения объектов. Предполагается, что она имеет вид смеси k распределений. В данной статье рассматривается гауссовское распредение выборки, количество гауссианов произвольно.

Постановка задачи

Задана выборка \{(\mathbf{x}_i,y_i)\}_{i=1}^l, в которой X^l = \{\mathbf{x}_i\}_{i=1}^l - множество объектов, Y^l = \{\mathbf{y}_i\}_{i=1}^l - множество ответов. Предполагается, что объекты имеют плотность распределения p(x), представимую в виде смеси k гауссиан с параметрами \mu и \Sigma.

p(x) = \sum_{i=1}^k w_jp_j(x) = \sum_{i=1}^k w_jN(x;\mu_j,\Sigma_j)

Задача разделения смеси заключается в том, чтобы, имея выборку X^m случайных и независимых наблюдений из смеси p(x) оценить вектор параметров \theta = (w_1,...,w_k,\mu_1,...,\mu_k,\Sigma_1,...,\Sigma_k) доставляющий максимум функции правдоподобия

Q(\Theta) = \ln\prod_{i=1}^mp(x_i|w,\mu,\Sigma) = \sum_{i=1}^m\ln\sum_{j=1}^kw_jp_j(x_i) \rightarrow max

Алгоритм отыскания оптимальных параметров

Оптимальные параметры отыскиваются последовательно с помощью EM-алгоритма. Идея заключается во введении вспомогательного вектора скрытых переменных

Личные инструменты