Участник:Марина/Песочница
Материал из MachineLearning.
Строка 24: | Строка 24: | ||
Это неизвестная апостериорная вероятность того, что обучающий объект <tex>x_i</tex> получен из <tex>j</tex>-й компоненты смеси. Возьмём эти величины в качестве скрытых переменных. | Это неизвестная апостериорная вероятность того, что обучающий объект <tex>x_i</tex> получен из <tex>j</tex>-й компоненты смеси. Возьмём эти величины в качестве скрытых переменных. | ||
- | <tex> | + | <tex>\sum_{j=1}^k g_{ij} = 1</tex>, для любого <tex>i = 1, \dots, m</tex>, так как имеет смысл полной вероятности принадлежать объекту <tex>x_i</tex> одной из <tex>k</tex> компонент смеси. |
Из формулы Байеса <br /> | Из формулы Байеса <br /> | ||
- | ::<tex>g_{ij} = frac{w_jp_j(x_i)}{ | + | ::<tex>g_{ij} = \frac{w_jp_j(x_i)}{\sum_{s=1}^k w_sp_s(x_i)} </tex> для всех <tex>i, j</tex>. |
* '''М-шаг''' <br /> | * '''М-шаг''' <br /> | ||
- | + | Будем максимизировать логарифм полного правдоподобия: <br /> | |
+ | ::<tex>Q(\Theta) = \ln\prod_{i=1}^mp(x_i|w,\mu,\Sigma) = \sum_{i=1}^m\ln\sum_{j=1}^kw_jp_j(x_i) \rightarrow \max_{\Theta}</tex>. <br /> | ||
+ | Решая оптимизационную задачу Лагранжа с ограничением на сумму <tex>w_j</tex>, находим: <br /> | ||
+ | ::<tex>w_j = \frac1m sum_{i=1}^m g_{ij} , j = 1, \dots, k </tex> | ||
+ | ::<tex>\theta_j = arg max_{\theta} sum_{i=1}^m g_{ij}\ln\varphi(x_i,\theta) , j = 1, \dots, k </tex>. | ||
+ | |||
=== Смесь нормальных распределений === | === Смесь нормальных распределений === | ||
Версия 19:35, 3 января 2010
EM-алгоритм (англ. expectation-maximization) - алгоритм, используемый в математической статистике для нахождения оценок максимального правдоподобия параметров вероятностных моделей, в случае, когда модель зависит от некоторых скрытых переменных. Каждая итерация алгоритма состоит из двух шагов. На E-шаге (expectation) вычисляется ожидаемое значение функции правдоподобия, при этом скрытые переменные рассматриваются как наблюдаемые. На M-шаге (maximization) вычисляется оценка максимального правдоподобия, таким образом увеличивается ожидаемое правдоподобие, вычисляемое на E-шаге. Затем это значение используется для E-шага на следующей итерации. Алгоритм выполняется до сходимости.
Как правило, ЕМ-алгоритм применяется для решения задач двух типов. К первому типу можно отнести задачи, связанные с анализом действительно неполных данных, когда некоторые статистические данные отсутствуют в силу каких-либо причин. Ко второму типу задач можно отнести те задачи, в которых функция правдоподобия имеет вид, не допускающий удобных аналитических методов исследования, но допускающий серьезные упрощения, если в задачу ввести дополнительные “ненаблюдаемые” (скрытые, латентные) переменные. Примерами прикладных задач второго типа являются задачи распознавания образов, реконструкции изображений. Математическую суть данных задач составляют задачи кластерного анализа, классификации и разделения смесей вероятностных распределений.
Содержание |
Постановка задачи
Пусть плотность распределения на множестве имеет вид смеси распределений:
- , , ,
- , , ,
где - функция правдоподобия j-й компоненты смеси,
- ее априорная вероятность.
Функции правдоподобия принадлежат параметрическому семейству распределений и отличаются только значениями параметра .
Задача разделения смеси заключается в том, чтобы, имея выборку случайных и независимых наблюдений из смеси , зная число и функцию , оценить вектор параметров .
Основной алгоритм
Идея алгоритма заключается в следующем. Искусственно вводится вспомогательный вектор скрытых переменных , обладающий двумя замечательными свойствами. С одной стороны, он может быть вычислен, если известны значения вектора параметров . С другой стороны, поиск максимума правдоподобия сильно упрощается, если известны значения скрытых переменных.
EM-алгоритм состоит из итерационного повторения двух шагов. На E-шаге вычисляется ожидаемое значение (expectation) вектора скрытых переменных по текущему приближению вектора параметров . На М-шаге решается задача максимизации правдоподобия (maximization) и находится следующее приближение вектора по текущим значениям векторов и .
- Е-шаг
Обозначим через плотность вероятности того, что объект получен из -й компоненты смеси. По формуле условной вероятности
- .
Введём обозначение
- .
- .
Это неизвестная апостериорная вероятность того, что обучающий объект получен из -й компоненты смеси. Возьмём эти величины в качестве скрытых переменных.
, для любого , так как имеет смысл полной вероятности принадлежать объекту одной из компонент смеси.
Из формулы Байеса
- для всех .
- М-шаг
Будем максимизировать логарифм полного правдоподобия:
- .
- .
Решая оптимизационную задачу Лагранжа с ограничением на сумму , находим:
- .