Участник:Марина/Песочница
Материал из MachineLearning.
EM-алгоритм (англ. expectation-maximization) - алгоритм, используемый в математической статистике для нахождения оценок максимального правдоподобия параметров вероятностных моделей, в случае, когда модель зависит от некоторых скрытых переменных. Каждая итерация алгоритма состоит из двух шагов. На E-шаге (expectation) вычисляется ожидаемое значение функции правдоподобия, при этом скрытые переменные рассматриваются как наблюдаемые. На M-шаге (maximization) вычисляется оценка максимального правдоподобия, таким образом увеличивается ожидаемое правдоподобие, вычисляемое на E-шаге. Затем это значение используется для E-шага на следующей итерации. Алгоритм выполняется до сходимости.
Как правило, ЕМ-алгоритм применяется для решения задач двух типов. К первому типу можно отнести задачи, связанные с анализом действительно неполных данных, когда некоторые статистические данные отсутствуют в силу каких-либо причин. Ко второму типу задач можно отнести те задачи, в которых функция правдоподобия имеет вид, не допускающий удобных аналитических методов исследования, но допускающий серьезные упрощения, если в задачу ввести дополнительные “ненаблюдаемые” (скрытые, латентные) переменные. Примерами прикладных задач второго типа являются задачи распознавания образов, реконструкции изображений. Математическую суть данных задач составляют задачи кластерного анализа, классификации и разделения смесей вероятностных распределений.
Содержание |
Постановка задачи
Пусть плотность распределения на множестве имеет вид смеси распределений:
- , , ,
- , , ,
где - функция правдоподобия j-й компоненты смеси,
- ее априорная вероятность.
Функции правдоподобия принадлежат параметрическому семейству распределений и отличаются только значениями параметра .
Задача разделения смеси заключается в том, чтобы, имея выборку случайных и независимых наблюдений из смеси , зная число и функцию , оценить вектор параметров .
Основной алгоритм
Идея алгоритма заключается в следующем. Искусственно вводится вспомогательный вектор скрытых переменных , обладающий двумя замечательными свойствами. С одной стороны, он может быть вычислен, если известны значения вектора параметров . С другой стороны, поиск максимума правдоподобия сильно упрощается, если известны значения скрытых переменных.
EM-алгоритм состоит из итерационного повторения двух шагов. На E-шаге вычисляется ожидаемое значение (expectation) вектора скрытых переменных по текущему приближению вектора параметров . На М-шаге решается задача максимизации правдоподобия (maximization) и находится следующее приближение вектора по текущим значениям векторов и .
- Е-шаг
Обозначим через плотность вероятности того, что объект получен из -й компоненты смеси. По формуле условной вероятности
- .
Введём обозначение
- .
- .
Это неизвестная апостериорная вероятность того, что обучающий объект получен из -й компоненты смеси. Возьмём эти величины в качестве скрытых переменных.
, для любого , так как имеет смысл полной вероятности принадлежать объекту одной из компонент смеси.
Из формулы Байеса
- для всех .
- М-шаг
Будем максимизировать логарифм полного правдоподобия:
- .
- .
Решая оптимизационную задачу Лагранжа с ограничением на сумму , находим:
- .
Смесь нормальных распределений
Далее часто будет встречаться смесь нормальных распределений, поэтому выпишем для нее результаты Е- и М-шага алгоритма:
- E-шаг
- М-шаг
- ,
- ,
- .
Недостатки ЕМ-алгоритма
- ЕМ-алгоритм неуйстойчив по начальным данным (то есть тем, которые инициализируют вектор параметров на первой итерации), так как он находит локальный экстремум, значение которого может оказаться гораздо ниже, чем глобальный максимум. В зависимости от выбора начального приближения алгоритм может сходиться к разным точкам. Также может сильно варьироваться скорость сходимости.
- ЕМ-алгоритм не позволяет определять количество компонент смеси. Эта величина является структурным параметром алгоритма!
В связи с этим рассмотрим некоторые модификации ЕМ-алгоритма, так или иначе противоборствующие данным недостаткам. ??????
Медианные модификации ЕМ-алгоритма
Для противодействия неустойчивости алгоритма по начальным данным можно использовать медианные модификации. Их смысл заключается в том, что наиболее „неустойчивые“ этапы выполнения ЕМ-алгоритма заменяются более устойчивыми. В частности, на М-шаге моментные оценки максимального правдоподобия заменяются более устойчивыми (робастными) оценками медианного типа.
Далее будут приведены конечные результаты для смеси нормальных распределений. Математическое обоснование данного метода можно посмотреть в [2].
Первая медианная модификация
Введем следующие величины:
,
имеющие смысл некой вероятности.Введем также „фиктивные“ случайные величины , принимающие значения с вероятностями . Переупорядочим значения случайной величины по неубыванию, одновременно переставляя соответствующие данным значениям вероятности. Пусть - вероятность, соответствующая значению . Положим:
- .
- .
Тогда .
Пусть . Тогда .
Вторая медианная модификация
Матожидание оценивается так же, как и в первой медианной модификации. Рассмотрим дисперсию . Обозначим .
Тогда .
Стохастический EM-алгоритм (Stochastic, SEM)
CEM-алгоритм
MCEM-алгоритм
GEM-алгоритм
Модификации с добавлением/удалением компонент
EM-алгоритм с добавлением компонент
Позволяет решить две проблемы сразу: проблему выбора числа компонент и проблему выбора начального приближения. Идея заключается в следующем. Имея некоторый набор компонент, можно выделить объекты , которые хуже всего описываются смесью - это
объекты с наименьшими значениями правдоподобия . По этим объектам строится ещё одна компонента. Затем она добавляется в смесь и запускаются EM-итерации, чтобы новая компонента и старые „притёрлись друг к другу“. Так продолжается до тех пор, пока все объекты не окажутся покрыты компонентами.
Более подробное описание алгоритма можно посмотреть в статье EM-алгоритм с последовательным добавлением компонент.
SEM-алгоритм с удалением клмпонент
Смотрите также
- EM-алгоритм с последовательным добавлением компонент
- EM алгоритм (пример)
- ЕМ-алгоритм (русскоязычная википедия)
- ЕМ-алгоритм (англоязычная википедия)
Литература
- К.В.Воронцов „Лекции по статистическим (байесовским) алгоритмам классификации“
- В.Ю.Королев „ЕМ-алгоритм, его модификации и их применение к задаче разделения смесей вероятностных рспределений“.
Данная статья является непроверенным учебным заданием.
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |