Оценка параметров смеси моделей
Материал из MachineLearning.
Строка 48: | Строка 48: | ||
</tex> | </tex> | ||
- | Для определения параметров смеси необходимо решить задачу максимизации правдоподобия | + | Для определения параметров смеси необходимо решить задачу максимизации правдоподобия <tex>Q(\vec{w}^1, \dots, \vec{w}^l, \vec{\pi}) \rightarrow max</tex>, для этого выпишем функцию Лагранжа: |
+ | |||
+ | <tex> | ||
+ | L = \sum_{i=1}^{m} \ln \left[\sum_{k=1}^l \pi_k p(y^i | \vec{x}^i, \vec{w}^k)\right] - \lambda \left(\sum_{k=1}^{l} \pi_k - 1\right). | ||
+ | </tex> | ||
+ | |||
+ | Приравняем производные по <tex>\pi_k</tex> и <tex>\vec{w}_k</tex> функции Лагранжа к нулю получим, что: | ||
+ | |||
+ | <tex> | ||
+ | \pi_k = \frac{1}{m} \sum_{i=1}^{m} g_{ik}. | ||
+ | </tex> | ||
+ | |||
+ | и оптимизационная задача для нахождения параметров модели имеет вид: | ||
+ | |||
+ | <tex> | ||
+ | \sum_{i=1}^{m} \gamma_{ik} \ln p(y^i | \vec{x}^i, \vec{w}^k) \rightarrow \max_{\vec{w}^k}. | ||
+ | </tex> | ||
+ | |||
+ | В общем случае задача оптимизации <tex>Q(\vec{w}^1, \dots, \vec{w}^l, \vec{\pi}) \rightarrow max</tex> трудна, для её решения используют EM-алгоритм, заключающийся в итеративном повторении двух шагов. На <tex>E</tex>-шаге вычисляются ожидаемые значения вектора скрытых переменных <tex>\gamma_{ik}</tex> по текущему приближения параметров моделей <tex>(\vec{w}_1, \dots, \vec{w}_l)</tex>. На <tex>M</tex>-шаге решается задача максимизации правдоподобия <tex>Q</tex> при начальном приближении параметров моделей и значений <tex>\gamma_{ik}</tex>. | ||
+ | |||
+ | <tex>E</tex>-шагу соответствует выражение | ||
+ | |||
+ | <tex> | ||
+ | \gamma_{ik} = \frac{\pi_k p(y^i | \vec{x}^i, \vec{w}_k)}{\sum_{s=1}^{l} \pi_s p(y^i | \vec{x}^i, \vec{w}_s)}. | ||
+ | </tex> | ||
+ | |||
+ | <tex>M</tex>-шаг заключается в оптимизации параметров распределений. | ||
+ | |||
+ | <tex> | ||
+ | Q(\vec{w}^1, \dots, \vec{w}^l | \vec{\pi}) \rightarrow max | ||
+ | </tex> | ||
+ | |||
+ | Формула на <tex>M</tex>-шаге может упроститься для случая конкретного распределения. Для упрощения дальнейших рассуждений введем обозначения | ||
+ | |||
+ | <tex> | ||
+ | G = (\vec{\gamma}_1, \dots, \vec{\gamma}_l) = | ||
+ | \begin{pmatrix} | ||
+ | \gamma_{11} & \dots & \gamma_{1l} \\ | ||
+ | \vdots & \ddots & \vdots \\ | ||
+ | \gamma_{m1} & \dots & \gamma_{ml} \\ | ||
+ | \end{pmatrix} | ||
+ | </tex> | ||
+ | <tex> | ||
+ | G_k = \textrm{diag}(\vec{\gamma}_k). | ||
+ | </tex> | ||
==Оценка параметров линейных моделей== | ==Оценка параметров линейных моделей== |
Версия 20:13, 6 декабря 2011
|
Введение
В случае, когда одной модели для описания данных не хватает, используют смеси моделей. Предполагается, что исходная зависимость выражается формулой:
где --- вероятность принадлежности модели .
Далее предполагается, что объекты в выборке независимы и плотность совместного распределения преобразуется в произведение плотностей распределения каждого объекта.
Введем функцию правдоподобия как логарифм плотности вероятности данных.
Обозначим через вероятность того, что объект был порожден компонентой , --- вероятность того, что -объект порожден -компонентой. Каждый объект был порожден какой-либо моделью, по формуле полной вероятности
Для произвольного объекта вероятность его получения моделью по формуле условной вероятности равна:
Подставим это равенство в формулу Байеса для
Для определения параметров смеси необходимо решить задачу максимизации правдоподобия , для этого выпишем функцию Лагранжа:
Приравняем производные по и функции Лагранжа к нулю получим, что:
и оптимизационная задача для нахождения параметров модели имеет вид:
В общем случае задача оптимизации трудна, для её решения используют EM-алгоритм, заключающийся в итеративном повторении двух шагов. На -шаге вычисляются ожидаемые значения вектора скрытых переменных по текущему приближения параметров моделей . На -шаге решается задача максимизации правдоподобия при начальном приближении параметров моделей и значений .
-шагу соответствует выражение
-шаг заключается в оптимизации параметров распределений.
Формула на -шаге может упроститься для случая конкретного распределения. Для упрощения дальнейших рассуждений введем обозначения
Оценка параметров линейных моделей
Оценка параметров обобщенно-линейных моделей
Оценка параметров смеси экспертов
Литература
- Bishop, C. Pattern Recognition And Machine Learning. Springer. 2006., p 654 - 676
- Nelder, John; Wedderburn, Robert (1972). "Generalized Linear Models". Journal of the Royal Statistical Society. Series A (General) (Blackwell Publishing)
- Воронцов~К.~В. "Курс лекций по машинному обучению". стр. 32 - 37
Данная статья является непроверенным учебным заданием.
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |