Оценка параметров смеси моделей

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Литература)
Строка 1: Строка 1:
 +
{{TOCright}}
 +
==Введение==
 +
В случае, когда одной модели для описания данных не хватает, используют смеси моделей. Предполагается, что исходная зависимость выражается формулой:
 +
 +
<tex>
 +
p(\vec{y} | \vec{x}) =
 +
\sum_{k=1}^l p(\vec{w}_k | \vec{x}) p(y | \vec{x}, \vec{w}_k) =
 +
\sum_{k=1}^l \pi_k p(y | \vec{x}, \vec{w}_k),
 +
</tex>
 +
 +
где <tex>\pi_k = p(\vec{w}_k | \vec{x})</tex> --- вероятность принадлежности модели <tex>k</tex>.
 +
 +
<tex>
 +
\sum_{k=1}^l \pi_k = 1.
 +
</tex>
 +
 +
Далее предполагается, что объекты в выборке независимы и плотность совместного распределения преобразуется в произведение плотностей распределения каждого объекта.
 +
 +
<tex>
 +
p(\vec{y} | \vec{x}) =
 +
\sum_{k=1}^l \pi_k \prod_{i=1}^{n} p(y^i | \vec{x}^i, \vec{w}_k) =
 +
\prod_{i=1}^{n} \sum_{k=1}^l \pi_k p(y^i | \vec{x}^i, \vec{w}_k).
 +
</tex>
 +
 +
Введем функцию правдоподобия <tex>Q(\vec{w_1}, \dots, \vec{w_l}, \vec{\pi})</tex> как логарифм плотности вероятности данных.
 +
 +
<tex>
 +
Q(\vec{w}^1, \dots, \vec{w}^l, \vec{\pi}) = \ln p(\vec{y} | \vec{x}) =
 +
\sum_{i=1}^{m} \ln \left[\sum_{k=1}^l \pi_k p(y^i | \vec{x}^i, \vec{w}_k)\right].
 +
</tex>
 +
 +
Обозначим через <tex>p(y, \vec{w}_k | \vec{x})</tex> вероятность того, что объект <tex>(\vec{x}, y)</tex> был порожден компонентой <tex>\vec{w}_k</tex>, <tex>\gamma_{ik} = p(\vec{w}_k | y^i, \vec{x}^i)</tex> --- вероятность того, что <tex>i</tex>-объект порожден <tex>j</tex>-компонентой. Каждый объект был порожден какой-либо моделью, по формуле полной вероятности
 +
 +
<tex>
 +
\sum_{k=1}^{l} \gamma_{ik} = 1, \quad \forall i.
 +
</tex>
 +
 +
Для произвольного объекта <tex>(\vec{x}, y)</tex> вероятность его получения моделью <tex>w_k</tex> по формуле условной вероятности равна:
 +
 +
<tex>
 +
p(y, \vec{w}_k | \vec{x}) = p(\vec{w}_k | \vec{x}) p(y | \vec{x}, \vec{w}_k) \equiv \pi_{k} p(y | \vec{x}, \vec{w}_k).
 +
</tex>
 +
 +
Подставим это равенство в формулу Байеса для <tex>\gamma_{ik}</tex>
 +
 +
<tex>
 +
\gamma_{ik} = \frac{\pi_k p(y^i | \vec{x}^i, \vec{w}_k)}{\sum_{s=1}^{l} \pi_s p(y^i | \vec{x}^i, \vec{w}_s)}.
 +
</tex>
 +
 +
Для определения параметров смеси необходимо решить задачу максимизации правдоподобия $Q(\vec{w}^1, \dots, \vec{w}^l, \vec{\pi}) \rightarrow max$, для этого выпишем функцию Лагранжа:
 +
==Оценка параметров линейных моделей==
==Оценка параметров линейных моделей==
Строка 8: Строка 59:
* [http://ya.ru Bishop, C. Pattern Recognition And Machine Learning. Springer. 2006.], p 654 - 676
* [http://ya.ru Bishop, C. Pattern Recognition And Machine Learning. Springer. 2006.], p 654 - 676
* [http://ya.ru Nelder, John; Wedderburn, Robert (1972). "Generalized Linear Models". Journal of the Royal Statistical Society. Series A (General) (Blackwell Publishing)]
* [http://ya.ru Nelder, John; Wedderburn, Robert (1972). "Generalized Linear Models". Journal of the Royal Statistical Society. Series A (General) (Blackwell Publishing)]
 +
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов~К.~В. "Курс лекций по машинному обучению".] стр. 32 - 37
{{Задание|Кирилл Павлов|В.В. Стрижов|26 сентября 2011|pavlov99|Strijov}}
{{Задание|Кирилл Павлов|В.В. Стрижов|26 сентября 2011|pavlov99|Strijov}}
[[Категория:Практика и вычислительные эксперименты]]
[[Категория:Практика и вычислительные эксперименты]]

Версия 19:58, 6 декабря 2011

Содержание

Введение

В случае, когда одной модели для описания данных не хватает, используют смеси моделей. Предполагается, что исходная зависимость выражается формулой:


	p(\vec{y} | \vec{x}) = 
	\sum_{k=1}^l p(\vec{w}_k | \vec{x}) p(y | \vec{x}, \vec{w}_k) = 
	\sum_{k=1}^l \pi_k p(y | \vec{x}, \vec{w}_k),

где \pi_k = p(\vec{w}_k | \vec{x}) --- вероятность принадлежности модели k.


	\sum_{k=1}^l \pi_k = 1.

Далее предполагается, что объекты в выборке независимы и плотность совместного распределения преобразуется в произведение плотностей распределения каждого объекта.


	p(\vec{y} | \vec{x}) = 
	\sum_{k=1}^l \pi_k \prod_{i=1}^{n} p(y^i | \vec{x}^i, \vec{w}_k) =
	\prod_{i=1}^{n} \sum_{k=1}^l \pi_k p(y^i | \vec{x}^i, \vec{w}_k).

Введем функцию правдоподобия Q(\vec{w_1}, \dots, \vec{w_l}, \vec{\pi}) как логарифм плотности вероятности данных.


	Q(\vec{w}^1, \dots, \vec{w}^l, \vec{\pi}) = \ln p(\vec{y} | \vec{x}) = 
	\sum_{i=1}^{m} \ln \left[\sum_{k=1}^l \pi_k p(y^i | \vec{x}^i, \vec{w}_k)\right].

Обозначим через p(y, \vec{w}_k | \vec{x}) вероятность того, что объект (\vec{x}, y) был порожден компонентой \vec{w}_k, \gamma_{ik} = p(\vec{w}_k | y^i, \vec{x}^i) --- вероятность того, что i-объект порожден j-компонентой. Каждый объект был порожден какой-либо моделью, по формуле полной вероятности


	\sum_{k=1}^{l} \gamma_{ik} = 1, \quad \forall i.

Для произвольного объекта (\vec{x}, y) вероятность его получения моделью w_k по формуле условной вероятности равна:


	p(y, \vec{w}_k | \vec{x}) = p(\vec{w}_k | \vec{x}) p(y | \vec{x}, \vec{w}_k) \equiv \pi_{k} p(y | \vec{x}, \vec{w}_k).

Подставим это равенство в формулу Байеса для \gamma_{ik}


	\gamma_{ik} = \frac{\pi_k p(y^i | \vec{x}^i, \vec{w}_k)}{\sum_{s=1}^{l} \pi_s p(y^i | \vec{x}^i, \vec{w}_s)}.

Для определения параметров смеси необходимо решить задачу максимизации правдоподобия $Q(\vec{w}^1, \dots, \vec{w}^l, \vec{\pi}) \rightarrow max$, для этого выпишем функцию Лагранжа:

Оценка параметров линейных моделей

Оценка параметров обобщенно-линейных моделей

Оценка параметров смеси экспертов

Литература


Данная статья является непроверенным учебным заданием.
Студент: Кирилл Павлов
Преподаватель: В.В. Стрижов
Срок: 26 сентября 2011

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.