Оценка параметров смеси моделей
Материал из MachineLearning.
(→Литература) |
|||
Строка 1: | Строка 1: | ||
+ | {{TOCright}} | ||
+ | ==Введение== | ||
+ | В случае, когда одной модели для описания данных не хватает, используют смеси моделей. Предполагается, что исходная зависимость выражается формулой: | ||
+ | |||
+ | <tex> | ||
+ | p(\vec{y} | \vec{x}) = | ||
+ | \sum_{k=1}^l p(\vec{w}_k | \vec{x}) p(y | \vec{x}, \vec{w}_k) = | ||
+ | \sum_{k=1}^l \pi_k p(y | \vec{x}, \vec{w}_k), | ||
+ | </tex> | ||
+ | |||
+ | где <tex>\pi_k = p(\vec{w}_k | \vec{x})</tex> --- вероятность принадлежности модели <tex>k</tex>. | ||
+ | |||
+ | <tex> | ||
+ | \sum_{k=1}^l \pi_k = 1. | ||
+ | </tex> | ||
+ | |||
+ | Далее предполагается, что объекты в выборке независимы и плотность совместного распределения преобразуется в произведение плотностей распределения каждого объекта. | ||
+ | |||
+ | <tex> | ||
+ | p(\vec{y} | \vec{x}) = | ||
+ | \sum_{k=1}^l \pi_k \prod_{i=1}^{n} p(y^i | \vec{x}^i, \vec{w}_k) = | ||
+ | \prod_{i=1}^{n} \sum_{k=1}^l \pi_k p(y^i | \vec{x}^i, \vec{w}_k). | ||
+ | </tex> | ||
+ | |||
+ | Введем функцию правдоподобия <tex>Q(\vec{w_1}, \dots, \vec{w_l}, \vec{\pi})</tex> как логарифм плотности вероятности данных. | ||
+ | |||
+ | <tex> | ||
+ | Q(\vec{w}^1, \dots, \vec{w}^l, \vec{\pi}) = \ln p(\vec{y} | \vec{x}) = | ||
+ | \sum_{i=1}^{m} \ln \left[\sum_{k=1}^l \pi_k p(y^i | \vec{x}^i, \vec{w}_k)\right]. | ||
+ | </tex> | ||
+ | |||
+ | Обозначим через <tex>p(y, \vec{w}_k | \vec{x})</tex> вероятность того, что объект <tex>(\vec{x}, y)</tex> был порожден компонентой <tex>\vec{w}_k</tex>, <tex>\gamma_{ik} = p(\vec{w}_k | y^i, \vec{x}^i)</tex> --- вероятность того, что <tex>i</tex>-объект порожден <tex>j</tex>-компонентой. Каждый объект был порожден какой-либо моделью, по формуле полной вероятности | ||
+ | |||
+ | <tex> | ||
+ | \sum_{k=1}^{l} \gamma_{ik} = 1, \quad \forall i. | ||
+ | </tex> | ||
+ | |||
+ | Для произвольного объекта <tex>(\vec{x}, y)</tex> вероятность его получения моделью <tex>w_k</tex> по формуле условной вероятности равна: | ||
+ | |||
+ | <tex> | ||
+ | p(y, \vec{w}_k | \vec{x}) = p(\vec{w}_k | \vec{x}) p(y | \vec{x}, \vec{w}_k) \equiv \pi_{k} p(y | \vec{x}, \vec{w}_k). | ||
+ | </tex> | ||
+ | |||
+ | Подставим это равенство в формулу Байеса для <tex>\gamma_{ik}</tex> | ||
+ | |||
+ | <tex> | ||
+ | \gamma_{ik} = \frac{\pi_k p(y^i | \vec{x}^i, \vec{w}_k)}{\sum_{s=1}^{l} \pi_s p(y^i | \vec{x}^i, \vec{w}_s)}. | ||
+ | </tex> | ||
+ | |||
+ | Для определения параметров смеси необходимо решить задачу максимизации правдоподобия $Q(\vec{w}^1, \dots, \vec{w}^l, \vec{\pi}) \rightarrow max$, для этого выпишем функцию Лагранжа: | ||
+ | |||
==Оценка параметров линейных моделей== | ==Оценка параметров линейных моделей== | ||
Строка 8: | Строка 59: | ||
* [http://ya.ru Bishop, C. Pattern Recognition And Machine Learning. Springer. 2006.], p 654 - 676 | * [http://ya.ru Bishop, C. Pattern Recognition And Machine Learning. Springer. 2006.], p 654 - 676 | ||
* [http://ya.ru Nelder, John; Wedderburn, Robert (1972). "Generalized Linear Models". Journal of the Royal Statistical Society. Series A (General) (Blackwell Publishing)] | * [http://ya.ru Nelder, John; Wedderburn, Robert (1972). "Generalized Linear Models". Journal of the Royal Statistical Society. Series A (General) (Blackwell Publishing)] | ||
+ | * [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов~К.~В. "Курс лекций по машинному обучению".] стр. 32 - 37 | ||
{{Задание|Кирилл Павлов|В.В. Стрижов|26 сентября 2011|pavlov99|Strijov}} | {{Задание|Кирилл Павлов|В.В. Стрижов|26 сентября 2011|pavlov99|Strijov}} | ||
[[Категория:Практика и вычислительные эксперименты]] | [[Категория:Практика и вычислительные эксперименты]] |
Версия 19:58, 6 декабря 2011
|
Введение
В случае, когда одной модели для описания данных не хватает, используют смеси моделей. Предполагается, что исходная зависимость выражается формулой:
где --- вероятность принадлежности модели .
Далее предполагается, что объекты в выборке независимы и плотность совместного распределения преобразуется в произведение плотностей распределения каждого объекта.
Введем функцию правдоподобия как логарифм плотности вероятности данных.
Обозначим через вероятность того, что объект был порожден компонентой , --- вероятность того, что -объект порожден -компонентой. Каждый объект был порожден какой-либо моделью, по формуле полной вероятности
Для произвольного объекта вероятность его получения моделью по формуле условной вероятности равна:
Подставим это равенство в формулу Байеса для
Для определения параметров смеси необходимо решить задачу максимизации правдоподобия $Q(\vec{w}^1, \dots, \vec{w}^l, \vec{\pi}) \rightarrow max$, для этого выпишем функцию Лагранжа:
Оценка параметров линейных моделей
Оценка параметров обобщенно-линейных моделей
Оценка параметров смеси экспертов
Литература
- Bishop, C. Pattern Recognition And Machine Learning. Springer. 2006., p 654 - 676
- Nelder, John; Wedderburn, Robert (1972). "Generalized Linear Models". Journal of the Royal Statistical Society. Series A (General) (Blackwell Publishing)
- Воронцов~К.~В. "Курс лекций по машинному обучению". стр. 32 - 37
Данная статья является непроверенным учебным заданием.
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |