Метод наибольшего правдоподобия

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 1: Строка 1:
-
'''Метод наибольшего правдоподобия''' - метод поиска модели, наилучшим в некотором смысле образом описывающей обучающую выборку, полученную с некоторым неизвестным распределением.
+
'''Метод наибольшего правдоподобия''' - метод поиска модели, наилучшим в каком-то смысле образом описывающей обучающую выборку, полученную с некоторым неизвестным распределением.
== Описание метода ==
== Описание метода ==

Версия 14:01, 30 ноября 2008

Метод наибольшего правдоподобия - метод поиска модели, наилучшим в каком-то смысле образом описывающей обучающую выборку, полученную с некоторым неизвестным распределением.

Описание метода

Пусть на вход подается некоторая величина x, а на выходе имеется величина y. Также существует условная вероятность p_0(y/x), описывающая вероятность получить на выходе величину y, если на вход была подана величина x. Если множество величин не дискретно, то условная вероятность заменяется на условную плотность распределения. Считается, что эта условная вероятность нам неизвестна. Пусть имеется некоторое множество моделей, описываемых различными условными вероятностями p(y/x,\alpha), где \alpha играет роль индекса, приписываемого конкретной модели, и может вообще говоря иметь любую природу. Пусть также существует обучающая выборка (x_i,y_i), i=1,\ldots,k, порождённая с неизвестной условной вероятностью p_0(y//x). Причем, считается, что все пары порождаются независимо. Требуется на основании обучающей выборки выделить из множества моделей (то есть выбрать \alpha^*) ту, что наилучшим образом подходит к обучающей выборке. Функцией правдоподобия называется функция вида W(\alpha) = \sum\log p(y_i/x_i,\alpha). Метод наибольшего правдоподобия состоит в том, что из множества моделей выбирается та, что максимизирует значение функции правдоподобия. Это значит, что выбирается \alpha^* = \argmax_\alpha W(\alpha).

Обоснование метода

Заметим, что в силу независимости элементов обучающей выборки вероятность получить набор выходных значений (y_1,\ldots,y_k) при поданных на вход значениях (x_1,\ldots,x_k) равняется p(y_1,\ldots,y_k/x_1,\ldots,x_k) = \prod p(y_i/x_i). Из эвристических соображений понятно, что, чем ближе модель к истинной, тем больше должна быть эта величина. Функция правдоподобия как раз является логарифмом этой величины. Можно также показать, что если среди множества моделей есть истинная, то максимум математического ожидания функции правдоподобия действительно достигается на истинной модели.