Обсуждение:Критерий Акаике
Материал из MachineLearning.
Vokov (Обсуждение | вклад)
(Новая: Марина, мое почтение. Вы не разобрались до конца с описанием Критерия Акаике, поэтому ряд пунктов изл...)
К следующему изменению →
Текущая версия
Марина, мое почтение.
Вы не разобрались до конца с описанием Критерия Акаике, поэтому ряд пунктов изложен некорректно.
1. Дивергенция Кульбака-Лейблера ни в коем случае не является расстоянием между распределением, хотя бы потому, что она несимметрична.
2. Величина L(\theta|x) не является функцией правдоподобия. Исходя из обозначений это апостериорная плотность на тета. Чтобы сохранить корректность обозначений, необходимо писать L(x|\theta) - в этом случае мы имеем распределение на иксы, а относительно тета это действительно функция правдоподобия.
3. Наконец, сама идея введения критерия описана невнятно и не совсем правильно. Я Вам настоятельно рекомендую в этом вопросе разобраться самостоятельно. Дам Вам подсказку: задача Акаике состояла в том, чтобы посмотреть как ухудшится качество работы алгоритма на тестовой выборке, если мы его с помощью метода максимального правдоподобия обучили по обучающей выборбке. Соответственно, у нас есть тестовая выборка Z и мы на ней считаем величину L(Z|\theta_ML (X)), т.е. пытаемся считать плотность (качество описания) тестовой выборки, используя вероятностную модель с параметрами, настроенными по обучающей выборке (поэтому я специально поставил индекс Х у теты). Ясно, что для разных обучающих и тестовых выборок эта велчина будет меняться, но вот если взять мат. ожидание по всем возможным выборбкам Z и Х, то мы получим как раз критерий Акаике. Проблема, естественно, заключается в том, что ан момент обучения (а именно тогда нам важно знать насколько у нас адекватная модель), нам тестовая выборка неизвестна (иначе мы бы просто на ней запустили обученный алгоритм и посмотрели бы качество). Поэтому задача оценить качество на тестовой выборке через качество на обучающей выборке, т.е. через L(X|\theta_ML (X)). Ясно, что на обучении качество будет выше (мы же паарметры по этой же выборке настраиваем), вопрос насколько выше. Вот тут как раз Акаике используя теорию информации (и дивергенцию КЛ, в частности), смог для ряда частный случаев оценку получить.
Если будут вопросы, буду рад Вам помочь. С уважением, Дмитрий Ветров.