Критерий Акаике

Материал из MachineLearning.

Версия от 15:19, 15 февраля 2010; Mordasova (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Перейти к: навигация, поиск

Данная статья является непроверенным учебным заданием.

Студент: Участник:Mordasova

Преподаватель: Участник:Константин Воронцов

Срок: 15 февраля 2010

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.

Критерий Акаике (Akaike's information criterion, AIC) - критерий выбора из класса параметризованных регрессионных моделей. Акаике (Akaike) предложил критерий выбора, оценивающий модели с разным числом параметров. Критерий связан с понятием расстояния Кульбака — Лейблера (Kullback–Leibler), при помощи которого можно оценить расстояние между моделями. При применении критерия в соответствии с принципом Оккама лучшей считается модель, в достаточной мере полно описывающая данные с наименьшим количеством параметров. Тесно связан с байесовским информационным критерием, но в отличие от него содержит функцию штрафа, линейно зависящую от числа параметров.

Описание критерия

Расстояние Кульбака-Лейблера между двумя непрерывными функциями есть интеграл $I(f,g)=\int{f(x)\ln{\frac{f(x)}{g(x|\theta)}}d(x)}$ . Акаике показал, что для оценки расстояния между моделями можно оценить величину $E_{\hat{\theta}}\[I(f,\hat{g})\]$ , где $\hat{\theta}$ - оценка вектора параметров, в который входят параметры модели и случайные величины; $\hat{g}=g(\cdot|\hat{\theta})$ . При этом максимум логарифмической функции правдоподобия и оценка матожидания связаны следующим выражением: $\log(\mathcal{L}(\hat{\theta}|y))-K=Const-\hat{E}_{\hat{\theta}}\[I(f,\hat{g})\]$ , где $K$ - число параметров модели, а $\mathcal{L}$ -максимум логарифмической функции правдоподобия. Таким образом вместо вычисления расстояния между моделями можно ввести оценивающий критерий.

$AIC = 2K-2\log(\mathcal{L}(\hat{\theta}|y))$

В случае задачи линейной регрессии можно записать критерий Акаике через SSE (Sum of Squared Errors) - сумму квадратов остатков.

$AIC = 2K+n\[\ln(\hat{\sigma}^2)\]$

$SSE=\|f(x_i)-y_i\|_2=\sum_{i=1}^N(y_i-f(w,x_i))^2$ ;

$\hat{\sigma}^2=\frac{SSE}{N-2}$ — дисперсия остатков;
Лучшая модель соответствует минимальному значению критерия Акаике. Абсолютное значение критерия не несет в себе полезной информации.

Особенности применения критерия

Штрафование числа параметров ограничивает значительный рост сложности модели.
Проверка критерия является трудоемкой операцией.
Может сравнивать модели только с выборками равного размера.
Порядок выбора моделей неважен.

Модификации критерия

AIC_c был предложен для использования в задач маленькой размерности, когда $\frac{n}{K}\leq 40$ . При решении более общих задач большей размерности рекомендуется использовать AIC. В то же время, при больших значениях $\frac{n}{K}$ использование двух критериев равно возможно. Особенность критерия AIC_c заключается в том, что функция штрафа умножается на поправочный коэффициент.

$AIC_c=AIC+\frac{2K(K+1)}{n-K-1}$

$AIC_c=\ln\frac{SSE}{n}+\frac{n+K}{n-K-2}$

QAIC следует использовать для моделей, в которых часть переменных является случайными величинами с простыми дискретными распределениями (биномиальное, пуассоновское и т.д.). В таких случаях используется более общая модель, которая получается из рассматриваемой добавлением параметра обобщенного распределения. Оценка параметра определяется как распределение $\chi^2$ . Обычно значение параметра лежит на отрезке $c\in\[1;4\]$ .

Если $\hat{c}<1$ , то следует заменить $c = 1$ . При $c=1$ QAIC сводится к AIC.
$QAIC = 2K-\frac{\ln(L)}{\hat{c}}$

$QAIC_c = QAIC+\frac{2K(K+1)}{n-K-1}$