Критерий Акаике

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
Текущая версия (15:19, 15 февраля 2010) (править) (отменить)
м (Особенности применения критерия)
 
(7 промежуточных версий не показаны.)
Строка 3: Строка 3:
==Описание критерия==
==Описание критерия==
Расстояние Кульбака-Лейблера между двумя непрерывными функциями есть интеграл <tex>I(f,g)=\int{f(x)\ln{\frac{f(x)}{g(x|\theta)}}d(x)}</tex>.
Расстояние Кульбака-Лейблера между двумя непрерывными функциями есть интеграл <tex>I(f,g)=\int{f(x)\ln{\frac{f(x)}{g(x|\theta)}}d(x)}</tex>.
-
Акаике показал, что для оценки расстояния между моделями можно оценить величину <tex>E_{\hat{\theta}}\[I(f,\hat{g})\]</tex>, где <tex>\hat{\theta}</tex> - оценка вектора параметров, в который входят параметры модели и случайные величины; <tex>\hat{g}=g(\cdot|\hat{\theta})</tex>. При этом максимум логарифмической функции правдоподобия и оценка матожидания связаны следующим выражением: <tex> \log(\mathcal{L}(\hat{\theta}|y))-K=Const-\hat{E}_{\hat{\theta}}\[I(f,\hat{g})\]</tex>,
+
Акаике показал, что для оценки расстояния между моделями можно оценить величину <tex>E_{\hat{\theta}}\[I(f,\hat{g})\]</tex>, где <tex>\hat{\theta}</tex> - оценка вектора параметров, в который входят параметры модели и случайные величины; <tex>\hat{g}=g(\cdot|\hat{\theta})</tex>. При этом максимум логарифмической функции правдоподобия и оценка матожидания связаны следующим выражением: <tex>\log(\mathcal{L}(\hat{\theta}|y))-K=Const-\hat{E}_{\hat{\theta}}\[I(f,\hat{g})\]</tex>,
-
где <tex>K</tex> - число параметров модели, а <tex>\mathcal{L}</tex> -максимум логарифмической функция правдоподобия.<br />
+
где <tex>K</tex> - число параметров модели, а <tex>\mathcal{L}</tex> -максимум логарифмической [[Метод наибольшего правдоподобия|функции правдоподобия]].
-
Таким образом вместо вычисления расстояния между моделями можно оценивающий критерий.
+
Таким образом вместо вычисления расстояния между моделями можно ввести оценивающий критерий.<br />
 +
 
<tex>AIC = 2K-2\log(\mathcal{L}(\hat{\theta}|y))</tex><br />
<tex>AIC = 2K-2\log(\mathcal{L}(\hat{\theta}|y))</tex><br />
-
Можно записать критерий Акаике через RSS - остаточную сумму квадратов ошибок модели.<br />
+
 
-
<tex>AIC = 2k+n\[\ln(RSS/n)\]</tex> <br />
+
В случае задачи [[Линейная регрессия|линейной регрессии]] можно записать критерий Акаике через SSE (Sum of Squared Errors) - сумму квадратов остатков.<br />
-
Лучшая модель соответствует минимальному значению критерия Акаике.Абсолютное значение критерия не несет в себе полезной информации.
+
 
 +
<tex>AIC = 2K+n\[\ln(\hat{\sigma}^2)\]</tex> <br />
 +
 
 +
<tex>SSE=\|f(x_i)-y_i\|_2=\sum_{i=1}^N(y_i-f(w,x_i))^2</tex>;<br />
 +
 
 +
<tex>\hat{\sigma}^2=\frac{SSE}{N-2}</tex> — дисперсия остатков;<br />
 +
Лучшая модель соответствует минимальному значению критерия Акаике. Абсолютное значение критерия не несет в себе полезной информации.
==Особенности применения критерия==
==Особенности применения критерия==
*Штрафование числа параметров ограничивает значительный рост сложности модели.
*Штрафование числа параметров ограничивает значительный рост сложности модели.
*Проверка критерия является трудоемкой операцией.
*Проверка критерия является трудоемкой операцией.
-
*Применяется, если известен закон распределения шума.
+
*Может сравнивать модели только с выборками равного размера.
-
*Может сравнивать модели только из одного пространства объектов.
+
-
*Критерий Акаике не может быть применен, если модели имеют пересечения по объектам.
+
*Порядок выбора моделей неважен.
*Порядок выбора моделей неважен.
==Модификации критерия==
==Модификации критерия==
-
*'''AIC<sub>c</sub>''' был предложен для использования в задач маленькой размерности, когда <tex>\frac{n}{k}\leq 40</tex>. При решении более общих задач большей размерности рекомендуется использовать AIC. В то же время, при больших значениях <tex>\frac{n}{K}</tex> использование двух критериев равно возможно. Особенность критерия AIC<sub>c</sub> заключается в том, что функция штрафа умножается на поправочный коэффициент. <br />
+
*'''AIC<sub>c</sub>''' был предложен для использования в задач маленькой размерности, когда <tex>\frac{n}{K}\leq 40</tex>. При решении более общих задач большей размерности рекомендуется использовать AIC. В то же время, при больших значениях <tex>\frac{n}{K}</tex> использование двух критериев равно возможно. Особенность критерия AIC<sub>c</sub> заключается в том, что функция штрафа умножается на поправочный коэффициент. <br />
-
<tex>AIC_c=AIC+\frac{2k(k+1)}{n-k-1}</tex> <br /><br />
+
<tex>AIC_c=AIC+\frac{2K(K+1)}{n-K-1}</tex> <br /><br />
-
<tex>AIC_c=\ln\frac{RSS}{n}+\frac{n+k}{n-k-2}</tex>
+
<tex>AIC_c=\ln\frac{SSE}{n}+\frac{n+K}{n-K-2}</tex>
-
*'''QAIC''' следует использовать в тех случаях, когда среднее отклонение превышает дисперсию. В таких ситуациях используется более общая модель, которая получается из рассматриваемой добавлением параметра <tex>c\in\[1;4\]</tex>. <br >
+
*'''QAIC''' следует использовать для моделей, в которых часть переменных является случайными величинами с простыми дискретными распределениями (биномиальное, пуассоновское и т.д.). В таких случаях используется более общая модель, которая получается из рассматриваемой добавлением параметра обобщенного распределения. Оценка параметра определяется как распределение <tex>\chi^2</tex>. Обычно значение параметра лежит на отрезке <tex>c\in\[1;4\]</tex>.
-
Если <tex>c<1</tex>, то его следует заменить на <tex>\tilde c = 1</tex>. При <tex>c=1</tex> QAIC сводится к AIC.<br />
+
Если <tex>\hat{c}<1</tex>, то следует заменить <tex>c = 1</tex>. При <tex>c=1</tex> QAIC сводится к AIC.<br />
-
<tex>QAIC = 2k-\frac{\ln(L)}{c}</tex><br /><br />
+
<tex>QAIC = 2K-\frac{\ln(L)}{\hat{c}}</tex><br /><br />
-
<tex>QAIC_c = QAIC+\frac{2k(k+1)}{n-k-1}</tex>
+
<tex>QAIC_c = QAIC+\frac{2K(K+1)}{n-K-1}</tex>
==См. также==
==См. также==

Текущая версия

Данная статья является непроверенным учебным заданием.
Студент: Участник:Mordasova
Преподаватель: Участник:Константин Воронцов
Срок: 15 февраля 2010

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.


Критерий Акаике (Akaike's information criterion, AIC) - критерий выбора из класса параметризованных регрессионных моделей. Акаике (Akaike) предложил критерий выбора, оценивающий модели с разным числом параметров. Критерий связан с понятием расстояния Кульбака — Лейблера (Kullback–Leibler), при помощи которого можно оценить расстояние между моделями. При применении критерия в соответствии с принципом Оккама лучшей считается модель, в достаточной мере полно описывающая данные с наименьшим количеством параметров. Тесно связан с байесовским информационным критерием, но в отличие от него содержит функцию штрафа, линейно зависящую от числа параметров.

Содержание

Описание критерия

Расстояние Кульбака-Лейблера между двумя непрерывными функциями есть интеграл I(f,g)=\int{f(x)\ln{\frac{f(x)}{g(x|\theta)}}d(x)}. Акаике показал, что для оценки расстояния между моделями можно оценить величину E_{\hat{\theta}}\[I(f,\hat{g})\], где \hat{\theta} - оценка вектора параметров, в который входят параметры модели и случайные величины; \hat{g}=g(\cdot|\hat{\theta}). При этом максимум логарифмической функции правдоподобия и оценка матожидания связаны следующим выражением: \log(\mathcal{L}(\hat{\theta}|y))-K=Const-\hat{E}_{\hat{\theta}}\[I(f,\hat{g})\], где K - число параметров модели, а \mathcal{L} -максимум логарифмической функции правдоподобия. Таким образом вместо вычисления расстояния между моделями можно ввести оценивающий критерий.

AIC = 2K-2\log(\mathcal{L}(\hat{\theta}|y))

В случае задачи линейной регрессии можно записать критерий Акаике через SSE (Sum of Squared Errors) - сумму квадратов остатков.

AIC = 2K+n\[\ln(\hat{\sigma}^2)\]

SSE=\|f(x_i)-y_i\|_2=\sum_{i=1}^N(y_i-f(w,x_i))^2;

\hat{\sigma}^2=\frac{SSE}{N-2} — дисперсия остатков;
Лучшая модель соответствует минимальному значению критерия Акаике. Абсолютное значение критерия не несет в себе полезной информации.

Особенности применения критерия

  • Штрафование числа параметров ограничивает значительный рост сложности модели.
  • Проверка критерия является трудоемкой операцией.
  • Может сравнивать модели только с выборками равного размера.
  • Порядок выбора моделей неважен.

Модификации критерия

  • AICc был предложен для использования в задач маленькой размерности, когда \frac{n}{K}\leq 40. При решении более общих задач большей размерности рекомендуется использовать AIC. В то же время, при больших значениях \frac{n}{K} использование двух критериев равно возможно. Особенность критерия AICc заключается в том, что функция штрафа умножается на поправочный коэффициент.

AIC_c=AIC+\frac{2K(K+1)}{n-K-1}

AIC_c=\ln\frac{SSE}{n}+\frac{n+K}{n-K-2}

  • QAIC следует использовать для моделей, в которых часть переменных является случайными величинами с простыми дискретными распределениями (биномиальное, пуассоновское и т.д.). В таких случаях используется более общая модель, которая получается из рассматриваемой добавлением параметра обобщенного распределения. Оценка параметра определяется как распределение \chi^2. Обычно значение параметра лежит на отрезке c\in\[1;4\].

Если \hat{c}<1, то следует заменить c = 1. При c=1 QAIC сводится к AIC.
QAIC = 2K-\frac{\ln(L)}{\hat{c}}

QAIC_c = QAIC+\frac{2K(K+1)}{n-K-1}

См. также

Литература

  1. Akaike's information criterion on Wikipedia
  1. Akaike, H. A new look at the statistical model identification. — IEEE Transactions on Automatic Control. — 1974 T. 19. — 716--723 с.
  2. Liddle A. R. Information criteria for astrophysical model selection. — Advances in Neural Information Processing Systems. — Astronomy Centre, University of Sussex, 2008.
  3. Burnham K. P., Anderson D.R. Model selection and multimodel inference: a practical information-theoretic approach. — 2-е изд. — Springer, 2002. — 488 с. — ISBN 0387953647
  4. McQuarrie A. D. R., Tsai C. L. Regression and time series model selection. — World Scientific, 1998. — 455 с. — ISBN 981023242X
  5. Бидюк П.И., Зворыгина Т.Ф. Cтруктурный анализ методик построения регрессионных моделей по временным рядам наблюдений.
Личные инструменты