Байесовский информационный критерий

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Области применения)
Текущая версия (17:50, 12 декабря 2010) (править) (отменить)
(Описание критерия)
 
(10 промежуточных версий не показаны.)
Строка 1: Строка 1:
{{Задание|Mordasova|Константин Воронцов|15 февраля 2010}}
{{Задание|Mordasova|Константин Воронцов|15 февраля 2010}}
-
'''Байесовский информационный критерий''' ('''Bayesian information criterion''', '''BIC''', иногда - '''Schwarz Criterion''') - критерий выбора из класса параметризованных моделей, зависящих от разного числа параетров. Задача выбора модели для оптимизации байесовского критерия может быть рассмотрена как форма регуляризации. Параметры модели обычно оцениваются нахождением максимума функции правдоподобия, значение которого можно увеличить добавлением дополнительных параметров, что, однако, может вызвать [[переобучение]]. Байесовский критерий устраняет проблему переобучения, штрафную увеличение числа параметров модели. Тесно связан с [[Критерий Акаике|критерием Акаике]], но в случае байесовского критерия увеличение параметров штрафуется строже.
+
'''Байесовский информационный критерий''' ('''Bayesian information criterion''', '''BIC''', иногда - '''Schwarz Criterion''') - критерий выбора модели из класса параметризованных моделей, зависящих от разного числа параметров. Для оценивания модели обычно используется метод нахождения максимума функции правдоподобия, значение которого можно увеличить добавлением дополнительных параметров. Однако, это может вызвать [[переобучение]]. Байесовский критерий устраняет проблему переобучения, штрафуя увеличение числа параметров модели. Тесно связан с [[Критерий Акаике|критерием Акаике]], но в случае байесовского критерия увеличение параметров штрафуется строже.
==Описание критерия==
==Описание критерия==
-
Пусть <tex>X = \{x_i\}^{n}_{i=1}</tex> - наблюдаемая часть выборки, где каждый объект характеризуется набором параметров <tex>x_i=(x_{i_1},...,x_{i_k})</tex>. <br />
+
Байесовский критерий получается при допущении того, что распределение выборки принадлежит к семейству экспоненциальных распределений.<br />
-
<tex>p(x|k)</tex> - функция правдоподобия наблюдаемой выборки с известным числом параметров, <tex>L</tex> - максимальное значение функции правдоподобия.<br />
+
Пусть:
 +
*<tex>X = \{x_i\}^{n}_{i=1}</tex> - наблюдаемая часть выборки, где каждый объект характеризуется набором параметров <tex>x_i=(x_{i_1},...,x_{i_k})</tex>.
 +
*<tex>L</tex> - максимальное значение функции правдоподобия наблюдаемой выборки с известным числом параметров.<br />
 +
Тогда байесовский информационный критерий определяется формулой:<br />
 +
 
<tex>BIC = -2\ln(L)+k\ln(n)</tex><br />
<tex>BIC = -2\ln(L)+k\ln(n)</tex><br />
-
Также байесовский критерий выражается через RSS - остаточную сумму квадратов ошибок модели - и <tex>\sigma^2</tex> - дисперсию шума.<br />
+
Таким образом байесовский критерий является аналогом [[Критерий Акаике|критерия Акаике]] с более строгой функцией штрафа (функция штрафа зависит также от размерности модели).<br />
-
<tex>BIC=RSS/\sigma^2+k\ln(n)</tex><br />
+
В случае [[Многомерная линейная регрессия|линейной регрессионной модели]] критерий
 +
выражается через SSE (Sum of Squared Errors) - сумму квадратов остатков:<br />
 +
<tex>BIC=n\ln\frac{SSE}{n}+k\ln n.</tex><br/>
 +
В данном случае логарифмируется смещенная оценка дисперсии регрессионных остатков.
 +
 
==Особенности примения==
==Особенности примения==
*Из двух моделей предпочтительно выбрать с меньшим значением байесовского критерия.
*Из двух моделей предпочтительно выбрать с меньшим значением байесовского критерия.
Строка 14: Строка 22:
==Области применения==
==Области применения==
Широко применяется для анализа временных рядов и решения задач линейной регрессии. В большинстве случаев применение байесовского критерия сводится к [[Метод максимального правдоподобия|максимизации функции правдоподобия]], поскольку, как правило, в этих исследованиях число параметров моделей совпадает с числом рассматриваемых моделей.<br/>
Широко применяется для анализа временных рядов и решения задач линейной регрессии. В большинстве случаев применение байесовского критерия сводится к [[Метод максимального правдоподобия|максимизации функции правдоподобия]], поскольку, как правило, в этих исследованиях число параметров моделей совпадает с числом рассматриваемых моделей.<br/>
-
К таким исследованиям можно отнести, например, задачи астрофизики: [http://ru.wikipedia.org/wiki/Абсолютно_чёрное_тело поиск абсолютно черного тела] и нахождение [http://ru.wikipedia.org/wiki/Спектр_излучения спектра излучения].
+
К таким исследованиям можно отнести, например, задачи астрофизики: [http://ru.wikipedia.org/wiki/Абсолютно_чёрное_тело поиск модели абсолютно черного тела] и нахождение [http://ru.wikipedia.org/wiki/Спектр_излучения модели спектра излучения].
==См. также==
==См. также==
*[[Критерий Акаике]]
*[[Критерий Акаике]]
 +
*[[Многомерная линейная регрессия]]
 +
*[[Линейная регрессия]]
==Литература==
==Литература==
Строка 54: Строка 64:
|год = 1998
|год = 1998
|страниц = 455
|страниц = 455
-
|ссылка = http://books.google.ru/books?id=BQYR6js0CC8C&dq=Model+selection+and+multimodel+inference&source=gbs_navlinks_s
+
|ссылка = http://books.google.ru/books?id=INw5s0jA14wC&printsec=frontcover&dq=Regression+and+time+series+model+selectio&ei=6dVyS8jKI5C8yQTHy8WlBQ&cd=1#v=onepage&q=&f=false
|isbn = 981023242X
|isbn = 981023242X
}}
}}

Текущая версия

Данная статья является непроверенным учебным заданием.
Студент: Участник:Mordasova
Преподаватель: Участник:Константин Воронцов
Срок: 15 февраля 2010

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.


Байесовский информационный критерий (Bayesian information criterion, BIC, иногда - Schwarz Criterion) - критерий выбора модели из класса параметризованных моделей, зависящих от разного числа параметров. Для оценивания модели обычно используется метод нахождения максимума функции правдоподобия, значение которого можно увеличить добавлением дополнительных параметров. Однако, это может вызвать переобучение. Байесовский критерий устраняет проблему переобучения, штрафуя увеличение числа параметров модели. Тесно связан с критерием Акаике, но в случае байесовского критерия увеличение параметров штрафуется строже.

Содержание

Описание критерия

Байесовский критерий получается при допущении того, что распределение выборки принадлежит к семейству экспоненциальных распределений.
Пусть:

  • X = \{x_i\}^{n}_{i=1} - наблюдаемая часть выборки, где каждый объект характеризуется набором параметров x_i=(x_{i_1},...,x_{i_k}).
  • L - максимальное значение функции правдоподобия наблюдаемой выборки с известным числом параметров.

Тогда байесовский информационный критерий определяется формулой:

BIC = -2\ln(L)+k\ln(n)
Таким образом байесовский критерий является аналогом критерия Акаике с более строгой функцией штрафа (функция штрафа зависит также от размерности модели).
В случае линейной регрессионной модели критерий выражается через SSE (Sum of Squared Errors) - сумму квадратов остатков:
BIC=n\ln\frac{SSE}{n}+k\ln n.
В данном случае логарифмируется смещенная оценка дисперсии регрессионных остатков.

Особенности примения

  • Из двух моделей предпочтительно выбрать с меньшим значением байесовского критерия.
  • Байесовский критерий представляет собой возрастающую функцию от числа параметров модели и от остаточной суммы квадратов ошибок модели.
  • Изменение зависимых переменных и увеличение числа наблюдаемых увеличивает байесовский критерий,в то же время уменьшение критерия означает уменьшение размерности модели.
  • Используется при длинных выборках данных.

Области применения

Широко применяется для анализа временных рядов и решения задач линейной регрессии. В большинстве случаев применение байесовского критерия сводится к максимизации функции правдоподобия, поскольку, как правило, в этих исследованиях число параметров моделей совпадает с числом рассматриваемых моделей.
К таким исследованиям можно отнести, например, задачи астрофизики: поиск модели абсолютно черного тела и нахождение модели спектра излучения.

См. также

Литература

  1. Bayesian information criterion on Wikipedia
  2. Schwarz, G. Estimating the dimension of a model. — Annals of Statistics. — 1978 T. 6. — 461--464 с.
  3. Liddle A. R. Information criteria for astrophysical model selection. — Advances in Neural Information Processing Systems. — Astronomy Centre, University of Sussex, 2008.
  4. Burnham K. P., Anderson D.R. Model selection and multimodel inference: a practical information-theoretic approach. — 2-е изд. — Springer, 2002. — 488 с. — ISBN 0387953647
  5. McQuarrie A. D. R., Tsai C. L. Regression and time series model selection. — World Scientific, 1998. — 455 с. — ISBN 981023242X
  6. Бидюк П.И., Зворыгина Т.Ф. Cтруктурный анализ методик построения регрессионных моделей по временным рядам наблюдений.
Личные инструменты