Оценка сложности регрессионных моделей (пример)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Литература)
(Способы оценки сложности регрессионных моделей)
Строка 15: Строка 15:
Существуют различные способы оценки сложности, используемые при выборе регрессионных моделей. Одни из наиболее распространенных, это [[Критерий Акаике|критерий Акаике (AIC)]], основанный на [[Бритва Оккама|принципе Оккама]], а также тесно связанный с ним [[Байесовский информационный критерий|Байесовский информационный критерий (BIC)]]. В [[Теория Вапника-Червоненкиса|теории Вапника-Червоненкиса]] одним из ключевых понятий является [[Размерность Вапника-Червоненкиса|размерность Вапника-Червоненкиса]], которая также является характеристикой сложности семейства алгоритмов.
Существуют различные способы оценки сложности, используемые при выборе регрессионных моделей. Одни из наиболее распространенных, это [[Критерий Акаике|критерий Акаике (AIC)]], основанный на [[Бритва Оккама|принципе Оккама]], а также тесно связанный с ним [[Байесовский информационный критерий|Байесовский информационный критерий (BIC)]]. В [[Теория Вапника-Червоненкиса|теории Вапника-Червоненкиса]] одним из ключевых понятий является [[Размерность Вапника-Червоненкиса|размерность Вапника-Червоненкиса]], которая также является характеристикой сложности семейства алгоритмов.
-
Поскольку задача описания данных формально эквивалентна кодированию, то сложность модели можно оценивать также как длину требуемого для её описания кода. На этом основан [[Principle of Minimum Description Length|принцип минимальной длинны описания (MDL)]]<ref>Mark H. Hansen, Bin Yu. Model Selection and the Principle of Minimum Description Length</ref>.
+
Поскольку задача описания данных формально эквивалентна кодированию, то сложность модели можно оценивать также как длину требуемого для её описания кода. На этом основан [[Principle of Minimum Description Length|принцип минимальной длинны описания (MDL)]]<ref>Mark H. Hansen, Bin Yu. Model Selection and the Principle of Minimum Description Length</ref>. Функция правдоподобия (лостоверность) в некотором роде тоже можно рассматривать как оценку сложности модели<ref>Christopher M. Bishop Pattern Recognition and Machine Learning</ref>.
== Литература ==
== Литература ==
{{список примечаний}}
{{список примечаний}}

Версия 13:00, 8 декабря 2010

Задача восстановления регрессии является частным случаем задачи обучения по прецедентам. При выборе модели, как и для всех задач обучения по прецедентам, возможны проблемы недообучения и переобучения.

В случае недообучения, модель недостаточно сложна для описания данных с требуемой точностью. А в случае переобучения, возникающего при избыточной сложности моделей, средняя ошибка на тестовой выборке существенно выше,чем на обучающей выборке.

Таким образом, для каждой задачи существует оптимальная сложность модели.

Способы оценки сложности регрессионных моделей

Существуют различные способы оценки сложности, используемые при выборе регрессионных моделей. Одни из наиболее распространенных, это критерий Акаике (AIC), основанный на принципе Оккама, а также тесно связанный с ним Байесовский информационный критерий (BIC). В теории Вапника-Червоненкиса одним из ключевых понятий является размерность Вапника-Червоненкиса, которая также является характеристикой сложности семейства алгоритмов.

Поскольку задача описания данных формально эквивалентна кодированию, то сложность модели можно оценивать также как длину требуемого для её описания кода. На этом основан принцип минимальной длинны описания (MDL)[1]. Функция правдоподобия (лостоверность) в некотором роде тоже можно рассматривать как оценку сложности модели[1].

Литература

Личные инструменты