Оценка сложности регрессионных моделей (пример)
Материал из MachineLearning.
(→Постановка задачи) |
(→Постановка задачи) |
||
Строка 34: | Строка 34: | ||
Используя модельные данные, мы будем строить кривые зависимости AIC, BIC, размерности Вапника-Червоненкиса, длинны описания(MDL), функции правдоподобия (достоверности), а также количества хорошо определяемых параметров. | Используя модельные данные, мы будем строить кривые зависимости AIC, BIC, размерности Вапника-Червоненкиса, длинны описания(MDL), функции правдоподобия (достоверности), а также количества хорошо определяемых параметров. | ||
+ | |||
+ | === Подсчет AIC и BIC для линейной регрессионной модели === | ||
+ | |||
+ | Пусть: | ||
+ | <tex>X = \{x_i\}^{n}_{i=1}</tex> - наблюдаемая часть выборки, где каждый объект характеризуется набором параметров <tex>x_i=(x_{i_1},...,x_{i_k})</tex>. | ||
+ | В случае [[Многомерная линейная регрессия|линейной регрессионной модели]] критерий | ||
+ | выражается через SSE (Sum of Squared Errors) - сумму квадратов остатков - и <tex>\sigma^2</tex> - дисперсия остатков.<br /> | ||
+ | <tex>BIC=SSE/\sigma^2+k\ln(n)</tex><br /> | ||
== Литература == | == Литература == | ||
{{список примечаний}} | {{список примечаний}} |
Версия 14:18, 8 декабря 2010
Задача восстановления регрессии является частным случаем задачи обучения по прецедентам. При выборе модели, как и для всех задач обучения по прецедентам, возможны проблемы недообучения и переобучения.
В случае недообучения, модель недостаточно сложна для описания данных с требуемой точностью. А в случае переобучения, возникающего при избыточной сложности моделей, средняя ошибка на тестовой выборке существенно выше,чем на обучающей выборке.
Таким образом, для каждой задачи существует оптимальная сложность модели.
Содержание |
Способы оценки сложности регрессионных моделей
Существуют различные способы оценки сложности, используемые при выборе регрессионных моделей. Одним из них является критерий Акаике (AIC), основанный на принципе Оккама, а также тесно связанный с ним Байесовский информационный критерий (BIC). В теории Вапника-Червоненкиса одним из ключевых понятий является размерность Вапника-Червоненкиса, которая также является характеристикой сложности семейства алгоритмов.
Поскольку задача описания данных формально эквивалентна кодированию, то сложность модели можно оценивать также как длину требуемого для её описания кода. На этом основан принцип минимальной длинны описания (MDL)[1].
Функция правдоподобия (достоверность) в некотором роде тоже можно рассматривать как оценку сложности модели[1].
Постановка задачи
Рассматривается линейная регрессионная модель
где множество порождающих функций
Предполагается, что случайная величина распределена нормально с нулевым матожиданием и фиксированной дисперсией , которая не зависит от переменных . При таких предположениях параметры регрессионной модели вычисляются с помощью метода наименьших квадратов.
Используя модельные данные, мы будем строить кривые зависимости AIC, BIC, размерности Вапника-Червоненкиса, длинны описания(MDL), функции правдоподобия (достоверности), а также количества хорошо определяемых параметров.
Подсчет AIC и BIC для линейной регрессионной модели
Пусть:
- наблюдаемая часть выборки, где каждый объект характеризуется набором параметров .
В случае линейной регрессионной модели критерий
выражается через SSE (Sum of Squared Errors) - сумму квадратов остатков - и - дисперсия остатков.