Порождение линейных регрессионных моделей (постановка задачи)
Материал из MachineLearning.
Рассмотрим задачу восстановления линейной регрессии одной свободной переменной.
Содержание |
Дано
Задана выборка - множество пар значений свободной и зависимой переменной, . Свободная переменная , зависимая переменная . Принята модель регрессионной зависимости - параметрическое семейство функций
в которой аддитивная случайная величина имеет Гауссово распределение с нулевым математическим ожиданием и дисперсией .
Модель принадлежит множеству моделей , которое задается следующим образом. Экспертно задано конечное множество функций . Обозначим некоторое подмножество множества индексов функций из . Пусть - порядковый номер подмножества , . Модель есть линейная комбинация функций с индексом ,
Индекс есть мощность множества индексов функций из , другими словами, число элементов в линейной комбинации .
Найти
Требуется решить задачу восстановления линейной регрессии методом наименьших квадратов и выбрать такую модель , которая бы доставляла минимум сумме квадратов регрессионных остатков
Замечание. В данной постановке не рассматриваются вопросы сложности модели и вопросы переобучения, они рассматриваются в задаче выбора моделей.
Постановка задачи в векторной форме. Представим предыдущую задачу в виде задачи восстановления регрессии многих переменных. Обозначим множество элементов выборки как векторы и . Обозначим вектор
Обозначим вектор-функцию
Матрица состоит из векторов-столбцов , , где
Требуется выбрать такую модель , которая бы доставляла минимум сумме квадратов регрессионных остатков
Пример
Задана выборка :
Задано множество функций :
Множество регрессионных моделей - линейных комбинаций функций из имеет вид:
Модель, доставляющая наименьшую среднеквадратичную ошибку, имеет вид