Одномерная линейная регрессия
Материал из MachineLearning.
Одномерная (простая) линейная регрессия — линейная регрессия с одной независимой скалярной переменной (объясняющей переменной). Под одномерной линейной регрессией также понимают и сопряженный модели метод наименьших квадратов, оценивающий параметры регрессии. Данную модель называют простой, так как это одна из самых простых моделей регрессии. На двумерной плоскости функция регрессии является прямой. Модель характеризуется двумя параметрами: угловым коэффициентом и свободным членом прямой.
Содержание |
Модель одномерной линейной регрессии
Дана выборка .
Модель описывается уравнением:
где
- — зависимая переменная (отклик)
- — известная константа (значение объясняющей переменной, измерянной в -ом эксперименте)
- , — параметры модели (свободный член и угловой коэффициент).
- — случайная ошибка со средним и дисперсией . Ошибки некоррелированны:
- Свойства модели
- Отклик в -м эксперименте получается суммированием двух компонент: (1) константным слагаемым и (2) случайным слагаемым
- Ввиду верно
- Отклик превышает значение функции регрессии в точке на случайную величину
- Из свойств дисперсии и из равенства , следует равенство . Другими словами, дисперсия зависимой переменной константна и равна дисперсии случайного слагаемого.
- Отклики и , , также как и ошибки и , некорреллированны.
Метод наименьших квадратов
Метод наименьших квадратов минимизирует сумму квадратов регрессионных остатков.
Продифференцировав и прировняв частные производные к нулю, несложно получить точечные оценки параметров модели:
Свойства оценок и
- Точечные оценки являются несмещенными:
- Из теоремы Гаусса-Маркова следует "оптимальность" оценки регрессионной модели методом наименьших квадратов. В классе линейных несмещенных оценок параметров и оценки и имеют наименьшую дисперсию.
- дисперсию несмещенно оценивает статистика . Стандартное отклонение оценивается величиной .
- Прямая проходит через центр масс выборки
- Сумма регрессионных остатков равна нулю
- Сумма откликов равна сумме оцененных значений зависимой переменной
Нормальное распределение
Формулы для и из предыдущего раздела являются точечными оценками неизвестных параметров и . Эти формулы не отражают точность этих оценок. Как сильно оценки и отклоняются от "реальных" значений и оценивают доверительные интервалы. Для построения доверительных интервалов необходимо дополнительное допущение о распределении случайной составляющей (и как следствие, отклика ). Чаще всего, предполагают нормальность распределения .
Построение доверительных интервалов
При условии нормальности распределения случайных величин можно показать, что выборочное распределение также нормально с математическим ожиданием и дисперсией . С заменой дисперсии на ее несмещенную оценку , получается несмещенная оценка для :
.
Стандартная ошибка получается взятием корня квадратного. Так как имеет нормальное распределение, то ее стандартизированная статистика имеет стандартное нормальное распределение. Стандартизированная статистика, в которой стандартное отклонение в знаменателе заменяется на ее оценку, называется студентизированной статистикой. В статистической теории доказывается важный факт о студентизированной статистики .
Статистика имеет распределение Стьюдента с степенями свободы.
Доверительный интервал с уровнем значимости для параметра принимает вид , где — -квантиль распределения Стьюдента с степенями свободы.
Аналогично, доверительный интервал для параметра записывается ввиде , где
Ассимптотическая нормальность
Доверительные интервалы, полученные при допущении нормальности распределения случайной ошибки , применяются и в случае если допущение неверно. Из центральной предельной теоремы и закона больших чисел следует, что при "достаточно больших" размерах выборки, оценки и распределены "почти" нормально и формулы доверительных интервалов применимы за тем исключением, что вместо квантилей распределения Стьюдента используются квантили нормального распределения.