Одномерная линейная регрессия

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: Одномерная (простая) линейная регрессия — линейная регрессия с одной независимой скалярной переме...)
(Новая: Одномерная (простая) линейная регрессия — линейная регрессия с одной независимой скалярной переме...)
 

Текущая версия

Одномерная (простая) линейная регрессия — линейная регрессия с одной независимой скалярной переменной (объясняющей переменной). Под одномерной линейной регрессией также понимают и сопряженный модели метод наименьших квадратов, оценивающий параметры регрессии. Данную модель называют простой, так как это одна из самых простых моделей регрессии. На двумерной плоскости функция регрессии является прямой. Модель характеризуется двумя параметрами: угловым коэффициентом и свободным членом прямой.

Содержание

Модель одномерной линейной регрессии

Дана выборка x^m = \{(x_1, y_1),\ldots, (x_m, y_m), x_i, y_i \in \mathbb{R}\}.

Модель описывается уравнением:

 y_i = \beta_0 + \beta_1 x_i + \eps_i

где

y_i — зависимая переменная (отклик)
x_i — известная константа (значение объясняющей переменной, измерянной в i-ом эксперименте)
\beta_0, \beta_1 — параметры модели (свободный член и угловой коэффициент).
\eps_i — случайная ошибка со средним \mathbb{M}(\eps_i)=0 и дисперсией \sigma^2(\eps_i)=\sigma^2. Ошибки \eps_i, \eps_j, i \not= j некоррелированны: cov(\eps_i, \eps_j) = 0
i=1 \ldots m
Свойства модели
  1. Отклик y_i в i-м эксперименте получается суммированием двух компонент: (1) константным слагаемым \beta_0 + \beta_1 x_i и (2) случайным слагаемым \eps_i
  2. Ввиду \mathbb{M}(\eps_i)=0 верно \mathbb{M}(y_i)=\beta_0 + \beta_1 x_i
  3. Отклик y_i превышает значение функции регрессии в точке x_i на случайную величину \eps_i
  4. Из свойств дисперсии и из равенства \sigma^2(\eps_i)=\sigma^2, i=1 \ldots m, следует равенство \sigma^2(y_i)=\sigma^2. Другими словами, дисперсия зависимой переменной константна и равна дисперсии случайного слагаемого.
  5. Отклики y_i и y_j, i \not= j, также как и ошибки \eps_i и \eps_j, некорреллированны.

Метод наименьших квадратов

Метод наименьших квадратов минимизирует сумму квадратов регрессионных остатков.

(b_0,b_1) = \arg \min_{\beta_0, \beta_1} F(\beta_0, \beta_1)= \arg \min_{\beta_0,\beta_1}\sum_i (y_i - \beta_0 - \beta_1 x_i)^2

Продифференцировав F(\beta_0, \beta_1) и прировняв частные производные к нулю, несложно получить точечные оценки параметров модели:

  1.  b_1 = \frac{\sum (X_i - {\bar X})(Y_i - {\bar Y})}{\sum (X_i - {\bar X})^2}
  2.  b_0 = {\bar Y} - b_1 {\bar X}

Свойства оценок b_0 и b_1

  1. Точечные оценки b_0, b_1 являются несмещенными: \mathbb{M}(b_0)=\beta_0, \mathbb{M}(b_1)=\beta_1
  2. Из теоремы Гаусса-Маркова следует "оптимальность" оценки регрессионной модели методом наименьших квадратов. В классе линейных несмещенных оценок параметров \beta_0 и \beta_1 оценки b_0 и b_1 имеют наименьшую дисперсию.
  3. дисперсию \sigma^2 несмещенно оценивает статистика s^2=\frac{\sum (y_i - \hat{y}_i)^2}{m-2}=\frac{\sum e_i^2}{m-2}. Стандартное отклонение оценивается величиной s.
  4. Прямая \hat{y}(x)=b_0 + b_1 x проходит через центр масс выборки ({\bar x},{\bar y})
  5. Сумма регрессионных остатков равна нулю \sum (y_i - \hat{y}_i) = \sum e_i = 0
  6. Сумма откликов равна сумме оцененных значений зависимой переменной \sum y_i = \sum \hat{y}_i

Нормальное распределение

Формулы для b_0 и b_1 из предыдущего раздела являются точечными оценками неизвестных параметров \beta_0 и \beta_1. Эти формулы не отражают точность этих оценок. Как сильно оценки b_0 и b_1 отклоняются от "реальных" значений \beta_0 и \beta_1 оценивают доверительные интервалы. Для построения доверительных интервалов необходимо дополнительное допущение о распределении случайной составляющей \eps_i (и как следствие, отклика y_i). Чаще всего, предполагают нормальность распределения \eps_i.

Построение доверительных интервалов

При условии нормальности распределения случайных величин \eps_i можно показать, что выборочное распределение b_1 также нормально с математическим ожиданием \mathbb{M}(b_1)=\beta_1 и дисперсией \sigma^2(b_1)=\frac{\sigma^2}{\sum (x_i-{\bar x})^2}. С заменой дисперсии \sigma^2 на ее несмещенную оценку s^2, получается несмещенная оценка для \sigma^2(b_1):

     s^2(b_1)=\frac{s^2}{\sum (x_i-{\bar x})^2}.

Стандартная ошибка s(b_1) получается взятием корня квадратного. Так как b_1 имеет нормальное распределение, то ее стандартизированная статистика \frac{b_1 - \beta_1}{\sigma} имеет стандартное нормальное распределение. Стандартизированная статистика, в которой стандартное отклонение в знаменателе заменяется на ее оценку, называется студентизированной статистикой. В статистической теории доказывается важный факт о студентизированной статистики \frac{b_1 - \beta_1}{s(b_1)}.

     Статистика \frac{b_1 - \beta_1}{s(b_1)} имеет распределение Стьюдента с m-2 степенями свободы.

Доверительный интервал с уровнем значимости \alpha для параметра \beta_1 принимает вид b_1 \pm t(1-\frac{\alpha}{2},m-2) s(b_1), где t(\alpha,n)\alpha-квантиль распределения Стьюдента с n степенями свободы.

Аналогично, доверительный интервал для параметра \beta_0 записывается ввиде b_0 \pm t(1-\frac{\alpha}{2},m-2) s(b_0), где s^2(b_0)=s^2\big[\frac{1}{m} + \frac{{\bar X}^2}{\sum (x_i - {\bar X})^2}\big]

Ассимптотическая нормальность

Доверительные интервалы, полученные при допущении нормальности распределения случайной ошибки \eps, применяются и в случае если допущение неверно. Из центральной предельной теоремы и закона больших чисел следует, что при "достаточно больших" размерах выборки, оценки b_0 и b_1 распределены "почти" нормально и формулы доверительных интервалов применимы за тем исключением, что вместо квантилей распределения Стьюдента используются квантили нормального распределения.

См. также

Личные инструменты