Статистические свойства МНК-оценок коэффициентов регрессии

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: Для того, чтобы '''МНК-оценки коэффициентов [[многомерная линейная регре...)
Строка 9: Строка 9:
::'''2.3.''' <tex>D\varepsilon_i = \sigma^2</tex> (гомоскедастичность);
::'''2.3.''' <tex>D\varepsilon_i = \sigma^2</tex> (гомоскедастичность);
::'''2.4.''' <tex>E\varepsilon_i\varepsilon_j = 0, \; i\neq j</tex> (некореллированность).
::'''2.4.''' <tex>E\varepsilon_i\varepsilon_j = 0, \; i\neq j</tex> (некореллированность).
-
*'''Дополнительное Предположение 3 (ДП3):'''
+
*'''Дополнительное Предположение 3 (ДП3):''' <tex>\; \; \varepsilon \sim N(0,\sigma^2I_n)</tex>,
-
::<tex>\varepsilon \sim N(0,\sigma^2I_n)</tex>,
+
:т.е вектор регрессионных остатков <tex>\varepsilon</tex> - [[нормальное распределение|нормально распределенный]] [[многомерная случайная величина|случайный вектор]] со [[многомерная случайная величина|средним]] 0 и [[ковариационная матрица|матрицей ковариации]] <tex>\sigma^2I_n</tex> (<tex>I_n</tex> - единичная матрица размера <tex>n\times n</tex>). В этом случаем модель называется ''нормальной линейной регрессионной моделью''.
-
:т.е регрессионные остатки имеют нормальное распределение <tex>N(0,\sigma^2I_n)</tex>, где <tex>I_n</tex> - единичная матрица размера <tex>n\times n</tex>.
+
==Свойства МНК-оценок без предположения о нормальности==
==Свойства МНК-оценок без предположения о нормальности==
Строка 35: Строка 34:
* если <tex>c = (x_{i1},\cdots,x_{ik}),</tex> то
* если <tex>c = (x_{i1},\cdots,x_{ik}),</tex> то
::<tex>c^T\hat\theta = \hat y_i</tex> - несмещенная, эффективная оценка <tex>y(x_i)_k.</tex>
::<tex>c^T\hat\theta = \hat y_i</tex> - несмещенная, эффективная оценка <tex>y(x_i)_k.</tex>
-
 
==Свойства МНК-оценок с предположением о нормальности==
==Свойства МНК-оценок с предположением о нормальности==
 +
 +
Пусть теперь к тому же выполнено ДП3, т.е. <tex>\varepsilon</tex> - многомерная [[нормальное распределение|нормально распределенная]] [[многомерная случайная величина|случайная величина]], или, что то же самое <tex>y_i</tex> имеют совместное нормальное распределение. Тогда к перечисленным выше свойствам добавятся следующие:
 +
 +
* МНК-оценка коэффициентов регрессии <tex>\hat\theta</tex> имеет нормальное распределение:
 +
::<tex> \hat\theta \sim N(\theta, \sigma^2(X^TX)^{-1});</tex>
 +
 +
* Несмещенная оценка для дисперсии шума <tex>\sigma^2</tex> имеет вид:
 +
::<tex>\hat\sigma^2 = \frac{RSS}{n-k},</tex>
 +
:где RSS есть [[остаточная сумма квадратов]];
 +
 +
* Случайная величина <tex>\frac{RSS}{\sigma^2}</tex> распределена по закону [[распределение хи-квадрат|хи-квадрат]] с <tex>n-k</tex> степенями свободы <tex>\chi^2_{n-k}.</tex>
 +
 +
* Оценки <tex>\hat\theta</tex> и <tex>s^2</tex> линейно независимы. Откуда получается, что величина
 +
::<tex>\frac{\hat\theta-\theta}{\hat\sigma\sqrt{(X^TX)^{-1}}} \sim t_{n-k}</tex>
 +
:имеет [[распределение Стьюдента]] с <tex>n-k</tex> степенями свободы.

Версия 01:19, 29 января 2009

Для того, чтобы МНК-оценки коэффициентов многомерной регрессии обладали полезными статистическими свойствами необходимо выполнение ряда предпосылок относительно оцениваемой регрессионной модели, называемых Основными Положениями.

Основные Положения

  • ОП.0 Y = X\theta + \varepsilon (модель линейна по параметрам);
  • ОП.1 X - детерминированная n\times k матрица, rkX = k (признаки линейно независимы);
  • ОП.2 Регрессионные остатки \varepsilon_i = y_i - \hat y_i = y_i - \sum\limits_{j=1}^k\theta_j x_{ij}, \; i=\overline{1,n}
2.1. одинаково распределены;
2.2. E\varepsilon_i = 0 (модель несмещенная);
2.3. D\varepsilon_i = \sigma^2 (гомоскедастичность);
2.4. E\varepsilon_i\varepsilon_j = 0, \; i\neq j (некореллированность).
  • Дополнительное Предположение 3 (ДП3): \; \; \varepsilon \sim N(0,\sigma^2I_n),
т.е вектор регрессионных остатков \varepsilon - нормально распределенный случайный вектор со средним 0 и матрицей ковариации \sigma^2I_n (I_n - единичная матрица размера n\times n). В этом случаем модель называется нормальной линейной регрессионной моделью.

Свойства МНК-оценок без предположения о нормальности

Теорема Гаусса-Маркова. Пусть выполнены основные положения 0-2. Тогда оценка \hat\theta, полученная по методу наименьших квадратов является эффективной в классе линейных (вида \hat\theta=Ay) несмещенных оценок (Best Linear Unbiased Estimator, BLUE).

Исходя из этой теоремы можно выделить несколько основных свойств МНК-оценки \hat\theta:

  • Линейность:
\hat\theta = Ay, где A = (X^TX)^{-1}X^T;
  • Несмещенность:
E\hat\theta = E((X^TX)^{-1}X^Ty) = (X^TX)^{-1}X^TEy = (X^TX)^{-1}X^TE(X\theta+\varepsilon) = (X^TX)^{-1}X^TX\theta + (X^TX)^{-1}X^TE\varepsilon = \theta;
  • Матрица ковариации равна:
cov\hat\theta = ||cov(\hat\theta_i,\hat\theta_j)||_{i=1,\cdots,k}^{j=1,\cdots,k} = \sigma^2(X^TX)^{-1}.
  • МНК-оценка \hat\theta эффективна.

Итак, теорема Гаусса-Маркова утверждает, что любая другая линейная несмещенная оценка будет иметь большую дисперсию, чем МНК-оценка:


Нетрудно показать, что для любого вектора \; c\in R^k \; оценка \; c^T\hat\theta \; будет обладать теми же свойствами, что и МНК-оценка \hat\theta. Поэтому:

  • если взять c = (0\cdots 01\limits_j0\cdots0), то получим что
c^T\hat\theta = \hat\theta_j - несмещенная, эффективная оценка \theta_j;
  • если c = (x_{i1},\cdots,x_{ik}), то
c^T\hat\theta = \hat y_i - несмещенная, эффективная оценка y(x_i)_k.


Свойства МНК-оценок с предположением о нормальности

Пусть теперь к тому же выполнено ДП3, т.е. \varepsilon - многомерная нормально распределенная случайная величина, или, что то же самое y_i имеют совместное нормальное распределение. Тогда к перечисленным выше свойствам добавятся следующие:

  • МНК-оценка коэффициентов регрессии \hat\theta имеет нормальное распределение:
 \hat\theta \sim N(\theta, \sigma^2(X^TX)^{-1});
  • Несмещенная оценка для дисперсии шума \sigma^2 имеет вид:
\hat\sigma^2 = \frac{RSS}{n-k},
где RSS есть остаточная сумма квадратов;
  • Случайная величина \frac{RSS}{\sigma^2} распределена по закону хи-квадрат с n-k степенями свободы \chi^2_{n-k}.
  • Оценки \hat\theta и s^2 линейно независимы. Откуда получается, что величина
\frac{\hat\theta-\theta}{\hat\sigma\sqrt{(X^TX)^{-1}}} \sim t_{n-k}
имеет распределение Стьюдента с n-k степенями свободы.
Личные инструменты