Статистические свойства МНК-оценок коэффициентов регрессии

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
 
(4 промежуточные версии не показаны)
Строка 1: Строка 1:
-
Статистическое исследование [[многомерная линейная регрессия|линейной регрессии]] включает в себя построение [[доверительный интервал|доверительных интервалов]] для коэффициентов регрессии и прогнозного значения отклика.
+
Статистическое исследование [[многомерная линейная регрессия|линейной регрессии]] включает в себя построение [[доверительные интервалы для параметров регрессии|доверительных интервалов для параметров регрессии]]. Однако прежде чем переходить к решению поставленной задачи, необходимо выяснить, какими '''статистическими свойствами''' обладают '''[[Метод наименьших квадратов|МНК-оценки]] коэффициентов регрессии.'''
-
 
+
-
Однако прежде чем переходить к решению поставленной задачи, необходимо выяснить, какими '''статистическими свойствами''' обладают '''[[Метод наименьших квадратов|МНК-оценки]] коэффициентов регрессии.'''
+
-
 
+
-
Для того, чтобы регрессионная модель хорошо описывала исходные данные, а значит и МНК-оценки обладали хорошими свойствами, необходимо выполнение ряда предпосылок, называемых ''Основными Предположениями''.
+
==Основные обозначения==
==Основные обозначения==
Строка 9: Строка 5:
Ввдедем матричные обозначения:
Ввдедем матричные обозначения:
-
*<tex>X=\(x_{11}\ \ \ldots\ \ x_{1k}<br>\ \vdots\ \ \ \ \ \ \ddots\ \ \ \ \vdots<br>x_{n1}\ \ \ldots\ \ x_{nk}\)\;</tex> - матрица, столбцами которой являются векторы признаков (регрессоров), а строками - объекты;
+
*<tex>X=\(x_{11}\ \ \ldots\ \ x_{1k}<br>\ \vdots\ \ \ \ \ \ddots\ \ \ \ \vdots<br>x_{n1}\ \ \ldots\ \ x_{nk}\)\;</tex> - матрица, столбцами которой являются векторы признаков (регрессоров), а строками - объекты;
-
*<tex> \hat{y}= \left[ \hat{y}_1 \\ ...\\ \hat{y}_n\right] </tex> – зависимая переменная (отклик);
+
*<tex> y= \left[ y_1 \\ ...\\ y_n\right] </tex> – зависимая переменная (отклик);
*<tex> \theta= \left[\theta_1 \\ ...\\\theta_k \right] </tex> - коэффициенты линейной регрессии;
*<tex> \theta= \left[\theta_1 \\ ...\\\theta_k \right] </tex> - коэффициенты линейной регрессии;
-
<tex> \hat{y} = X\theta;</tex>
+
Модель линейной регрессии имеет вид:
 +
::<tex>y = X\theta + \varepsilon = \hat y + \varepsilon;</tex>
-
*<tex>\varepsilon = y - \hat y \; </tex> - вектор регрессионных остатков.
+
*<tex>\varepsilon = y - \hat y \; </tex> - вектор регрессионных остатков;
-
 
+
-
Модель линейной регрессии имеет вид:
+
-
::<tex>y = X\theta + \varepsilon</tex>
+
-
* <tex>\hat\theta = (X^TX)^{-1}X^Ty \; </tex>- МНК-оценка коэффициентов регрессии;
+
* <tex>\hat\theta = (X^TX)^{-1}X^Ty \; </tex>- МНК-оценка коэффициентов регрессии.
==Основные Предположения==
==Основные Предположения==
 +
Для того, чтобы МНК-оценки коэффициентов регрессии обладали хорошими свойствами, необходимо выполнение ряда предпосылок, называемых ''Основными Предположениями''.
-
*'''ОП.1''' <tex>X</tex> - детерминированная <tex>n\times k</tex> матрица, <tex>rkX = k</tex> (признаки линейно-независимы);
+
*'''ОП1:''' <tex>X</tex> - детерминированная <tex>n\times k</tex> матрица, <tex>rkX = k</tex> (признаки линейно-независимы);
-
*'''ОП.2''' Регрессионные остатки <tex>\varepsilon_i, \; i=\overline{1,n}</tex>
+
*'''ОП2:''' Регрессионные остатки <tex>\varepsilon_i, \; i=\overline{1,n}</tex>
::'''2.1.''' одинаково распределены;
::'''2.1.''' одинаково распределены;
::'''2.2.''' <tex>E\varepsilon_i = 0</tex> (модель несмещенная);
::'''2.2.''' <tex>E\varepsilon_i = 0</tex> (модель несмещенная);
Строка 36: Строка 31:
:т.е вектор регрессионных остатков <tex>\varepsilon</tex> - [[нормальное распределение|нормально распределенный]] [[многомерная случайная величина|случайный вектор]] со [[многомерная случайная величина|средним]] 0 и [[ковариационная матрица|матрицей ковариации]] <tex>\sigma^2I_n</tex> (<tex>I_n</tex> - единичная матрица размера <tex>n\times n</tex>). В этом случаем модель называется ''нормальной линейной регрессионной моделью''.
:т.е вектор регрессионных остатков <tex>\varepsilon</tex> - [[нормальное распределение|нормально распределенный]] [[многомерная случайная величина|случайный вектор]] со [[многомерная случайная величина|средним]] 0 и [[ковариационная матрица|матрицей ковариации]] <tex>\sigma^2I_n</tex> (<tex>I_n</tex> - единичная матрица размера <tex>n\times n</tex>). В этом случаем модель называется ''нормальной линейной регрессионной моделью''.
-
Для проверки этих предположений используется [[Анализ регрессионных остатков.]]
+
Проверки этих предположений занимается [[Анализ регрессионных остатков]].
==Свойства МНК-оценок без предположения о нормальности==
==Свойства МНК-оценок без предположения о нормальности==
-
'''Теорема Гаусса-Маркова.''' Пусть выполнены ОП.1 и ОП.2. Тогда оценка <tex>\hat\theta,</tex> полученная по [[метод наименьших квадратов|методу наименьших квадратов]] является [[статистическое оценивание|эффективной]] в классе линейных [[статистическое оценивание|несмещенных]] оценок (Best Linear Unbiased Estimator, BLUE).
+
'''Теорема Гаусса-Маркова.''' Пусть выполнены ОП1 и ОП2. Тогда оценка <tex>\hat\theta,</tex> полученная по [[метод наименьших квадратов|методу наименьших квадратов]] является [[статистическое оценивание|эффективной]] в классе линейных [[статистическое оценивание|несмещенных]] оценок (Best Linear Unbiased Estimator, BLUE).
Исходя из этой теоремы можно выделить несколько основных '''свойств МНК-оценки <tex>\hat\theta:</tex>'''
Исходя из этой теоремы можно выделить несколько основных '''свойств МНК-оценки <tex>\hat\theta:</tex>'''
Строка 47: Строка 42:
::<tex>E\hat\theta = E((X^TX)^{-1}X^Ty) = (X^TX)^{-1}X^TEy = (X^TX)^{-1}X^TE(X\theta+\varepsilon) = (X^TX)^{-1}X^TX\theta + (X^TX)^{-1}X^TE\varepsilon = \theta;</tex>
::<tex>E\hat\theta = E((X^TX)^{-1}X^Ty) = (X^TX)^{-1}X^TEy = (X^TX)^{-1}X^TE(X\theta+\varepsilon) = (X^TX)^{-1}X^TX\theta + (X^TX)^{-1}X^TE\varepsilon = \theta;</tex>
* Матрица ковариации равна:
* Матрица ковариации равна:
-
::<tex>cov\hat\theta = ||cov(\hat\theta_i,\hat\theta_j)||_{i=1,\cdots,k}^{j=1,\cdots,k} = \sigma^2(X^TX)^{-1}.</tex>
+
::<tex>cov\hat\theta = ||cov(\hat\theta_i,\hat\theta_j)||_{i=1,\cdots,k}^{j=1,\cdots,k} = \sigma^2(X^TX)^{-1};</tex>
* МНК-оценка <tex>\hat\theta</tex> '''эффективна'''.
* МНК-оценка <tex>\hat\theta</tex> '''эффективна'''.
Строка 75: Строка 70:
* Случайная величина
* Случайная величина
::<tex>\frac{RSS}{\sigma^2} \sim \chi^2_{n-k}</tex>
::<tex>\frac{RSS}{\sigma^2} \sim \chi^2_{n-k}</tex>
-
:распределена по закону [[распределение хи-квадрат|хи-квадрат]] с <tex>n-k</tex> степенями свободы;
+
:распределена по [[распределение хи-квадрат|закону хи-квадрат]] с <tex>n-k</tex> степенями свободы;
* Оценки <tex>\hat\theta</tex> и <tex>s^2</tex> линейно независимы. Откуда получается, что величина
* Оценки <tex>\hat\theta</tex> и <tex>s^2</tex> линейно независимы. Откуда получается, что величина
::<tex>\frac{\hat\theta-\theta}{\hat\sigma\sqrt{(X^TX)^{-1}}} \sim t_{n-k}</tex>
::<tex>\frac{\hat\theta-\theta}{\hat\sigma\sqrt{(X^TX)^{-1}}} \sim t_{n-k}</tex>
:имеет [[распределение Стьюдента]] с <tex>n-k</tex> степенями свободы.
:имеет [[распределение Стьюдента]] с <tex>n-k</tex> степенями свободы.
 +
:А значит <tex>\;\forall c\in R^k \;</tex> величина
 +
::<tex>\frac{c^T(\hat\theta-\theta)}{\hat\sigma\sqrt{c^T(X^TX)^{-1}c}} \sim t_{n-k}</tex>
 +
:также имеет распределение Стьюдента с <tex>n-k</tex> степенями свободы.
==Литература==
==Литература==
 +
# ''Лагутин М. Б.'' Наглядная математическая статистика. — М.: Бином, 2007.
# ''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006.
# ''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006.
# ''Магнус Я. Р., Катышев П. К., Пересецкий А. А.'' Эконометрика. Начальный курс: Учеб. — 7-е изд., испр. — М.: Дело, 2005.
# ''Магнус Я. Р., Катышев П. К., Пересецкий А. А.'' Эконометрика. Начальный курс: Учеб. — 7-е изд., испр. — М.: Дело, 2005.
Строка 88: Строка 87:
* [[Многомерная линейная регрессия]]
* [[Многомерная линейная регрессия]]
* [[Метод наименьших квадратов]]
* [[Метод наименьших квадратов]]
-
* [[Доверительные интервалы???????]]
+
* [[Доверительные интервалы для параметров регрессии]]
==Ссылки==
==Ссылки==

Текущая версия

Статистическое исследование линейной регрессии включает в себя построение доверительных интервалов для параметров регрессии. Однако прежде чем переходить к решению поставленной задачи, необходимо выяснить, какими статистическими свойствами обладают МНК-оценки коэффициентов регрессии.

Содержание

Основные обозначения

Ввдедем матричные обозначения:

  • X=\(x_{11}\ \ \ldots\ \ x_{1k}<br>\ \vdots\ \ \ \ \ \ddots\ \ \ \ \vdots<br>x_{n1}\ \ \ldots\ \ x_{nk}\)\; - матрица, столбцами которой являются векторы признаков (регрессоров), а строками - объекты;
  •  y= \left[ y_1 \\ ...\\ y_n\right] – зависимая переменная (отклик);
  •  \theta= \left[\theta_1 \\ ...\\\theta_k  \right] - коэффициенты линейной регрессии;

Модель линейной регрессии имеет вид:

y = X\theta + \varepsilon = \hat y + \varepsilon;
  • \varepsilon = y - \hat y \; - вектор регрессионных остатков;
  • \hat\theta = (X^TX)^{-1}X^Ty \; - МНК-оценка коэффициентов регрессии.

Основные Предположения

Для того, чтобы МНК-оценки коэффициентов регрессии обладали хорошими свойствами, необходимо выполнение ряда предпосылок, называемых Основными Предположениями.

  • ОП1: X - детерминированная n\times k матрица, rkX = k (признаки линейно-независимы);
  • ОП2: Регрессионные остатки \varepsilon_i, \; i=\overline{1,n}
2.1. одинаково распределены;
2.2. E\varepsilon_i = 0 (модель несмещенная);
2.3. D\varepsilon_i = \sigma^2 (гомоскедастичность);
2.4. E\varepsilon_i\varepsilon_j = 0, \; i\neq j (некореллированность).
  • Дополнительное Предположение 3 (ДП3): \; \; \varepsilon \sim N(0,\sigma^2I_n),
т.е вектор регрессионных остатков \varepsilon - нормально распределенный случайный вектор со средним 0 и матрицей ковариации \sigma^2I_n (I_n - единичная матрица размера n\times n). В этом случаем модель называется нормальной линейной регрессионной моделью.

Проверки этих предположений занимается Анализ регрессионных остатков.

Свойства МНК-оценок без предположения о нормальности

Теорема Гаусса-Маркова. Пусть выполнены ОП1 и ОП2. Тогда оценка \hat\theta, полученная по методу наименьших квадратов является эффективной в классе линейных несмещенных оценок (Best Linear Unbiased Estimator, BLUE).

Исходя из этой теоремы можно выделить несколько основных свойств МНК-оценки \hat\theta:

  • Линейность:
\hat\theta = Ay, где A = (X^TX)^{-1}X^T;
  • Несмещенность:
E\hat\theta = E((X^TX)^{-1}X^Ty) = (X^TX)^{-1}X^TEy = (X^TX)^{-1}X^TE(X\theta+\varepsilon) = (X^TX)^{-1}X^TX\theta + (X^TX)^{-1}X^TE\varepsilon = \theta;
  • Матрица ковариации равна:
cov\hat\theta = ||cov(\hat\theta_i,\hat\theta_j)||_{i=1,\cdots,k}^{j=1,\cdots,k} = \sigma^2(X^TX)^{-1};
  • МНК-оценка \hat\theta эффективна.

Итак, теорема Гаусса-Маркова утверждает, что любая другая линейная несмещенная оценка будет иметь большую дисперсию, чем МНК-оценка:


Нетрудно показать, что для любого вектора \; c\in R^k \; оценка \; c^T\hat\theta \; будет обладать теми же свойствами, что и МНК-оценка \hat\theta. Поэтому:

  • если взять c = (0\cdots 01\limits_j0\cdots0), то получим что
c^T\hat\theta = \hat\theta_j - несмещенная, эффективная оценка \theta_j;
  • если c = (x_{i1},\cdots,x_{ik}), то
c^T\hat\theta = \hat y_i - несмещенная, эффективная оценка y(x_i)_k.


Свойства МНК-оценок с предположением о нормальности

Пусть теперь к тому же выполнено ДП3, т.е. \varepsilon - многомерная нормально распределенная случайная величина, или, что то же самое y_i имеют совместное нормальное распределение. Тогда к перечисленным выше свойствам добавятся следующие:

  • МНК-оценка коэффициентов регрессии \hat\theta имеет нормальное распределение:
 \hat\theta \sim N(\theta, \sigma^2(X^TX)^{-1});
  • Несмещенная оценка для дисперсии шума \sigma^2 имеет вид:
\hat\sigma^2 = \frac{RSS}{n-k},
где RSS есть остаточная сумма квадратов;
  • Случайная величина
\frac{RSS}{\sigma^2} \sim \chi^2_{n-k}
распределена по закону хи-квадрат с n-k степенями свободы;
  • Оценки \hat\theta и s^2 линейно независимы. Откуда получается, что величина
\frac{\hat\theta-\theta}{\hat\sigma\sqrt{(X^TX)^{-1}}} \sim t_{n-k}
имеет распределение Стьюдента с n-k степенями свободы.
А значит \;\forall c\in R^k \; величина
\frac{c^T(\hat\theta-\theta)}{\hat\sigma\sqrt{c^T(X^TX)^{-1}c}} \sim t_{n-k}
также имеет распределение Стьюдента с n-k степенями свободы.

Литература

  1. Лагутин М. Б. Наглядная математическая статистика. — М.: Бином, 2007.
  2. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
  3. Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс: Учеб. — 7-е изд., испр. — М.: Дело, 2005.

См. также

Ссылки

Личные инструменты