Коэффициент детерминации

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Поменял местами обозначения ESS и RSS чтобы они стали стандартными)
Текущая версия (10:28, 17 декабря 2016) (править) (отменить)
(Ссылки)
 
Строка 52: Строка 52:
* [http://www.forecastingprinciples.com/rulesforcheaters.html Rules for Cheaters: How to Get a High R squared]
* [http://www.forecastingprinciples.com/rulesforcheaters.html Rules for Cheaters: How to Get a High R squared]
* [http://en.wikipedia.org/wiki/Coefficient_of_determination Wikipedia]
* [http://en.wikipedia.org/wiki/Coefficient_of_determination Wikipedia]
-
 
+
* [http://www.datasciencecentral.com/profiles/blogs/beginners-guide-to-regression-analysis-and-plot-interpretations?utm_content=buffer0ebf7&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer Emmanuelle Rieuf: Beginners Guide to Regression Analysis and Plot Interpretations, December 7, 2016.]
[[Категория: Регрессионный анализ]]
[[Категория: Регрессионный анализ]]

Текущая версия

Коэффициент детерминации (R^2 - R-квадрат) — это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью. Более точно — это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной по признакам дисперсии зависимой переменной) в дисперсии зависимой переменной. В случае линейной зависимости R^2 является квадратом так называемого множественного коэффициента корреляции между зависимой переменной и объясняющими переменными. В частности, для модели линейной регрессии с одним признаком x коэффициент детерминации равен квадрату обычного коэффициента корреляции между y и x.

Содержание

Определение и формула

Истинный коэффициент детерминации модели зависимости случайной величины y от признаков x определяется следующим образом:

R^2 =1-\frac {V(y|x)}{V(y)}=1-\frac {\sigma^2}{\sigma^2_y},

где V(y|x)=\sigma^2 — условная (по признакам x) дисперсия зависимой переменной (дисперсия случайной ошибки модели).

В данном определении используются истинные параметры, характеризующие распределение случайных величин. Если использовать выборочную оценку значений соответствующих дисперсий, то получим формулу для выборочного коэффициента детерминации (который обычно и подразумевается под коэффициентом детерминации):

R^2 =1-\frac {\hat{\sigma}^2}{\hat{\sigma}^2_y}=1-\frac {RSS/n}{TSS/n}=1-\frac {RSS} {TSS},

где

RSS=\sum^n_{t=1}e^2_t=\sum^n_{t=1} (y_t-\hat y_t)^2 — сумма квадратов регрессионных остатков,
TSS=\sum^n_{t=1} (y_t-\bar{y})^2=n \hat \sigma^2_y — общая дисперсия,
y_t,\hat y_t — соответственно, фактические и расчетные значения объясняемой переменной,
\bar{y}=\frac{1}{n}\sum_{i=1}^n y_i — выборочное вреднее.

В случае линейной регрессии с константой TSS=RSS+ESS, где ESS=\sum^n_{t=1} (\hat y_t-\bar{y})^2 — объяснённая сумма квадратов, поэтому получаем более простое определение в этом случае. Коэффициент детерминации — это доля объяснённой дисперсии в общей:

R^2=\frac {ESS} {TSS}.

Необходимо подчеркнуть, что эта формула справедлива только для модели с константой, в общем случае необходимо использовать предыдущую формулу.

Интерпретация

  1. Коэффициент детерминации для модели с константой принимает значения от 0 до 1. Чем ближе значение коэффициента к 1, тем сильнее зависимость. При оценке регрессионных моделей это интерпретируется как соответствие модели данным. Для приемлемых моделей предполагается, что коэффициент детерминации должен быть хотя бы не меньше 50% (в этом случае коэффициент множественной корреляции превышает по модулю 70%). Модели с коэффициентом детерминации выше 80% можно признать достаточно хорошими (коэффициент корреляции превышает 90%). Равенство коэффициента детерминации единице означает, что объясняемая переменная в точности описывается рассматриваемой моделью.
  2. При отсутствии статистической связи между объясняемой переменной и признаками статистика nR^2 для линейной регрессии имеет асимптотическое распределение \chi^2(k-1), где k-1 — число признаков в модели. В случае линейной регрессии с независимыми одинаково распределёнными нормальными случайными ошибками статистика F=\frac {R^2/(k-1)}{(1-R^2)/(n-k)} имеет точное (для выборок любого объёма) распределение Фишера F(k-1,n-k). Информация о распределении этих величин позволяет проверить статистическую значимость регрессионной модели исходя из значения коэффициента детерминации. Фактически в этих тестах проверяется гипотеза о равенстве истинного коэффициента детерминации нулю.

Недостатки R^2 и альтернативные показатели

Основная проблема применения (выборочного) R^2 заключается в том, что его значение увеличивается (не уменьшается) от добавления в модель новых переменных, даже если эти переменные никакого отношения к объясняемой переменной не имеют. Поэтому сравнение моделей с разным количеством признаков с помощью коэффициента детерминации, вообще говоря, некорректно. Для этих целей можно использовать альтернативные показатели.

Скорректированный (adjusted) R^2

Для того, чтобы была возможность сравнивать модели с разным числом признаков так, чтобы число регрессоров (признаков) не влияло на статистику R^2 обычно используется скорректированный коэффициент детерминации, в котором используются несмещённые оценки дисперсий:

R_{adj}^2 =1-\frac {s^2}{s^2_y}=1-\frac {RSS/(n-k)}{TSS/(n-1)}=1-(1- R^2) {(n-1) \over (n-k)}\leq R^2,

который даёт штраф за дополнительно включённые признаки, где n — количество наблюдений, а k — количество параметров.

Данный показатель всегда меньше единицы, но теоретически может быть и меньше нуля (только при очень маленьком значении обычного коэффициента детерминации и большом количестве признаков), поэтому интерпретировать его как долю объясняемой дисперсии уже нельзя. Тем не менее, применение показателя в сравнении вполне обоснованно.

Для моделей с одинаковой зависимой переменной и одинаковым объемом выборки сравнение моделей с помощью скорректированного коэффициента детерминации эквивалентно их сравнению с помощью остаточной дисперсии s^2=RSS/(n-k) или стандартной ошибки модели s.

Обобщённый (extended) R^2

В случае отсутствия в линейной множественной МНК регрессии константы свойства коэффициента детерминации могут нарушаться для конкретной реализации. Поэтому модели регрессии со свободным членом и без него нельзя сравнивать по критерию R^2. Эта проблема решается с помощью построения обобщённого коэффициента детерминации R_{ext}^2, который совпадает с исходным для случая МНК регрессии со свободным членом. Суть этого метода заключается рассмотрении проекции единичного вектора на плоскость объясняющих переменных.

Для случая регрессии без свободного члена:

R_{ext}^2 = 1- {Y'*(I-P(X))*Y \over Y'*(I-\pi(X))*Y},

где X — матрица n\times k значений признаков, P(X) = X*(X'*X)^{-1}*X' — проектор на плоскость X, \pi(X) = {P(X)*i_n*i_n'*P(X) \over i_n'*P(X)*i_n}, i_n — единичный вектор n\times 1.

При некоторой модификации R_{ext}^2 также подходит для сравнения между собой регрессионных моделей, построенных с помощью: МНК, обобщённого метода наименьших квадратов (ОМНК), условного метода наименьших квадратов (УМНК), обобщённо-условного метода наименьших квадратов (ОУМНК).

Ссылки

Личные инструменты