Коэффициент детерминации

Материал из MachineLearning.

Перейти к: навигация, поиск

Коэффициентом детерминации, R^2, называется величина, показывающая, какая доля дисперсии выборки определяется параметрами выбранной модели.

Определение

Существует несколько альтернативных определений коэффициента детерминации, однако в случае линейной регрессии все они эквивалентны: R^2 тогда равен квадрату коэффициента корреляции.

Пусть выборка имеет значения y_i, и ей соответствуют модельные данные f_i; \bar{y} и \bar{f} - средние значения наблюдаемых и модельных данных. Тогда введем следующие обозначения:

SS_{\rm tot}=\sum_i (y_i-\bar{y})^2, общая сумма квадратов отклонения (пропорциональная дисперсии);

SS_{\rm reg}=\sum_i ({f_i}-\bar{f})^2, регрессионная сумма квадратов отклонений (объяснимая моделью);

SS_{\rm err}=\sum_i (y_i - {f}_i)^2\,, сумма квадратов ошибок.

Общее определение коэффициента детерминированности:

R^2 \equiv 1 - {SS_{\rm err}\over SS_{\rm tot}}.\,

Дробь {SS_{\rm err}\over SS_{\rm tot}} показывает отношение не объясненных моделью вариаций к общим вариациям, так что введенное таким образом определение ясно отражает суть понятия коэффициент детерминации.

Интерпретация

R^2 содержит информацию о том, насколько хорошо модель подходит под исходные данные. Например, в случае решения задачи регрессии коэффициент детерминации покажет, насколько график модельных значений совпадает с графиком наблюдаемых значений: если R^2 = 1, то эти графики совпадают. Однако само по себе значение коэффициента детерминированности не может свидетельствовать о том, что модель выбрана правильно.

Ссылки

Личные инструменты