Статистический отчет при создании моделей
Материал из MachineLearning.
(→Описание решения) |
(→Описание решения) |
||
Строка 59: | Строка 59: | ||
** проверку гипотезы о нормальности распределения регрессионных остатков на основе критерия хи-квадрат и критерия [http://en.wikipedia.org/wiki/Jarque%E2%80%93Bera_test Жарка-Бера]; | ** проверку гипотезы о нормальности распределения регрессионных остатков на основе критерия хи-квадрат и критерия [http://en.wikipedia.org/wiki/Jarque%E2%80%93Bera_test Жарка-Бера]; | ||
* вычисление расстояния [http://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%9C%D0%B0%D1%85%D0%B0%D0%BB%D0%B0%D0%BD%D0%BE%D0%B1%D0%B8%D1%81%D0%B0 Махаланобиса] и [http://en.wikipedia.org/wiki/Cook's_distance Кука]; | * вычисление расстояния [http://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%9C%D0%B0%D1%85%D0%B0%D0%BB%D0%B0%D0%BD%D0%BE%D0%B1%D0%B8%D1%81%D0%B0 Махаланобиса] и [http://en.wikipedia.org/wiki/Cook's_distance Кука]; | ||
- | * вычисление корреляций признаков, корреляций признаков и значений моделируемой функции и коэффициента множественной регрессии | + | * вычисление корреляций признаков, корреляций признаков и значений моделируемой функции и коэффициента множественной регрессии. |
- | + | ||
== Вычислительный эксперимент == | == Вычислительный эксперимент == |
Версия 20:11, 14 ноября 2011
|
В данной работе приведен обзор статистических методов оценивания качества регрессионных моделей, используемых популярными программами машинного обучения и статистической обработки данных. Приведены примеры вычисления и анализа полученных оценок.
Постановка задачи
Имеется пространство объектов-строк и пространство ответов . Задана выборка . Обозначеним:
- матрица информации или матрица плана;
- вектор параметров;
- целевой вектор.
Будем считать, что зависимость имеет вид
,
где некоторая неслучайная функция, случайная величина, с нулевым математически ожиданием. В моделях многомерной линейной регрессии предполагается, что неслучайная составляющая имеет вид:
.
Требуется численно оценить качество модели при заданном векторе параметров .
Описание решения
Предполагая, что матрица ковариации вектора ошибки имеет вид , где , получаем выражение для оценки параметров взвешенным методом наименьших квадратов:
Основными инструментами оценки качества линейной модели является анализ:
- регрессионных остатков;
- матрицы частных и получастных корреляций (условные корреляции);
- корреляции и ковариации коэффициентов регрессии;
- статистики Дарбина-Уотсона;
- расстояния Махаланобиса между исходной и модельной зависимостями;
- расстояния Кука (мера изменения прогноза при удалении одного объекта);
- доверительных интервалов для предсказанных значений.
В работе рассматривается
- анализ регрессионных остатков, включающий в себя:
- вычисление среднеквадратичной ошибки:
- вычисление коэффициента детерминации:
где
- проверку гипотезы о равенстве нулю математического ожидания регрессионных остатков на основе критерия знаков;
- проверку гипотезы о равенстве дисперсий (пропорциональности с заданными коэффициентами) регрессионных остатков на основе критерия Ансари-Брэдли;
- проверку гипотезы о нормальности распределения регрессионных остатков на основе критерия хи-квадрат и критерия Жарка-Бера;
- вычисление расстояния Махаланобиса и Кука;
- вычисление корреляций признаков, корреляций признаков и значений моделируемой функции и коэффициента множественной регрессии.
Вычислительный эксперимент
Исходный код и полный текст работы
Смотри также
Литература
Данная статья является непроверенным учебным заданием.
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |