Статистический отчет при создании моделей
Материал из MachineLearning.
|  (→Описание решения) |  (→Описание решения) | ||
| Строка 52: | Строка 52: | ||
| * анализ регрессионных остатков, включающий в себя: | * анализ регрессионных остатков, включающий в себя: | ||
| ** вычисление среднеквадратичной ошибки:  | ** вычисление среднеквадратичной ошибки:  | ||
| - | <tex>\mathbb{MSE} = \sum_{i=1}^l \left(y_i - f\left(x_i\right)\right)^2</tex> | + | <tex>\mathbb{MSE} = \sum_{i=1}^l \left(y_i - f\left(x_i\right)\right)^2;</tex> | 
| ** вычисление коэффициента детерминации:  | ** вычисление коэффициента детерминации:  | ||
| <tex>\mathbb{R}^2 = 1 - \frac{\sum_{i=1}^l \left(y_i - f\left(x_i\right)\right)^2}{\sum_{i=1}^l \left(y_i - \bar y\right)^2}, </tex> | <tex>\mathbb{R}^2 = 1 - \frac{\sum_{i=1}^l \left(y_i - f\left(x_i\right)\right)^2}{\sum_{i=1}^l \left(y_i - \bar y\right)^2}, </tex> | ||
| - | где <tex>\bar y = \frac{1}{l} \sum_{i=1}^l y_i</tex> | + | где <tex>\bar y = \frac{1}{l} \sum_{i=1}^l y_i;</tex> | 
| - | ** проверку гипотезы о равенстве нулю математического ожидания регрессионных остатков на основе критерия знаков; | + | ** проверку гипотезы о равенстве нулю математического ожидания регрессионных остатков на основе [[Критерий знаков|критерия знаков]]; | 
| ** проверку гипотезы о равенстве дисперсий (пропорциональности с заданными коэффициентами) регрессионных остатков на основе критерия Ансари-Брэдли; | ** проверку гипотезы о равенстве дисперсий (пропорциональности с заданными коэффициентами) регрессионных остатков на основе критерия Ансари-Брэдли; | ||
| ** проверку гипотезы о нормальности распределения регрессионных остатков на основе критерия хи-квадрат и критерия Жарка-Бера;4 | ** проверку гипотезы о нормальности распределения регрессионных остатков на основе критерия хи-квадрат и критерия Жарка-Бера;4 | ||
Версия 19:55, 14 ноября 2011
| 
 | 
В данной работе приведен обзор статистических методов оценивания качества регрессионных моделей, используемых популярными программами машинного обучения и статистической обработки данных. Приведены примеры вычисления и анализа полученных оценок.
Постановка задачи
Имеется пространство объектов-строк  и
пространство ответов 
.
Задана выборка 
.
Обозначеним:
-   матрица информации или матрица плана; 
-   вектор параметров; 
-   целевой вектор. 
Будем считать, что зависимость имеет вид
,
где     некоторая неслучайная функция, 
   случайная величина, 
с нулевым математически ожиданием.
В моделях многомерной линейной регрессии предполагается, что неслучайная составляющая имеет вид:
.
Требуется численно оценить качество модели при заданном векторе параметров .
Описание решения
Предполагая, 
что матрица ковариации вектора ошибки  имеет вид 
,
где 
, 
получаем выражение для оценки параметров 
 взвешенным методом наименьших квадратов:
Основными инструментами оценки качества линейной модели является анализ:
- регрессионных остатков;
- матрицы частных и получастных корреляций (условные корреляции);
- корреляции и ковариации коэффициентов регрессии;
- статистики Дарбина-Уотсона;
- расстояния Махаланобиса между исходной и модельной зависимостями;
- расстояния Кука (мера изменения прогноза при удалении одного объекта);
- доверительных интервалов для предсказанных значений.
В работе рассматривается
-  анализ регрессионных остатков, включающий в себя:
- вычисление среднеквадратичной ошибки:
 
- вычисление коэффициента детерминации:
 
где 
- проверку гипотезы о равенстве нулю математического ожидания регрессионных остатков на основе критерия знаков;
- проверку гипотезы о равенстве дисперсий (пропорциональности с заданными коэффициентами) регрессионных остатков на основе критерия Ансари-Брэдли;
- проверку гипотезы о нормальности распределения регрессионных остатков на основе критерия хи-квадрат и критерия Жарка-Бера;4
 
- вычисление расстояния Махаланобиса и Кука;
- вычисление корреляций признаков, корреляций признаков и значений моделируемой функции и коэффициента множественной регрессии;
- вычисление коэффициента детерминации.
Вычислительный эксперимент
Исходный код и полный текст работы
Смотри также
Литература
|   | Данная статья является непроверенным учебным заданием. 
 До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. | 

