Статистический отчет при создании моделей
Материал из MachineLearning.
|  (→Описание решения) |  (→Описание решения) | ||
| Строка 29: | Строка 29: | ||
| == Описание решения == | == Описание решения == | ||
| - | + | Предполагая,  | |
| - | [[Метод наименьших квадратов| методом наименьших квадратов]]: | + | что матрица ковариации вектора ошибки <tex>\varepsilon = \(\varepsilon_1 <br> \ \vdots\ <br> \varepsilon_l\) </tex> имеет вид  | 
| + | <tex>\sigma^2 V </tex>, | ||
| + | где <tex> V = diag (v_1, \dots, v_l) </tex>,  | ||
| + | получаем выражение для оценки параметров <tex>w</tex> | ||
| + | [[Метод наименьших квадратов| взвешенным методом наименьших квадратов]]: | ||
| - | <tex> \hat w = (X^T X)^{-1} X^T y. </tex> | + | <tex> \hat w = (X^T V^{-1} X)^{-1} X^T V^{-1} y. </tex> | 
| Основными инструментами оценки качества линейной модели является анализ: | Основными инструментами оценки качества линейной модели является анализ: | ||
Версия 18:05, 27 сентября 2011
| 
 | 
В данной работе приведен обзор статистических методов оценивания качества регрессионных моделей, используемых популярными программами машинного обучения и статистической обработки данных. Приведены примеры вычисления и анализа полученных оценок.
Постановка задачи
Имеется пространство объектов-строк  и
пространство ответов 
.
Задана выборка 
.
Обозначеним:
-   матрица информации или матрица плана; 
-   вектор параметров; 
-   целевой вектор. 
Будем считать, что зависимость
,
где     некоторая неслучайная функция, 
   случайная величина, 
с нулевым математически ожиданием.
В моделях многомерной линейной регрессии предполагается, что неслучайная составляющая имеет вид:
.
Требуется численно оценить качество модели при заданном векторе параметров .
Описание решения
Предполагая, 
что матрица ковариации вектора ошибки  имеет вид 
,
где 
, 
получаем выражение для оценки параметров 
 взвешенным методом наименьших квадратов:
Основными инструментами оценки качества линейной модели является анализ:
- регрессионных остатков;
- матрицы частных и получастных корреляций (условные корреляции);
- корреляции и ковариации коэффициентов регрессии;
- статистики Дарбина-Уотсона;
- расстояния Махаланобиса между исходной зависимостью и модельной;
- расстояния Кука (мера изменения прогноза при удалении одного объекта);
- доверительных интервалов для предсказанных значений.
Вычислительный эксперимент
Исходный код и полный текст работы
Смотри также
Литература
|   | Данная статья является непроверенным учебным заданием. 
 До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. | 

