Статистический отчет при создании моделей
Материал из MachineLearning.
(→Вычислительный эксперимент) |
(→Вычислительный эксперимент) |
||
Строка 80: | Строка 80: | ||
Отчет, построенный программой: | Отчет, построенный программой: | ||
- | < | + | <code> |
Статистический анализ линейной модели | Статистический анализ линейной модели | ||
Строка 104: | Строка 104: | ||
Коэффициент множественной корреляции равен 3.8029 | Коэффициент множественной корреляции равен 3.8029 | ||
- | </ | + | </code> |
=== Модель №2 === | === Модель №2 === |
Версия 21:17, 14 ноября 2011
|
В данной работе приведен обзор статистических методов оценивания качества регрессионных моделей, используемых популярными программами машинного обучения и статистической обработки данных. Приведены примеры вычисления и анализа полученных оценок.
Постановка задачи
Имеется пространство объектов-строк и пространство ответов . Задана выборка . Обозначеним:
- матрица информации или матрица плана;
- вектор параметров;
- целевой вектор.
Будем считать, что зависимость имеет вид
,
где некоторая неслучайная функция, случайная величина, с нулевым математически ожиданием. В моделях многомерной линейной регрессии предполагается, что неслучайная составляющая имеет вид:
.
Требуется численно оценить качество модели при заданном векторе параметров .
Описание решения
Предполагая, что матрица ковариации вектора ошибки имеет вид , где , получаем выражение для оценки параметров взвешенным методом наименьших квадратов:
Основными инструментами оценки качества линейной модели является анализ:
- регрессионных остатков;
- матрицы частных и получастных корреляций (условные корреляции);
- корреляции и ковариации коэффициентов регрессии;
- статистики Дарбина-Уотсона;
- расстояния Махаланобиса между исходной и модельной зависимостями;
- расстояния Кука (мера изменения прогноза при удалении одного объекта);
- доверительных интервалов для предсказанных значений.
В работе рассматривается
- анализ регрессионных остатков, включающий в себя:
- вычисление среднеквадратичной ошибки:
- вычисление коэффициента детерминации:
где
- проверку гипотезы о равенстве нулю математического ожидания регрессионных остатков на основе критерия знаков;
- проверку гипотезы о равенстве дисперсий (пропорциональности с заданными коэффициентами) регрессионных остатков на основе критерия Ансари-Брэдли;
- проверку гипотезы о нормальности распределения регрессионных остатков на основе критерия хи-квадрат и критерия Жарка-Бера;
- вычисление расстояния Махаланобиса и Кука;
- вычисление корреляций признаков, корреляций признаков и значений моделируемой функции и коэффициента множественной регрессии.
Вычислительный эксперимент
В данном отчете представлены результаты применения созданного инструмента для анализа модели. Отчет состоит из трех экспериментов, демонстрирующих работу инструмента на различных по качеству моделях.
Вставляйте сюда неотформатированный текст.=== Модель №1 ===
Неизвестная зависимость: .
Для построения модели использовалось объектов независимо равномерно распределительных на отрезке В качестве шума использовались независимые случайные величины из распределения В качестве признаков использовались . Параметры модели подбирались с помощью метода наименьших квадратов.
Отчет, построенный программой:
Статистический анализ линейной модели
Среднеквадратичная ошибка: 0.009639 Значение коэффициента детерминации R^2: 0.99999 Расстояние Кука: 1.0086 (соотношение между дисперсиями признаков не заданы пользователем) Расстояние Махаланобиса: 3.1018 (соотношение между дисперсиями признаков не заданы пользователем)
Гипотезу о равенстве нулю математического ожидания регрессионных остатков нельзя отвергнуть при уровне значимости 0.05. Для анализа использован критерий знаков. Значение статистики попало в 0.76418-хвост распределения. Гипотеза о равенстве дисперсий регрессионных остатков отвергнута при уровне значимости 0.05. Для анализа использован критерий Ансари-Брэдли. Значение статистики попало в 0.5466-хвост распределения. Гипотеза о нормальности распределения регрессионных остатков отвергнута при уровне значимости 0.05. Для анализа использован критерий хи-квадрат. Значение статистики попало в 0.05685-хвост распределения. Гипотеза о нормальности распределения регрессионных остатков отвергнута при уровне значимости 0.05. Для анализа использован критерий Жарка-Бера. Значение статистики попало в 0.5-хвост распределения.
Матрица корреляции признаков:
1 0.010935 0.99136
0.010935 1 -0.0061593
0.99136 -0.0061593 1
Вектор корреляции признаков и значений функции:
0.97338
-0.21851
0.96916
Коэффициент множественной корреляции равен 3.8029
Модель №2
Неизвестная зависимость: .
Для построения модели использовалось объектов независимо равномерно распределительных на отрезке В качестве шума использовались независимые случайные величины из распределения В качестве признаков использовались . Параметры модели подбирались с помощью метода наименьших квадратов.
Модель №3
Неизвестная зависимость: .
Для построения модели использовалось объектов независимо равномерно распределительных на отрезке В качестве шума использовались независимые случайные величины из распределения В качестве признаков использовались . Параметры модели подбирались с помощью метода наименьших квадратов.
Исходный код и полный текст работы
Смотри также
Литература
Данная статья является непроверенным учебным заданием.
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |