Статистический отчет при создании моделей
Материал из MachineLearning.
(→Постановка задачи) |
(→Описание решения) |
||
Строка 40: | Строка 40: | ||
<tex> \hat w = (X^T V^{-1} X)^{-1} X^T V^{-1} y. </tex> | <tex> \hat w = (X^T V^{-1} X)^{-1} X^T V^{-1} y. </tex> | ||
+ | |||
Основными инструментами оценки качества линейной модели является анализ: | Основными инструментами оценки качества линейной модели является анализ: | ||
Строка 50: | Строка 51: | ||
* [[Доверительный интервал|доверительных интервалов]] для предсказанных значений. | * [[Доверительный интервал|доверительных интервалов]] для предсказанных значений. | ||
- | + | Для оценки качества модели линейной регрессии в работе рассматривается | |
* анализ регрессионных остатков, включающий в себя: | * анализ регрессионных остатков, включающий в себя: | ||
Строка 63: | Строка 64: | ||
* вычисление расстояния [http://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%9C%D0%B0%D1%85%D0%B0%D0%BB%D0%B0%D0%BD%D0%BE%D0%B1%D0%B8%D1%81%D0%B0 Махаланобиса] и [http://en.wikipedia.org/wiki/Cook's_distance Кука]; | * вычисление расстояния [http://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%9C%D0%B0%D1%85%D0%B0%D0%BB%D0%B0%D0%BD%D0%BE%D0%B1%D0%B8%D1%81%D0%B0 Махаланобиса] и [http://en.wikipedia.org/wiki/Cook's_distance Кука]; | ||
* вычисление корреляций признаков, корреляций признаков и значений моделируемой функции и коэффициента множественной регрессии. | * вычисление корреляций признаков, корреляций признаков и значений моделируемой функции и коэффициента множественной регрессии. | ||
+ | |||
+ | Для оценки качества модели логистической регрессии используют: | ||
+ | |||
+ | * оценку дисперсии шума модели; | ||
+ | * корреляции и ковариации коэффициентов регрессии; | ||
+ | * оценку значимости компонент пространства объектов для восстановления ответов; | ||
== Вычислительный эксперимент == | == Вычислительный эксперимент == |
Версия 01:51, 30 января 2012
|
В данной работе приведен обзор статистических методов оценивания качества регрессионных моделей, используемых популярными программами машинного обучения и статистической обработки данных. Приведены примеры вычисления и анализа полученных оценок.
Постановка задачи
Имеется пространство объектов-строк и пространство ответов . Задана выборка . Обозначеним:
- матрица информации или матрица плана;
- вектор параметров;
- целевой вектор.
Будем считать, что зависимость имеет вид
,
где некоторая неслучайная функция, случайная величина, с нулевым математически ожиданием. В моделях предполагается, что неслучайная составляющая имеет вид:
- и в логистической регрессии.
Требуется численно оценить качество модели при заданном векторе параметров .
Описание решения
Предполагая, что матрица ковариации вектора ошибки имеет вид , где ( может быть задана пользователем, иначе выбирается единичная матрица), получаем выражение для оценки параметров взвешенным методом наименьших квадратов:
Основными инструментами оценки качества линейной модели является анализ:
- регрессионных остатков;
- матрицы частных и получастных корреляций (условные корреляции);
- корреляции и ковариации коэффициентов регрессии;
- статистики Дарбина-Уотсона;
- расстояния Махаланобиса между исходной и модельной зависимостями;
- расстояния Кука (мера изменения прогноза при удалении одного объекта);
- доверительных интервалов для предсказанных значений.
Для оценки качества модели линейной регрессии в работе рассматривается
- анализ регрессионных остатков, включающий в себя:
- вычисление среднеквадратичной ошибки:
- вычисление коэффициента детерминации:
где
- проверку гипотезы о равенстве нулю математического ожидания регрессионных остатков на основе критерия знаков;
- проверку гипотезы о равенстве дисперсий (пропорциональности с заданными коэффициентами) регрессионных остатков на основе критерия Ансари-Брэдли;
- проверку гипотезы о нормальности распределения регрессионных остатков на основе критерия хи-квадрат и критерия Жарка-Бера;
- вычисление расстояния Махаланобиса и Кука;
- вычисление корреляций признаков, корреляций признаков и значений моделируемой функции и коэффициента множественной регрессии.
Для оценки качества модели логистической регрессии используют:
- оценку дисперсии шума модели;
- корреляции и ковариации коэффициентов регрессии;
- оценку значимости компонент пространства объектов для восстановления ответов;
Вычислительный эксперимент
В данном отчете представлены результаты применения созданного инструмента для анализа модели. Отчет состоит из трех экспериментов, демонстрирующих работу инструмента на различных по качеству моделях.
Модель №1
Неизвестная зависимость: .
Для построения модели использовалось объектов независимо равномерно распределительных на отрезке В качестве шума использовались независимые случайные величины из распределения В качестве признаков использовались . Параметры модели подбирались с помощью метода наименьших квадратов.
Отчет, построенный программой:
Модель №2
Неизвестная зависимость: .
Для построения модели использовалось объектов независимо равномерно распределительных на отрезке В качестве шума использовались независимые случайные величины из распределения В качестве признаков использовались . Параметры модели подбирались с помощью метода наименьших квадратов.
Отчет, построенный программой:
Модель №3
Неизвестная зависимость: .
Для построения модели использовалось объектов независимо равномерно распределительных на отрезке В качестве шума использовались независимые случайные величины из распределения В качестве признаков использовались . Параметры модели подбирались с помощью метода наименьших квадратов.
Отчет, построенный программой:
Исходный код и полный текст работы
Функция, строящая отчет, и примеры.
Смотри также
Литература
- Bishop, C. Pattern Recognition And Machine Learning. Springer. 2006.
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
- Лагутин М. Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
Данная статья является непроверенным учебным заданием.
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |