Статистический отчет при создании моделей

Материал из MachineLearning.

(Различия между версиями)

Текущая версия

Содержание

1 Постановка задачи
2 Описание решения
3 Вычислительный эксперимент
4 Исходный код и полный текст работы
5 Смотри также
6 Литература

В данной работе приведен обзор статистических методов оценивания качества регрессионных моделей, используемых популярными программами машинного обучения и статистической обработки данных. Приведены примеры вычисления и анализа полученных оценок.

Постановка задачи

Имеется пространство объектов-строк $\mathbb{X} = \mathbb{R}^n$ и пространство ответов $\mathbb{Y} = \mathbb{R}$ . Задана выборка $(x_i,\ y_i)_{i=1}^l \in \mathbb{X} \times \mathbb{Y}$ . Обозначеним:

$X = $x_1 \ \vdots\ x_l$$ — матрица информации или матрица плана;
$w = $w_1 \ \vdots w_n$$ — вектор параметров;
$y = $y_1 \ \vdots y_l$$ — целевой вектор.

Будем считать, что зависимость имеет вид

$y(x) = f(x) + \varepsilon(x)$ ,

где $f(x)$ — некоторая неслучайная функция, $\varepsilon(x)$ — случайная величина, с нулевым математически ожиданием. В моделях предполагается, что неслучайная составляющая имеет вид:

$f(x) = <w, \ x>$ — в многомерной линейной регрессии;

$f(x) = \sigma(<w, \ x>), \; \sigma(z) = \frac{1}{1 + \exp(-z)}$ и $\mathbb{Y} = [0,1]$ — в логистической регрессии.

Требуется численно оценить качество модели при заданном векторе параметров $w$ .

Описание решения

Предполагая, что матрица ковариации вектора ошибки $\varepsilon = $\varepsilon_1 \ \vdots\ \varepsilon_l$$ имеет вид $\sigma^2 V$ , где $V = diag (v_1, \dots, v_l)$ ( $V$ может быть задана пользователем, иначе выбирается единичная матрица), получаем выражение для оценки параметров $w$ взвешенным методом наименьших квадратов:

$\hat w = (X^T V^{-1} X)^{-1} X^T V^{-1} y.$

Основными инструментами оценки качества линейной модели является анализ:

регрессионных остатков;
матрицы частных и получастных корреляций (условные корреляции);
корреляции и ковариации коэффициентов регрессии;
статистики Дарбина-Уотсона;
расстояния Махаланобиса между исходной и модельной зависимостями;
расстояния Кука (мера изменения прогноза при удалении одного объекта);
доверительных интервалов для предсказанных значений.

Для оценки качества модели линейной регрессии в работе рассматривается

анализ регрессионных остатков, включающий в себя:
- вычисление среднеквадратичной ошибки:

$\mathbb{MSE} = \sum_{i=1}^l \left(y_i - f\left(x_i\right)\right)^2;$

- вычисление коэффициента детерминации:

$\mathbb{R}^2 = 1 - \frac{\sum_{i=1}^l \left(y_i - f\left(x_i\right)\right)^2}{\sum_{i=1}^l \left(y_i - \bar y\right)^2},$ где $\bar y = \frac{1}{l} \sum_{i=1}^l y_i;$

- проверку гипотезы о равенстве нулю математического ожидания регрессионных остатков на основе критерия знаков;
- проверку гипотезы о равенстве дисперсий (пропорциональности с заданными коэффициентами) регрессионных остатков на основе критерия Ансари-Брэдли;
- проверку гипотезы о нормальности распределения регрессионных остатков на основе критерия хи-квадрат и критерия Жарка-Бера;
вычисление расстояния Махаланобиса и Кука;
вычисление корреляций признаков, корреляций признаков и значений моделируемой функции и коэффициента множественной регрессии.

Для оценки качества модели логистической регрессии в работе рассматриваются оценки

дисперсии шума модели;
корреляции и ковариации коэффициентов регрессии;
значимости компонент пространства объектов для восстановления ответов;

Вычислительный эксперимент

В данном отчете представлены результаты применения созданного инструмента для анализа модели. Отчет состоит из пяти экспериментов, демонстрирующих работу инструмента на различных по качеству моделях. Модели 1-3 приведены для линейной регрессии, 4-5 — для логистической.

Модель №1

Неизвестная зависимость: $y(x) = x - 10 \sin(x) + \exp(x / 100)$ .

Для построения модели использовалось $100$ объектов независимо равномерно распределительных на отрезке $[0, 100].$ В качестве шума использовались независимые случайные величины из распределения $N(0, \; 0,1).$ В качестве признаков использовались $x, \; \sin(x), \;\exp(x / 100)$ . Параметры модели подбирались с помощью метода наименьших квадратов.

Отчет, построенный программой:

отчет №1.

Модель №2

Неизвестная зависимость: $y(x) = x - 10 \sin(x) + \exp(x / 100)$ .

Для построения модели использовалось $100$ объектов независимо равномерно распределительных на отрезке $[0, 100].$ В качестве шума использовались независимые случайные величины из распределения $N(0, \; 0,1).$ В качестве признаков использовались $x, \;\exp(x / 100)$ . Параметры модели подбирались с помощью метода наименьших квадратов.

Отчет, построенный программой:

отчет №2.

Модель №3

Неизвестная зависимость: $y(x) = x - 10 \sin(x) + \exp(x / 100)$ .

Для построения модели использовалось $100$ объектов независимо равномерно распределительных на отрезке $[0, 100].$ В качестве шума использовались независимые случайные величины из распределения $N(0, \; x).$ В качестве признаков использовались $y(x) = x - 10 \sin(x) + \exp(x / 100)$ . Параметры модели подбирались с помощью метода наименьших квадратов.

Модель №4

Неизвестная зависимость: $y(x) = I(x > 0),$ . где $I(A)$ — индикаторная функция множества $A$ .

Для построения модели использовалось $20$ объектов из равномерной сетки. Значение в одной из обучающих точек сильно зашумлено. В качестве признаков использовались константа, $x$ .

Отчет, построенный программой:

отчет №4.

Модель №5

Неизвестная зависимость: $y(x) = I(x > 0),$ . где $I(A)$ — индикаторная функция множества $A$ .

Отчет, построенный программой:

отчет №5.

Исходный код и полный текст работы

Функция, строящая отчет, и примеры.

Смотри также

Литература

Bishop, C. Pattern Recognition And Machine Learning. Springer. 2006.
Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
Лагутин М. Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
Hosmer W. D. , Lemeshow S. Applied logistic regression - New York: John Wiley & Sons, 2000.

Данная статья была создана в рамках учебного задания.

Студент: Юрий Янович

Преподаватель: В.В. Стрижов

Срок: 28 мая 2009

В настоящее время задание завершено и проверено. Данная страница может свободно правиться другими участниками проекта MachineLearning.ru.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A1%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%BE%D1%82%D1%87%D0%B5%D1%82_%D0%BF%D1%80%D0%B8_%D1%81%D0%BE%D0%B7%D0%B4%D0%B0%D0%BD%D0%B8%D0%B8_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B5%D0%B9»

Категории: Практика и вычислительные эксперименты | Регрессионный анализ

@@ Строка 25: / Строка 25: @@
 * <tex> f(x) = <w, \ x> </tex> &nbsp;&#151; в [[Многомерная линейная регрессия|многомерной линейной регрессии]];
-* <tex> f(x) = \sigma(<w, \ x>), \; \sigma(z) = \frac{1}{1 + \exp(-z)} </tex> &nbsp;&#151; в [[Логистическая регрессия|логистической регрессии]] ;
+* <tex> f(x) = \sigma(<w, \ x>), \; \sigma(z) = \frac{1}{1 + \exp(-z)} </tex> и <tex>\mathbb{Y} = [0,1]</tex> &nbsp;&#151; в [[Логистическая регрессия|логистической регрессии]].
-* <tex> f(x) = \mu^{-1}(<w, \ x>),</tex> где <tex>\mu</tex> &nbsp;&#151;  некоторая непрерывная обратимая функция, &nbsp;&#151; в обобщенно-линейных моделях.
 Требуется численно оценить качество модели при заданном векторе параметров <tex> w</tex>.
@@ Строка 42: / Строка 40: @@
 <tex> \hat w = (X^T V^{-1} X)^{-1} X^T V^{-1} y. </tex>
 Основными инструментами оценки качества линейной модели является анализ:
@@ Строка 52: / Строка 51: @@
 * [[Доверительный интервал|доверительных интервалов]] для предсказанных значений.
-В работе рассматривается
+Для оценки качества модели линейной регрессии в работе рассматривается
 * анализ регрессионных остатков, включающий в себя:
@@ Строка 65: / Строка 64: @@
 * вычисление расстояния [http://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%9C%D0%B0%D1%85%D0%B0%D0%BB%D0%B0%D0%BD%D0%BE%D0%B1%D0%B8%D1%81%D0%B0 Махаланобиса] и [http://en.wikipedia.org/wiki/Cook's_distance Кука];
 * вычисление корреляций признаков, корреляций признаков и значений моделируемой функции и коэффициента множественной регрессии.
+Для оценки качества модели логистической регрессии в работе рассматриваются оценки
+* дисперсии шума модели;
+* корреляции и ковариации коэффициентов регрессии;
+* значимости компонент пространства объектов для восстановления ответов;
 == Вычислительный эксперимент ==
 В данном отчете представлены результаты применения созданного инструмента для анализа модели.
-Отчет состоит из трех экспериментов, демонстрирующих работу инструмента на различных по качеству моделях.
+Отчет состоит из пяти экспериментов, демонстрирующих работу инструмента на различных по качеству моделях.
+Модели 1-3 приведены для линейной регрессии, 4-5 &nbsp;&#151; для логистической.
 === Модель №1 ===
@@ Строка 85: / Строка 91: @@
 Отчет, построенный программой:
-[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Yanovich2011StatModelAnalisys/simpleExampleGoodModel.txt отчет №1.]
+[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Yanovich2011StatModel/simpleExampleGoodModel.txt отчет №1.]
 === Модель №2 ===
@@ Строка 101: / Строка 107: @@
 Отчет, построенный программой:
-[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Yanovich2011StatModelAnalisys/simpleExampleBadModel.txt отчет №2.]
+[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Yanovich2011StatModel/simpleExampleBadModel.txt отчет №2.]
 === Модель №3 ===
@@ Строка 113: / Строка 119: @@
 Параметры модели подбирались с помощью метода наименьших квадратов.
-[[image:statModelAnalisys03.png]]
+=== Модель №4 ===
+Неизвестная зависимость:
+<tex> y(x) = I(x > 0), </tex>.
+где <tex> I(A) </tex> &nbsp;&#151; индикаторная функция множества <tex> A </tex>.
+Для построения модели использовалось <tex>20</tex> объектов из равномерной сетки.
+Значение в одной из обучающих точек сильно зашумлено.
+В качестве признаков использовались константа, <tex> x </tex>.
+[[image:statModelAnalisys04.png]]
+Отчет, построенный программой:
+[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Yanovich2011StatModel/logisticGoodModel.txt отчет №4.]
+=== Модель №5 ===
+Неизвестная зависимость:
+<tex> y(x) = I(x > 0), </tex>.
+где <tex> I(A) </tex> &nbsp;&#151; индикаторная функция множества <tex> A </tex>.
+Для построения модели использовалось <tex>20</tex> объектов из равномерной сетки.
+Значение в одной из обучающих точек сильно зашумлено.
+В качестве признаков использовались константа, <tex> x </tex> и шумовой признак (порожден стандартным нормальным распределением).
+[[image:statModelAnalisys05.png]]
 Отчет, построенный программой:
-[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Yanovich2011StatModelAnalisys/example.txt отчет №3.]
+[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Yanovich2011StatModel/logisticBadModel.txt отчет №5.]
 == Исходный код и полный текст работы ==
-[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Yanovich2011StatModelAnalisys Функция, строящая отчет, и примеры.]
+[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Yanovich2011StatModel Функция, строящая отчет, и примеры.]
 == Смотри также ==
@@ Строка 131: / Строка 163: @@
 # ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006.
 # ''Лагутин М. Б.'' Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
+# ''Hosmer W. D. ,  Lemeshow S.'' Applied logistic regression - New York: John Wiley & Sons, 2000.
-{{Задание|Юрий Янович|В.В. Стрижов|28 мая 2009|Aurelius|Strijov}}
+{{ЗаданиеВыполнено|Юрий Янович|В.В. Стрижов|28 мая 2009|Aurelius|Strijov}}
 [[Категория:Практика и вычислительные эксперименты]]
 [[Категория:Регрессионный анализ]]

Статистический отчет при создании моделей

Материал из MachineLearning.

Текущая версия

Содержание

Постановка задачи

Описание решения

Вычислительный эксперимент

Модель №1

Модель №2

Модель №3

Модель №4

Модель №5

Исходный код и полный текст работы

Смотри также

Литература

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты