Регрессионный анализ

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
Строка 1: Строка 1:
-
'''Регрессионный анализ''' — метод моделирования измеряемых данных и исследования их свойств.
+
== Links ==
-
Данные состоят из пар значений '''зависимой переменной''' (переменной отклика)
+
* [http://www.optimaweb.co.id Internet Marketing]
-
и '''независимой переменной''' (объясняющей переменной).
+
-
[[Регрессионная модель]] есть функция независимой переменной и параметров с добавленной [[случайная переменная|случайной переменной]].
+
-
Параметры модели настраиваются таким образом, что модель наилучшим образом приближает данные.
+
-
Критерием качества приближения (целевой функцией) обычно является [[среднеквадратичная ошибка]]: сумма квадратов разности значений
+
-
модели и зависимой переменной для всех значений независимой переменной в качестве аргумента.
+
-
Регрессионный анализ — раздел [[математическая статистика|математической статистики]] и [[машинное обучение|машинного обучения]].
+
-
Предполагается, что зависимая переменная есть сумма значений некоторой модели и [[случайная величина|случайной величины]].
+
-
Относительно характера распределения этой величины делаются предположения, называемые гипотезой порождения данных.
+
-
Для подтверждения или опровержения этой гипотезы выполняются [[статистический тест|статистические тесты]],
+
-
называемые [[анализ остатков|анализом остатков]].
+
-
При этом предполагается, что независимая переменная не содержит ошибок.
+
-
Регрессионный анализ используется для [[прогноз|прогноза]], [[анализ временных рядов|анализа временных рядов]],
+
-
[[тестирование гипотез|тестирования гипотез]] и выявления скрытых взаимосвязей в данных.
+
-
== Определение регрессионного анализа ==
+
== Regression Analysis ==
-
[[Изображение:Regression_Analysis_Regression.gif|frame|right|Выборка может быть не функцией, а отношением. Например, данные для
+
In statistics, regression analysis is a statistical technique for estimating the relationships among variables. It includes many techniques for modeling and analyzing several variables, when the focus is on the relationship between a dependent variable and one or more independent variables. More specifically, regression analysis helps one understand how the typical value of the dependent variable changes when any one of the independent variables is varied, while the other independent variables are held fixed. Most commonly, regression analysis estimates the conditional expectation of the dependent variable given the independent variables — that is, the average value of the dependent variable when the independent variables are fixed. Less commonly, the focus is on a quantile, or other location parameter of the conditional distribution of the dependent variable given the independent variables. In all cases, the estimation target is a function of the independent variables called the regression function. In regression analysis, it is also of interest to characterize the variation of the dependent variable around the regression function, which can be described by a probability distribution.
-
построения регрессии могут быть такими: <tex>\{(0,0),(0,1),(0,2),(1,1),(1,2),(1,3)\}</tex>. В такой выборке одному значению
+
-
переменной&nbsp;<tex>x</tex> соответствует несколько значений переменной&nbsp;<tex>y</tex>.]]
+
-
Регрессия&nbsp;&#151; зависимость [[математическое ожидание|математического ожидания]] (например, среднего значения)
+
Regression analysis is widely used for prediction and forecasting, where its use has substantial overlap with the field of machine learning. Regression analysis is also used to understand which among the independent variables are related to the dependent variable, and to explore the forms of these relationships. In restricted circumstances, regression analysis can be used to infer causal relationships between the independent and dependent variables. However this can lead to illusions or false relationships, so caution is advisable:[1] See correlation does not imply causation.
-
случайной величины от одной или нескольких других случайных величин (свободных переменных),
+
-
то есть <tex>E(y|\mathbf{x})=f(\mathbf{x})</tex>.
+
-
Регрессионным анализом называется поиск такой функции&nbsp;<tex>f</tex>, которая описывает эту зависимость.
+
-
Регрессия может быть представлена в виде суммы неслучайной и случайной составляющих.
+
-
<center><tex> y=f(\mathbf{x})+\nu, </tex></center>
+
-
где&nbsp;<tex>f</tex>&nbsp;&#151; функция регрессионной зависимости, а&nbsp;<tex>\nu</tex>&nbsp;&#151; аддитивная случайная величина с нулевым матожиданием.
+
-
Предположение о характере распределения этой величины называется&nbsp;[[гипотеза порождения данных|гипотезой порождения данных]].
+
-
Обычно предполагается, что величина&nbsp;<tex>\nu</tex> имеет [[гауссово распределение]] с нулевым средним и дисперсией&nbsp;<tex>\sigma^2_\nu</tex>.
+
-
Задача нахождения регрессионной модели нескольких свободных переменных ставится следующим образом.
+
A large body of techniques for carrying out regression analysis has been developed. Familiar methods such as linear regression and ordinary least squares regression are parametric, in that the regression function is defined in terms of a finite number of unknown parameters that are estimated from the data. Nonparametric regression refers to techniques that allow the regression function to lie in a specified set of functions, which may be infinite-dimensional.
-
Задана [[выборка]]&nbsp;&#151; множество <tex>\{\mathbf{x}_1,...,\mathbf{x}_N|\mathbf{x}\in\mathbb{R}^M\}</tex> значений свободных
+
-
переменных и множество <tex>\{y_1,...,y_N| y\in\mathbb{R}\}</tex> соответствующих им значений зависимой переменной.
+
-
Эти множества обозначаются как&nbsp;<tex>D</tex>, множество исходных данных&nbsp;<tex>\{(\mathbf{x},y)_i\}</tex>.
+
-
Задана [[регрессионная модель]]&nbsp;&#151; параметрическое семейство функций&nbsp;<tex>f(\mathbf{w},\mathbf{x})</tex> зависящая от параметров&nbsp;<tex>\mathbf{w}\in\mathbb{R}</tex> и свободных переменных&nbsp;<tex>\mathbf{x}</tex>.
+
-
Требуется найти наиболее вероятные параметры&nbsp;<tex>\bar{\mathbf{w}}</tex>:
+
-
<center><tex>\bar{\mathbf{w}}=\arg\max\limits_{\mathbf{w}\in\mathbb{R}^W}p(y|x,\mathbf{w},f)=p(D|\mathbf{w},f).</tex></center>
+
-
Функция вероятности <tex>p</tex> зависит от гипотезы порождения данных и задается [[Байесовский вывод|Байесовским выводом]] или [[метод наибольшего правдоподобия|методом наибольшего правдоподобия]].
+
-
== Линейная регрессия ==
+
The performance of regression analysis methods in practice depends on the form of the data generating process, and how it relates to the regression approach being used. Since the true form of the data-generating process is generally not known, regression analysis often depends to some extent on making assumptions about this process. These assumptions are sometimes testable if many data are available. Regression models for prediction are often useful even when the assumptions are moderately violated, although they may not perform optimally. However, in many applications, especially with small effects or questions of causality based on observational data, regression methods can give misleading results.[2][3]
-
{{main|Многомерная линейная регрессия}}
+
-
 
+
-
Линейная регрессия предполагает, что функция&nbsp;<tex>f</tex> зависит от параметров&nbsp;<tex>\mathbf{w}</tex> линейно.
+
-
При этом линейная зависимость от свободной переменной&nbsp;<tex>\mathbf{x}</tex> необязательна,
+
-
<center><tex> y=f(\mathbf{w},\mathbf{x})+\nu=\sum_{j=1}^N w_jg_j(\mathbf{x})+\nu. </tex></center>
+
-
В случае, когда функция&nbsp;<tex>g\equiv\text{id}</tex> линейная регрессия имеет вид
+
-
<center><tex> y=\sum_{j=1}^N w_jx_j+\nu=\langle\mathbf{w},\mathbf{x}\rangle +\nu, </tex></center>
+
-
здесь&nbsp;<tex>x_j</tex>&nbsp;&#151; компоненты вектора&nbsp;<tex>\mathbf{x}</tex>.
+
-
 
+
-
Значения параметров в случае линейной регрессии находят с помощью [[метод наименьших квадратов|метода наименьших квадратов]].
+
-
Использование этого метода обосновано предположением о [[гауссовское распределение|гауссовском распределении]] случайной переменной.
+
-
 
+
-
Разности <tex>y_i-f(\mathbf{x}_i)</tex> между фактическими значениями зависимой переменной и восстановленными называются '''регрессионными остатками''' (residuals). В литературе используются также синонимы: ''невязки'' и ''ошибки''.
+
-
Одной из важных оценок критерия качества полученной зависимости является сумма квадратов остатков:
+
-
<center><tex>SSE=\|f(\mathbf{x}_i)-y_i\|_2=\sum_{i=1}^N(y_i-f(\mathbf{w},\mathbf{x}_i))^2.</tex></center>
+
-
Здесь&nbsp;<tex>SSE</tex>&nbsp;&#151; Sum of Squared Errors.
+
-
 
+
-
Дисперсия остатков вычисляется по формуле
+
-
<center><tex>\bar{\sigma}^2_\nu=\frac{SSE}{N-2}=MSE.</tex></center>
+
-
Здесь&nbsp;<tex>MSE</tex>&nbsp;&#151; Mean Square Error, среднеквадратичная ошибка.
+
-
 
+
-
<table><tr><td>
+
-
[[Изображение:Regression_Analysis_Linear.gif]]
+
-
</td><td>
+
-
[[Изображение:Regression_Analysis_Quadratic.gif]]
+
-
</td></tr></table>
+
-
 
+
-
На графиках представлены выборки, обозначенные синими точками, и регрессионные зависимости, обозначенные сплошными линиями.
+
-
По оси абсцисс отложена свободная переменная, а по оси ординат&nbsp;&#151; зависимая.
+
-
Все три зависимости линейны относительно параметров.
+
-
 
+
-
== Нелинейная регрессия ==
+
-
{{main|Нелинейная регрессия}}
+
-
 
+
-
Нелинейные регрессионные модели — [[регрессионная модель|модели]] вида
+
-
::<tex>y=f(\mathbf{w},\mathbf{x})+\nu,</tex>
+
-
которые не могут быть представлены в виде скалярного произведения
+
-
::<tex>f(\mathbf{w},\mathbf{x})=(\mathbf{w},\mathbf{g}(\mathbf{x}))=\sum_{i=1}^n w_i g_i(\mathbf{x}),</tex>
+
-
где <tex>\mathbf{w}=[w_1,\ldots, w_n]</tex>&nbsp;— параметры регрессионной модели,
+
-
<tex>\mathbf{x}</tex>&nbsp;— свободная переменная из пространства&nbsp;<tex>\mathbb{R}^n</tex>, <tex>y</tex>&nbsp;— зависимая переменная,
+
-
<tex>\nu</tex>&nbsp;— случайная величина и&nbsp;<tex>\mathbf{g}=[g_1,\ldots, g_n]</tex>&nbsp;— функция из некоторого
+
-
заданного множества.
+
-
 
+
-
Значения параметров в случае нелинейной регрессии находят с помощью одного из методов градиентного спуска, например [[алгоритм Левенберга-Марквардта|алгоритма Левенберга-Марквардта]].
+
-
 
+
-
== О терминах ==
+
-
Термин "регрессия" был введён Фрэнсисом Гальтоном в конце 19-го века.
+
-
Гальтон обнаружил, что дети родителей с высоким или низким ростом обычно не наследуют выдающийся рост и назвал этот
+
-
феномен "регрессия к посредственности".
+
-
Сначала этот термин использовался исключительно в биологическом смысле.
+
-
После работ Карла Пирсона этот термин стали использовать и в статистике.
+
-
 
+
-
[[Изображение:Regression_Analysis_Approximation.gif|frame|right|Аппроксимация функций: непрерывная функция&nbsp;<tex>f</tex> приближает
+
-
непрерывную или дискретную функцию&nbsp;<tex>u</tex>]]
+
-
 
+
-
В статистической литературе различают регрессию с участием одной свободной переменной и с несколькими свободными переменными&nbsp;&#151;
+
-
<i>одномерную</i> и <i>многомерную</i> регрессию.
+
-
Предполагается, что мы используем несколько свободных переменных,
+
-
то есть, свободная переменная&nbsp;&#151; вектор <tex>\mathbf{x}\in\R^N</tex>.
+
-
В частных случаях, когда свободная переменная является скаляром,
+
-
она будет обозначаться&nbsp;<tex>x</tex>.
+
-
Различают <i>линейную</i> и <i>нелинейную</i> регрессию.
+
-
Если регрессионную модель не является линейной комбинацией функций
+
-
от параметров, то говорят о нелинейной регрессии.
+
-
При этом модель может быть произвольной суперпозицией функций <tex>g</tex> из некоторого набора.
+
-
Нелинейными моделями являются, экспоненциальные,
+
-
тригонометрические и другие (например, радиальные базисные функции или персептрон Розенблатта),
+
-
полагающие зависимость между параметрами и зависимой переменной нелинейной.
+
-
 
+
-
Различают <i>параметрическую</i> и <i>непараметрическую</i> регрессию.
+
-
Строгую границу между этими двумя типами регрессий провести сложно.
+
-
Сейчас нет существует общепринятого критерия отличия одного типа моделей от другого.
+
-
Например, считается, что линейные модели являются параметрическими, а модели, включающие усреднение зависимой переменной по пространству свободной переменной&nbsp;&#151;непараметрическими.
+
-
Пример параметрической регресионной модели: линейный предиктор, многослойный персептрон.
+
-
Примеры смешанной регрессионной модели: функции радиального базиса.
+
-
Непараметрическая модель&nbsp;&#151; скользящее усреднение в окне некоторой ширины.
+
-
В целом, непараметрическая регрессия отличается от параметрической тем,
+
-
что зависимая переменная зависит не от одного значения свободной переменной,
+
-
а от некоторой заданной окрестности этого значения.
+
-
 
+
-
[[Изображение:Regression_Analysis_Interpolation.gif|frame|right|Интерполяция: функция&nbsp;<tex>f</tex> задана значениями узловых точек]]
+
-
 
+
-
Есть различие между терминами: "приближение функций", "аппроксимация", "интерполяция", и "регрессия".
+
-
Оно заключается в следующем.
+
-
 
+
-
<i>Приближение функций.</i> Дана функция&nbsp;<tex>u</tex> дискретного или непрерывного аргумента.
+
-
Требуется найти функцию&nbsp;<tex>f</tex> из некоторого параметрическую семейства, например, среди алгебраических
+
-
полиномов заданной степени. Параметры функции&nbsp;&nbsp;<tex>f</tex> должны
+
-
доставлять минимум некоторому функционалу, например,
+
-
<center><tex>\rho(u,f)=\left(\frac{1}{b-a}\int_a^b|f(x)-g(x)|^2dx\right)^{\frac{1}{2}}.</tex></center>
+
-
 
+
-
Термин <i>аппроксимация</i>&nbsp;&#151; синоним термина "приближение функций".
+
-
Чаще используется тогда, когда речь идет о заданной функции, как о функции дискретного аргумента.
+
-
Здесь также требуется отыскать такую функцию&nbsp;<tex>f</tex>, которая проходит наиболее близко ко всем точкам заданной функции.
+
-
При этом вводится понятие <i>невязки</i>&nbsp;&#151; расстояния между точками непрерывной функции&nbsp;<tex>f</tex> и соответствующими точками функции&nbsp;<tex>u</tex> дискретного аргумента.
+
-
 
+
-
<i>Интерполяция</i> функций&nbsp;&#151; частный случай задачи приближения,
+
-
когда требуется, чтобы в определенных точках, называемых
+
-
<i>узлами интерполяции</i> совпадали значения функции&nbsp;<tex>u</tex> и
+
-
приближающей ее функции&nbsp;<tex>f</tex>. В более общем случае накладываются
+
-
ограничения на значения некоторых производных&nbsp;<tex>f</tex> производных.
+
-
То есть, дана функция&nbsp;<tex>u</tex> дискретного аргумента.
+
-
Требуется отыскать такую функцию&nbsp;<tex>f</tex>, которая проходит через все точки&nbsp;<tex>u</tex>.
+
-
При этом метрика обычно не используется, однако часто вводится понятие "гладкости" искомой функции.
+
-
 
+
-
Регрессия и классификация тесно связаны друг с другом.
+
-
Термин <i>[[алгоритм]]</i> в классификации мог бы стать синонимом термина <i>[[регрессионная модель|модель]]</i> в регрессии,
+
-
если бы алгоритм не оперировал с дискретным множеством ответов-классов, а модель&nbsp;&#151; с непрерывно-определенной свободной переменной.
+
-
 
+
-
== Смотри также ==
+
-
* [[Регрессионная модель]]
+
-
* [[Линейная регрессия (пример)]]
+
-
* [[Метод наименьших квадратов]]
+
-
* [[Нелинейная регрессия]]
+
-
* [[Алгоритм Левенберга-Марквардта]]
+
-
* [[Связанный Байесовский вывод]]
+
-
* [[Метод группового учета аргументов]]
+
-
* [[Анализ регрессионных остатков]]
+
-
* [[:Категория:Практика и вычислительные эксперименты|Применение методов регрессионного анализа на практике]]
+
-
* [[Регрессионный анализ (рекомендуемые обозначения)]]
+
-
== Литература ==
+
-
* Дрейпер&nbsp;Н., Смит&nbsp;Г. Прикладной регрессионный анализ. М.:&nbsp;Издательский дом «Вильямс».&nbsp;2007.
+
-
* Айвазян&nbsp;С.А. Прикладная статистика и основы эконометрики. М.:&nbsp;Юнити.&nbsp;2001.
+
-
* Брандт&nbsp;З. Анализ данных. М.:&nbsp;Мир.&nbsp;2003.
+
-
* Стрижов В. В. Методы индуктивного порождения регрессионных моделей. М.: ВЦ РАН. 2008. 55&nbsp;с. [[Media:strijov08ln.pdf|Брошюра, PDF]].
+
-
* Стрижов В.В., Крымова Е.А. Методы выбора регрессионных моделей. М.: ВЦ РАН, 2010. 60&nbsp;с. [[Media:Strijov-Krymova10Model-Selection.pdf|Брошюра, PDF]].
+
-
 
+
-
== Внешние ссылки ==
+
-
* [http://en.wikipedia.org/wiki/Category:Regression_analysis Wikipedia.org, Категория «Regression analysis»]
+
-
* [http://www.nlreg.com/ Non linear regression and curve fitting, NLREG software]
+
-
* [http://www.ncrg.aston.ac.uk/netlab/ Netlab neural network software by Yan Nabney]
+
-
* [http://curvefit.com/ Curvefit.com, A complete guide to nonlinear regression]
+
-
 
+
-
[[Категория:Регрессионный анализ]]
+
-
[[Категория:Энциклопедия анализа данных]]
+
-
[[Категория:Популярные и обзорные статьи]]
+

Версия 08:38, 8 апреля 2013

Links

Regression Analysis

In statistics, regression analysis is a statistical technique for estimating the relationships among variables. It includes many techniques for modeling and analyzing several variables, when the focus is on the relationship between a dependent variable and one or more independent variables. More specifically, regression analysis helps one understand how the typical value of the dependent variable changes when any one of the independent variables is varied, while the other independent variables are held fixed. Most commonly, regression analysis estimates the conditional expectation of the dependent variable given the independent variables — that is, the average value of the dependent variable when the independent variables are fixed. Less commonly, the focus is on a quantile, or other location parameter of the conditional distribution of the dependent variable given the independent variables. In all cases, the estimation target is a function of the independent variables called the regression function. In regression analysis, it is also of interest to characterize the variation of the dependent variable around the regression function, which can be described by a probability distribution.

Regression analysis is widely used for prediction and forecasting, where its use has substantial overlap with the field of machine learning. Regression analysis is also used to understand which among the independent variables are related to the dependent variable, and to explore the forms of these relationships. In restricted circumstances, regression analysis can be used to infer causal relationships between the independent and dependent variables. However this can lead to illusions or false relationships, so caution is advisable:[1] See correlation does not imply causation.

A large body of techniques for carrying out regression analysis has been developed. Familiar methods such as linear regression and ordinary least squares regression are parametric, in that the regression function is defined in terms of a finite number of unknown parameters that are estimated from the data. Nonparametric regression refers to techniques that allow the regression function to lie in a specified set of functions, which may be infinite-dimensional.

The performance of regression analysis methods in practice depends on the form of the data generating process, and how it relates to the regression approach being used. Since the true form of the data-generating process is generally not known, regression analysis often depends to some extent on making assumptions about this process. These assumptions are sometimes testable if many data are available. Regression models for prediction are often useful even when the assumptions are moderately violated, although they may not perform optimally. However, in many applications, especially with small effects or questions of causality based on observational data, regression methods can give misleading results.[2][3]

Личные инструменты