Модель зависимости

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
м (Метод минимизации эмпирического риска: уточнение)
 
(3 промежуточные версии не показаны)
Строка 42: Строка 42:
Функциональная постановка задачи никак не связана с вероятностными предположениями,
Функциональная постановка задачи никак не связана с вероятностными предположениями,
поэтому называть её частным случаем вероятностной не вполне корректно.
поэтому называть её частным случаем вероятностной не вполне корректно.
 +
 +
Существуют вероятностные постановки задачи восстановления зависимости, когда случайным полагается только <tex>y</tex>, но не <tex>x</tex>. К ним относится классическая постановка задачи восстановления регрессии.
 +
Для таких вероятностных постановок функциональная постановка действительно будет частным случаем.
'''Вопросы философии''':
'''Вопросы философии''':
-
* Адекватна ли гипотеза о существовании распределений <tex>p(x)</tex> и <tex>p(y|x)</tex> практическому опыту?. Многие исследователи соглашаются с этой гипотезой просто потому, что она позволяет привлечь удобный математический аппарат теории вероятностей.
+
* Адекватна ли гипотеза о существовании распределений <tex>p(x)</tex> и <tex>p(y|x)</tex> практическому опыту?. Многие исследователи соглашаются с этой гипотезой просто потому, что она позволяет привлечь удобный математический аппарат теории вероятностей. С другой стороны, убедительных аргументов против практической адекватности вероятностной постановки на настоящий момент не предъявлено.
* Правомерно ли трактовать неопределённость, связанную с недостатком информации, как вероятностное распределение <tex>p(y|x)</tex>? Существуют и другие подходы, в частности, [[теория возможности]] [[Пытьев, Юрий Петрович|Ю.П.Пытьева]] и теоретико-множественный подход Трауба, Васильковского и Вожьняковского.
* Правомерно ли трактовать неопределённость, связанную с недостатком информации, как вероятностное распределение <tex>p(y|x)</tex>? Существуют и другие подходы, в частности, [[теория возможности]] [[Пытьев, Юрий Петрович|Ю.П.Пытьева]] и теоретико-множественный подход Трауба, Васильковского и Вожьняковского.
Строка 53: Строка 56:
<tex>\Gamma</tex> — множество допустимых значений параметра <tex>\gamma</tex>.
<tex>\Gamma</tex> — множество допустимых значений параметра <tex>\gamma</tex>.
-
=== Метод минимизации эмпирического риска ===
+
=== Функционал качества ===
-
Выбор оптимального значения параметра <tex>\gamma</tex> производится, как правило, ''методом [[минимизация эмпирического риска|минимизации эмпирического риска]]''.
 
Вводится [[функция потерь]]
Вводится [[функция потерь]]
<tex>{\mathcal L}(a,x,y)</tex>,
<tex>{\mathcal L}(a,x,y)</tex>,
Строка 64: Строка 66:
Типичный выбор функции потерь:
Типичный выбор функции потерь:
* В задачах классификации <tex>{\mathcal L}(a,x,y) = [a(x)\neq y]</tex>;
* В задачах классификации <tex>{\mathcal L}(a,x,y) = [a(x)\neq y]</tex>;
-
* В задачах регрессии <tex>{\mathcal L}(a,x,y) = (a(x)-y)^2</tex>;
+
* В задачах регрессии <tex>{\mathcal L}(a,x,y) = (a(x)-y)^2</tex>.
-
* В вероятностном подходе <tex>{\mathcal L}(a,x,y) = -\ln p(x,a(x))</tex>.
+
Вводится функционал качества, характеризующий среднюю ошибку (''[[эмпирический риск]]'') алгоритма <tex>a</tex>
Вводится функционал качества, характеризующий среднюю ошибку (''[[эмпирический риск]]'') алгоритма <tex>a</tex>
-
на произвольной выборке <tex>X^m</tex>
+
на произвольной выборке <tex>X^m</tex>:
: <tex>Q(a,X^m) = \frac{1}{m} \sum_{i=1}^m {\mathcal L} ( a,x_i,y_i ).</tex>
: <tex>Q(a,X^m) = \frac{1}{m} \sum_{i=1}^m {\mathcal L} ( a,x_i,y_i ).</tex>
-
Для выбора оптимального значения параметра <tex>\gamma</tex> решается задача минимизации средней ошибки на обучающей выборке:
+
В вероятностном подходе в роли функционала качества обычно рассматривается математическое ожидание функции потерь, называемое риском.
 +
Риск характеризует среднее качество алгоритма (решающей функции) на генеральной совокупности.
 +
 
 +
=== Метод минимизации эмпирического риска ===
 +
 
 +
''Метод [[минимизация эмпирического риска|минимизации эмпирического риска]]'' заключается в том, чтобы в качестве параметра модели выбрать то значение <tex>\gamma</tex>, при котором средняя ошибка на обучающей выборке минимальна:
: <tex>\gamma = \mathrm{arg}\min_{\gamma\in \Gamma} Q(a_{\gamma},X^m).</tex>
: <tex>\gamma = \mathrm{arg}\min_{\gamma\in \Gamma} Q(a_{\gamma},X^m).</tex>
-
Заметим, что при вероятностной постановке задачи метод минимизации эмпирического риска в точности совпадает с [[метод максимума правдоподобия|методом максимума правдоподобия]], если функцию потерь выбрать, как указано выше: <tex>{\mathcal L}(a,x,y) = -\ln p(x,a(x))</tex>.
+
Заметим, что к форме минимизации эмпирического риска может быть приведен и широко используемый при вероятностной постановке задачи [[метод максимума правдоподобия|метод максимума правдоподобия]], если в роли функции потерь использовать:
 +
<tex>{\mathcal L}(a,x,y) = -\ln p(x,a(x))</tex>. При этом последнее выражение не несет содержательного смысла функции потерь и не является ей.
Таким образом, задача обучения сводится к оптимизации параметров модели и может быть решена либо аналитически, либо численными методами.
Таким образом, задача обучения сводится к оптимизации параметров модели и может быть решена либо аналитически, либо численными методами.

Текущая версия

Содержание

Целевая зависимость — в задачах обучения по прецедентам, особенно в задачах обучения с учителем, неизвестная функциональная или стохастическая зависимость между объектами и ответами.

Модель зависимости — параметрическое семейство функций, в рамках которого ищется функция, приближающая целевую зависимость. В задачах обучения с учителем параметры модели оптимизируются (обучаются) таким образом, чтобы на объектах выборки выдавались заданные ответы, или близкие к ним.

Определения

Функциональная постановка задачи

Пусть X — множество описаний объектов, Y — множество допустимых ответов. Предполагается, что существует неизвестная целевая зависимость — отображение y^{*}: X\to Y, значнения которой известны только на объектах конечной обучающей выборки X^m = \{(x_1,y_1),\dots,(x_m,y_m)\}.

Задача обучения с учителем (supervised learning) заключается в том, чтобы построить алгоритм a: X\to Y, который приближал бы неизвестную целевую зависимость как на элементах выборки, так и на всём множестве X.

Вероятностная постановка задачи

Элементы множества X — это не реальные объекты, а лишь их описания, доступная информация об объектах. Полные описания практически никогда не бывают известны. Мы не умеем исчерпывающим образом охарактеризовать, человека, геологический район, производственное предприятие или экономику страны. Поэтому одному и тому же описанию x могут соответствовать различные объекты, а, значит, и целое «облако ответов» y^{*}(x).

Для формализации этих соображений вводится вероятностная постановка задачи. Вместо существования неизвестной целевой функции y^{*}(x) постулируется существование неизвестного вероятностного распределения на множестве X\times Y с плотностью p(x,y), из которого случайно и независимо выбираются m наблюдений X^m = (x_i,y_i)_{i=1}^m. В математической статистике такие выборки называются простыми.

Вероятностная постановка задачи считается более общей, по сравнению с функциональной, так как функциональную зависимость y^{*}(x) можно представить вероятностным распределением p(x,y) = p(x) p(y|x) специального вида, положив p(y|x) = \delta(y-y^{*}(x)), где \delta(z) — дельта-функция.

Однако при этом приходится вводить дополнительную гипотезу о существовании на множестве X неизвестного распределения p(x). Функциональная постановка задачи никак не связана с вероятностными предположениями, поэтому называть её частным случаем вероятностной не вполне корректно.

Существуют вероятностные постановки задачи восстановления зависимости, когда случайным полагается только y, но не x. К ним относится классическая постановка задачи восстановления регрессии. Для таких вероятностных постановок функциональная постановка действительно будет частным случаем.

Вопросы философии:

  • Адекватна ли гипотеза о существовании распределений p(x) и p(y|x) практическому опыту?. Многие исследователи соглашаются с этой гипотезой просто потому, что она позволяет привлечь удобный математический аппарат теории вероятностей. С другой стороны, убедительных аргументов против практической адекватности вероятностной постановки на настоящий момент не предъявлено.
  • Правомерно ли трактовать неопределённость, связанную с недостатком информации, как вероятностное распределение p(y|x)? Существуют и другие подходы, в частности, теория возможности Ю.П.Пытьева и теоретико-множественный подход Трауба, Васильковского и Вожьняковского.

Модель зависимости

Модель зависимости — это параметрическое семейство отображений a_{\gamma}(x)=f(x,\gamma), где f:\: X\times\Gamma\to Y — фиксированная функция, \Gamma — множество допустимых значений параметра \gamma.

Функционал качества

Вводится функция потерь {\mathcal L}(a,x,y), характеризующая величину отклонения ответа модели a(x) от правильного ответа y на произвольном объекте x\in X.

Типичный выбор функции потерь:

  • В задачах классификации {\mathcal L}(a,x,y) = [a(x)\neq y];
  • В задачах регрессии {\mathcal L}(a,x,y) = (a(x)-y)^2.

Вводится функционал качества, характеризующий среднюю ошибку (эмпирический риск) алгоритма a на произвольной выборке X^m:

Q(a,X^m) = \frac{1}{m} \sum_{i=1}^m {\mathcal L} ( a,x_i,y_i ).

В вероятностном подходе в роли функционала качества обычно рассматривается математическое ожидание функции потерь, называемое риском. Риск характеризует среднее качество алгоритма (решающей функции) на генеральной совокупности.

Метод минимизации эмпирического риска

Метод минимизации эмпирического риска заключается в том, чтобы в качестве параметра модели выбрать то значение \gamma, при котором средняя ошибка на обучающей выборке минимальна:

\gamma = \mathrm{arg}\min_{\gamma\in \Gamma} Q(a_{\gamma},X^m).

Заметим, что к форме минимизации эмпирического риска может быть приведен и широко используемый при вероятностной постановке задачи метод максимума правдоподобия, если в роли функции потерь использовать: {\mathcal L}(a,x,y) = -\ln p(x,a(x)). При этом последнее выражение не несет содержательного смысла функции потерь и не является ей.

Таким образом, задача обучения сводится к оптимизации параметров модели и может быть решена либо аналитически, либо численными методами. Оптимизацию приходится применять независимо от того, как формулировалась исходная задача: в функциональных терминах или вероятностных.

Данная постановка является обобщением классических задач аппроксимации функций. В классической аппроксимации объектами являются действительные числа или векторы. В реальных прикладных задачах входные данные об объектах могуть быть многомерными, неоднородными, нечисловыми, неполными, неточными. Эти особенности приводят к большому разнообразию методов обучения с учителем.

Примеры моделей

Линейный пороговый классификатор

Двухслойный персептрон

Сеть радиальных базисных функций

Непараметрический классификатор

Взвешенное голосование логических правил

Модель алгоритмов вычисления оценок (АВО)

Линейная регрессия

Обобщённая линейная регрессия

Нелинейная регрессия

Непараметрическая регрессия

Ссылки

Литература

  1. Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: основы моделирования и первичная обработка данных. — М.: Финансы и статистика, 1983.
  2. Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: исследование зависимостей. — М.: Финансы и статистика, 1985.
  3. Вапник В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979.
  4. Журавлев Ю. И., Рязанов В. В., Сенько О. В. «Распознавание». Математические методы. Программная система. Практические применения. — М.: Фазис, 2006. ISBN 5-7036-0108-8.
  5. Пытьев Ю. П. Возможность. Элементы теории и применения. — М.: Эдиториал УРСС, 2000.
  6. Трауб Дж., Васильковскии Г., Вожьняковский X. Информация, неопределённость, сложность: Пер. с англ. — М.: Мир, 1988.
  7. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. — Springer, 2001. ISBN 0-387-95284-5.
Личные инструменты