Модель зависимости

Материал из MachineLearning.

(Различия между версиями)

Версия 19:06, 1 мая 2008

Содержание

1 Определения
2 Примеры моделей
3 Ссылки
4 Литература

Целевая зависимость — в задачах обучения по прецедентам, особенно в задачах обучения с учителем, неизвестная функциональная или стохастическая зависимость между объектами и ответами.

Модель зависимости — параметрическое семейство функций, в рамках которого ищется функция, приближающая целевую зависимость. В задачах обучения с учителем параметры модели оптимизируются (обучаются) таким образом, чтобы на объектах выборки выдавались заданные ответы, или близкие к ним.

Определения

Функциональная постановка задачи

Пусть $X$ — множество описаний объектов, $Y$ — множество допустимых ответов. Предполагается, что существует неизвестная целевая зависимость — отображение $y^{*}: X\to Y$ , значнения которой известны только на объектах конечной обучающей выборки $X^m = \{(x_1,y_1),\dots,(x_m,y_m)\}$ .

Задача обучения с учителем (supervised learning) заключается в том, чтобы построить алгоритм $a: X\to Y$ , который приближал бы неизвестную целевую зависимость как на элементах выборки, так и на всём множестве $X$ .

Вероятностная постановка задачи

Элементы множества $X$ — это не реальные объекты, а лишь их описания, доступная информация об объектах. Полные описания практически никогда не бывают известны. Мы не умеем исчерпывающим образом охарактеризовать, человека, геологический район, производственное предприятие или экономику страны. Поэтому одному и тому же описанию $x$ могут соответствовать различные объекты, а, значит, и целое «облако ответов» $y^{*}(x)$ .

Для формализации этих соображений вводится вероятностная постановка задачи. Вместо существования неизвестной целевой функции $y^{*}(x)$ постулируется существование неизвестного вероятностного распределения на множестве $X\times Y$ с плотностью $p(x,y)$ , из которого случайно и независимо выбираются $m$ наблюдений $X^m = (x_i,y_i)_{i=1}^m$ . В математической статистике такие выборки называются простыми.

Вероятностная постановка задачи считается более общей, по сравнению с функциональной, так как функциональную зависимость $y^{*}(x)$ можно представить вероятностным распределением $p(x,y) = p(x) p(y|x)$ специального вида, положив $p(y|x) = \delta(y-y^{*}(x))$ , где $\delta(z)$ — дельта-функция.

Однако при этом приходится вводить дополнительную гипотезу о существовании на множестве $X$ неизвестного распределения $p(x)$ . Функциональная постановка задачи никак не связана с вероятностными предположениями, поэтому называть её частным случаем вероятностной не вполне корректно.

Вопросы философии:

Адекватна ли гипотеза о существовании распределений $p(x)$ и $p(y|x)$ практическому опыту?. Многие исследователи соглашаются с этой гипотезой просто потому, что она позволяет привлечь удобный математический аппарат теории вероятностей.
Правомерно ли трактовать неопределённость, связанную с недостатком информации, как вероятностное распределение $p(y|x)$ ? Существуют и другие подходы, в частности, теория возможности Ю.П.Пытьева и теоретико-множественный подход Трауба, Васильковского и Вожьняковского.

Модель зависимости

Модель зависимости — это параметрическое семейство отображений $a_{\gamma}(x)=f(x,\gamma)$ , где $f:\: X\times\Gamma\to Y$ — фиксированная функция, $\Gamma$ — множество допустимых значений параметра $\gamma$ .

Метод минимизации эмпирического риска

Выбор оптимального значения параметра $\gamma$ производится, как правило, методом минимизации эмпирического риска. Вводится функция потерь ${\mathcal L}(a,x,y)$ , характеризующая величину отклонения ответа модели $a(x)$ от правильного ответа $y$ на произвольном объекте $x\in X$ .

Типичный выбор функции потерь:

В задачах классификации ${\mathcal L}(a,x,y) = [a(x)\neq y]$ ;
В задачах регрессии ${\mathcal L}(a,x,y) = (a(x)-y)^2$ ;
В вероятностном подходе ${\mathcal L}(a,x,y) = -\ln p(x,a(x))$ .

Вводится функционал качества, характеризующий среднюю ошибку (эмпирический риск) алгоритма $a$ на произвольной выборке $X^m$

$Q(a,X^m) = \frac{1}{m} \sum_{i=1}^m {\mathcal L} ( a,x_i,y_i ).$

Для выбора оптимального значения параметра $\gamma$ решается задача минимизации средней ошибки на обучающей выборке:

$\gamma = \mathrm{arg}\min_{\gamma\in \Gamma} Q(a_{\gamma},X^m).$

Заметим, что при вероятностной постановке задачи метод минимизации эмпирического риска в точности совпадает с методом максимума правдоподобия, если функцию потерь выбрать, как указано выше: ${\mathcal L}(a,x,y) = -\ln p(x,a(x))$ .

Таким образом, задача обучения сводится к оптимизации параметров модели и может быть решена либо аналитически, либо численными методами. Оптимизацию приходится применять независимо от того, как формулировалась исходная задача: в функциональных терминах или вероятностных.

Данная постановка является обобщением классических задач аппроксимации функций. В классической аппроксимации объектами являются действительные числа или векторы. В реальных прикладных задачах входные данные об объектах могуть быть многомерными, неоднородными, нечисловыми, неполными, неточными. Эти особенности приводят к большому разнообразию методов обучения с учителем.

Примеры моделей

Линейный пороговый классификатор

Двухслойный персептрон

Сеть радиальных базисных функций

Непараметрический классификатор

Взвешенное голосование логических правил

Модель алгоритмов вычисления оценок (АВО)

Линейная регрессия

Обобщённая линейная регрессия

Нелинейная регрессия

Непараметрическая регрессия

Ссылки

Литература

Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: основы моделирования и первичная обработка данных. — М.: Финансы и статистика, 1983.
Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: исследование зависимостей. — М.: Финансы и статистика, 1985.
Вапник В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979.
Журавлев Ю. И., Рязанов В. В., Сенько О. В. «Распознавание». Математические методы. Программная система. Практические применения. — М.: Фазис, 2006. ISBN 5-7036-0108-8.
Пытьев Ю. П. Возможность. Элементы теории и применения. — М.: Эдиториал УРСС, 2000.
Трауб Дж., Васильковскии Г., Вожьняковский X. Информация, неопределённость, сложность: Пер. с англ. — М.: Мир, 1988.
Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. — Springer, 2001. ISBN 0-387-95284-5.

Это незавершённая статья. Вы поможете проекту, исправив и дополнив её.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9C%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C_%D0%B7%D0%B0%D0%B2%D0%B8%D1%81%D0%B8%D0%BC%D0%BE%D1%81%D1%82%D0%B8»

Категории: Незавершённые статьи | Энциклопедия анализа данных | Прикладная статистика | Машинное обучение

@@ Строка 2: / Строка 2: @@
 '''Целевая зависимость''' — в задачах [[Обучение по прецедентам|обучения по прецедентам]], особенно в задачах [[Обучение с учителем|обучения с учителем]], неизвестная функциональная или стохастическая зависимость между объектами и ответами.
-'''Модель зависимости''' — параметрической семейство функций, используемое для аппроксимации целевой зависимости. {{S|В задачах}} [[Обучение с учителем|обучения с учителем]] параметры модели оптимизируются (обучаются) таким образом, чтобы на объектах выборки выдавались заданные ответы, или близкие к ним.
+'''Модель зависимости''' — параметрическое семейство функций, в рамках которого ищется функция, приближающая целевую зависимость. {{S|В задачах}} [[Обучение с учителем|обучения с учителем]] параметры модели оптимизируются (обучаются) таким образом, чтобы на объектах выборки выдавались заданные ответы, или близкие к ним.
 == Определения ==
@@ Строка 14: / Строка 14: @@
 значнения которой известны только на объектах конечной [[обучающая выборка|обучающей выборки]]
 <tex>X^m = \{(x_1,y_1),\dots,(x_m,y_m)\}</tex>.
 Задача [[обучение с учителем|обучения с учителем]] (supervised learning) заключается в том, чтобы построить алгоритм <tex>a: X\to Y</tex>, который приближал бы неизвестную целевую зависимость как на элементах выборки, так и на всём множестве <tex>X</tex>.
@@ Строка 32: / Строка 33: @@
 Вероятностная постановка задачи считается более общей, по сравнению с функциональной,
 так как функциональную зависимость <tex>y^{*}(x)</tex>
-можно представить в виде вероятностного распределения
+можно представить вероятностным распределением <tex>p(x,y) = p(x) p(y|x)</tex> специального вида,
-<tex>p(x,y) = p(x) p(y|x)</tex>,
 положив
 <tex>p(y|x) = \delta(y-y^{*}(x))</tex>,

Модель зависимости

Материал из MachineLearning.

Версия 19:06, 1 мая 2008

Содержание

Определения

Функциональная постановка задачи

Вероятностная постановка задачи

Модель зависимости

Метод минимизации эмпирического риска

Примеры моделей

Линейный пороговый классификатор

Двухслойный персептрон

Сеть радиальных базисных функций

Непараметрический классификатор

Взвешенное голосование логических правил

Модель алгоритмов вычисления оценок (АВО)

Линейная регрессия

Обобщённая линейная регрессия

Нелинейная регрессия

Непараметрическая регрессия

Ссылки

Литература

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты