Модель зависимости

Материал из MachineLearning.

Версия от 18:50, 26 апреля 2008; Vokov (Обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

Содержание

Целевая зависимость — в задачах обучения по прецедентам, особенно в задачах обучения с учителем, неизвестная функциональная или стохастическая зависимость между объектами и ответами.

Модель зависимости — параметрической семейство функций, используемое для аппроксимации целевой зависимости. В задачах обучения с учителем параметры модели оптимизируются (обучаются) таким образом, чтобы на объектах выборки выдавались заданные ответы, или близкие к ним.

Определения

Функциональная постановка задачи

Пусть X — множество описаний объектов, Y — множество допустимых ответов. Предполагается, что существует неизвестная целевая зависимость — отображение y^{*}: X\to Y, значнения которой известны только на объектах конечной обучающей выборки X^m = \{(x_1,y_1),\dots,(x_m,y_m)\}. Задача обучения с учителем (supervised learning) заключается в том, чтобы построить алгоритм a: X\to Y, который приближал бы неизвестную целевую зависимость как на элементах выборки, так и на всём множестве X.

Вероятностная постановка задачи

Элементы множества X — это не реальные объекты, а лишь их описания, доступная информация об объектах. Полные описания практически никогда не бывают известны. Мы не умеем исчерпывающим образом охарактеризовать, человека, геологический район, производственное предприятие или экономику страны. Поэтому одному и тому же описанию x могут соответствовать различные объекты, а, значит, и целое «облако ответов» y^{*}(x).

Для формализации этих соображений вводится вероятностная постановка задачи. Вместо существования неизвестной целевой функции y^{*}(x) постулируется существование неизвестного вероятностного распределения на множестве X\times Y с плотностью p(x,y), из которого случайно и независимо выбираются m наблюдений X^m = (x_i,y_i)_{i=1}^m. В математической статистике такие выборки называются простыми.

Вероятностная постановка задачи считается более общей, по сравнению с функциональной, так как функциональную зависимость y^{*}(x) можно представить в виде вероятностного распределения p(x,y) = p(x) p(y|x), положив p(y|x) = \delta(y-y^{*}(x)), где \delta(z) — дельта-функция.

Однако при этом приходится вводить дополнительную гипотезу о существовании на множестве X неизвестного распределения p(x). Функциональная постановка задачи никак не связана с вероятностными предположениями, поэтому называть её частным случаем вероятностной не вполне корректно.

Вопросы философии:

  • Адекватна ли гипотеза о существовании распределений p(x) и p(y|x) практическому опыту?. Многие исследователи соглашаются с этой гипотезой просто потому, что она позволяет привлечь удобный математический аппарат теории вероятностей.
  • Правомерно ли трактовать неопределённость, связанную с недостатком информации, как вероятностное распределение p(y|x)? Существуют и другие подходы, в частности, теория возможности Ю.П.Пытьева и теоретико-множественный подход Трауба, Васильковского и Вожьняковского.

Модель зависимости

Модель зависимости — это параметрическое семейство отображений a_{\gamma}(x)=f(x,\gamma), где f:\: X\times\Gamma\to Y — фиксированная функция, \Gamma — множество допустимых значений параметра \gamma.

Метод минимизации эмпирического риска

Выбор оптимального значения параметра \gamma производится, как правило, методом минимизации эмпирического риска. Вводится функция потерь {\mathcal L}(a,x,y), характеризующая величину отклонения ответа модели a(x) от правильного ответа y на произвольном объекте x\in X.

Типичный выбор функции потерь:

  • В задачах классификации {\mathcal L}(a,x,y) = [a(x)\neq y];
  • В задачах регрессии {\mathcal L}(a,x,y) = (a(x)-y)^2;
  • В вероятностном подходе {\mathcal L}(a,x,y) = -\ln p(x,a(x)).

Вводится функционал качества, характеризующий среднюю ошибку (эмпирический риск) алгоритма a на произвольной выборке X^m

Q(a,X^m) = \frac{1}{m} \sum_{i=1}^m {\mathcal L} ( a,x_i,y_i ).

Для выбора оптимального значения параметра \gamma решается задача минимизации средней ошибки на обучающей выборке:

\gamma = \mathrm{arg}\min_{\gamma\in \Gamma} Q(a_{\gamma},X^m).

Заметим, что при вероятностной постановке задачи метод минимизации эмпирического риска в точности совпадает с методом максимума правдоподобия, если функцию потерь выбрать, как указано выше: {\mathcal L}(a,x,y) = -\ln p(x,a(x)).

Таким образом, задача обучения сводится к оптимизации параметров модели и может быть решена либо аналитически, либо численными методами. Оптимизацию приходится применять независимо от того, как формулировалась исходная задача: в функциональных терминах или вероятностных.

Данная постановка является обобщением классических задач аппроксимации функций. В классической аппроксимации объектами являются действительные числа или векторы. В реальных прикладных задачах входные данные об объектах могуть быть многомерными, неоднородными, нечисловыми, неполными, неточными. Эти особенности приводят к большому разнообразию методов обучения с учителем.

Примеры моделей

Линейный пороговый классификатор

Двухслойный персептрон

Сеть радиальных базисных функций

Непараметрический классификатор

Взвешенное голосование логических правил

Модель алгоритмов вычисления оценок (АВО)

Линейная регрессия

Обобщённая линейная регрессия

Нелинейная регрессия

Непараметрическая регрессия

Ссылки

Литература

Личные инструменты