Минимизация эмпирического риска

Материал из MachineLearning.

Перейти к: навигация, поиск
Статья написана с использованием LLM Gemini 3.1 Pro Preview и проверена участником Polina Khadralinova


Минимизация эмпирического риска (англ. Empirical Risk Minimization, ERM) — один из фундаментальных принципов в теории машинного обучения, определяющий метод построения алгоритмов обучения с учителем. Суть принципа заключается в выборе параметрической модели, которая минимизирует среднюю ошибку (функцию потерь) на заданной обучающей выборке.

Данный принцип является строгой математической формализацией эмпирической индукции Фрэнсиса Бэкона: на основе частных опытных данных (прецедентов) строится общее закономерное правило (модель), способное делать предсказания для новых объектов.

Содержание

Историческая справка

Идейным предшественником принципа ERM является метод наименьших квадратов, предложенный Карлом Фридрихом Гауссом (1795) и Адриеном Мари Лежандром (1805) для астрономических вычислений. Они первыми предложили искать параметры модели, минимизируя сумму квадратов отклонений на известных точках[1].

Строгое математическое и статистическое обоснование принципа минимизации эмпирического риска было разработано в 1960–1970-х годах в рамках статистической теории обучения (теории Вапника — Червоненкиса). В. Н. Вапник и А. Я. Червоненкис доказали теоремы о равномерной сходимости частот к вероятностям, определив условия, при которых минимизация ошибки на обучающей выборке гарантирует низкую ошибку на новых данных[1].

Ожидаемый и эмпирический риск

Пусть дано пространство объектов X и пространство ответов Y. Предполагается, что существует неизвестная совместная плотность распределения вероятностей p(x, y), из которой порождаются данные.

Имеется параметрическое семейство моделей:

A = \{ a(x, w) \mid w \in W \},

где W \subseteq \mathbb{R}^N — пространство параметров (весов).

Качество предсказания оценивается с помощью функции потерь (loss function) \mathcal{L}(a(x, w), y).

Истинный (ожидаемый) риск R(w) — это математическое ожидание функции потерь по всему распределению p(x, y):

R(w) = \mathbb{E}_{x,y \sim p(x, y)} [\mathcal{L}(a(x, w), y)].

Идеальная цель машинного обучения — найти параметры w, минимизирующие истинный риск. Однако на практике распределение p(x, y) неизвестно.

Вместо этого доступна конечная обучающая выборка:

X^{\ell} = \{ (x_1, y_1), \dots, (x_{\ell}, y_{\ell}) \}.

В соответствии с законом больших чисел, истинный риск заменяется его выборочной оценкой — эмпирическим риском:

Q(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i).

Принцип ERM утверждает, что оптимальные параметры модели w^* должны доставлять минимум функционалу эмпирического риска:

w^* = \arg \min_{w \in W} Q(w, X^{\ell}).

Условия состоятельности и переобучение

Главная проблема принципа ERM заключается в том, что при высокой сложности семейства моделей A (например, в глубоких нейронных сетях) и малом объёме выборки \ell, минимум эмпирического риска не гарантирует минимума истинного риска. Возникает эффект переобучения (overfitting), когда Q(w^*, X^{\ell}) \approx 0, но истинный риск R(w^*) оказывается огромным.

Согласно теории Вапника — Червоненкиса, с вероятностью 1 - \eta истинный риск ограничен сверху:

R(w) \le Q(w, X^{\ell}) + \sqrt{\frac{h (\ln(2\ell/h) + 1) - \ln(\eta/4)}{\ell}},

где hVC-размерность (мера сложности) семейства моделей. Для состоятельности принципа ERM необходимо, чтобы объем выборки значительно превосходил сложность модели (\ell \gg h).

Регуляризация

Для борьбы с переобучением применяется регуляризация. К эмпирическому риску добавляется штрафное слагаемое \mathcal{R}(w), ограничивающее эффективную сложность модели:

Q_{\text{reg}}(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i) + \tau \mathcal{R}(w) \to \min_{w},

где \tau — коэффициент регуляризации. Наиболее популярны L_2-норма (сокращение весов) и L_1-норма (отбор признаков).

Основные типы функций потерь

Выбор \mathcal{L} зависит от типа прикладной задачи.

В задачах регрессии:

  • Квадратичная ошибка (MSE): \mathcal{L}(w, x_i) = (a(x_i, w) - y_i)^2.
  • Абсолютная ошибка (MAE, для робастности к выбросам): \mathcal{L}(w, x_i) = |a(x_i, w) - y_i|.

В задачах бинарной классификации (где y \in \{-1, +1\}) функция потерь зависит от отступа M_i(w) = a(x_i, w)y_i:

Методы оптимизации

В современных задачах с большими данными прямое вычисление градиента эмпирического риска по всей выборке X^\ell вычислительно неэффективно. Применяется метод стохастического градиента (SG). На каждой итерации t градиентный шаг делается на основе потери только на одном случайно выбранном объекте x_i:

w^{(t+1)} = w^{(t)} - h ( \nabla \mathcal{L}(a(x_i, w^{(t)}), y_i) + \tau \nabla \mathcal{R}(w^{(t)}) ).

См. также

Примечания