Минимизация эмпирического риска

Материал из MachineLearning.

Версия от 20:46, 21 июня 2026; Polina Khadralinova (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Статья написана с использованием LLM Gemini 3.1 Pro Preview и проверена участником Polina Khadralinova

Минимизация эмпирического риска (англ. Empirical Risk Minimization, ERM) — один из фундаментальных принципов в теории машинного обучения, определяющий метод построения алгоритмов обучения с учителем. Суть принципа заключается в выборе параметрической модели, которая минимизирует среднюю ошибку (функцию потерь) на заданной обучающей выборке.

Данный принцип является строгой математической формализацией эмпирической индукции Фрэнсиса Бэкона: на основе частных опытных данных (прецедентов) строится общее закономерное правило (модель), способное делать предсказания для новых объектов.

Содержание

1 Историческая справка
2 Ожидаемый и эмпирический риск
3 Условия состоятельности и переобучение
- 3.1 Регуляризация
4 Основные типы функций потерь
5 Методы оптимизации
6 См. также
7 Примечания

Историческая справка

Идейным предшественником принципа ERM является метод наименьших квадратов, предложенный Карлом Фридрихом Гауссом (1795) и Адриеном Мари Лежандром (1805) для астрономических вычислений. Они первыми предложили искать параметры модели, минимизируя сумму квадратов отклонений на известных точках^[1].

Строгое математическое и статистическое обоснование принципа минимизации эмпирического риска было разработано в 1960–1970-х годах в рамках статистической теории обучения (теории Вапника — Червоненкиса). В. Н. Вапник и А. Я. Червоненкис доказали теоремы о равномерной сходимости частот к вероятностям, определив условия, при которых минимизация ошибки на обучающей выборке гарантирует низкую ошибку на новых данных^[1].

Ожидаемый и эмпирический риск

Пусть дано пространство объектов $X$ и пространство ответов $Y$ . Предполагается, что существует неизвестная совместная плотность распределения вероятностей $p(x, y)$ , из которой порождаются данные.

Имеется параметрическое семейство моделей:

$A = \{ a(x, w) \mid w \in W \}$ ,

где $W \subseteq \mathbb{R}^N$ — пространство параметров (весов).

Качество предсказания оценивается с помощью функции потерь (loss function) $\mathcal{L}(a(x, w), y)$ .

Истинный (ожидаемый) риск $R(w)$ — это математическое ожидание функции потерь по всему распределению $p(x, y)$ :

$R(w) = \mathbb{E}_{x,y \sim p(x, y)} [\mathcal{L}(a(x, w), y)]$ .

Идеальная цель машинного обучения — найти параметры $w$ , минимизирующие истинный риск. Однако на практике распределение $p(x, y)$ неизвестно.

Вместо этого доступна конечная обучающая выборка:

$X^{\ell} = \{ (x_1, y_1), \dots, (x_{\ell}, y_{\ell}) \}$ .

В соответствии с законом больших чисел, истинный риск заменяется его выборочной оценкой — эмпирическим риском:

$Q(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i)$ .

Принцип ERM утверждает, что оптимальные параметры модели $w^*$ должны доставлять минимум функционалу эмпирического риска:

$w^* = \arg \min_{w \in W} Q(w, X^{\ell})$ .

Условия состоятельности и переобучение

Главная проблема принципа ERM заключается в том, что при высокой сложности семейства моделей $A$ (например, в глубоких нейронных сетях) и малом объёме выборки $\ell$ , минимум эмпирического риска не гарантирует минимума истинного риска. Возникает эффект переобучения (overfitting), когда $Q(w^*, X^{\ell}) \approx 0$ , но истинный риск $R(w^*)$ оказывается огромным.

Согласно теории Вапника — Червоненкиса, с вероятностью $1 - \eta$ истинный риск ограничен сверху:

$R(w) \le Q(w, X^{\ell}) + \sqrt{\frac{h (\ln(2\ell/h) + 1) - \ln(\eta/4)}{\ell}}$ ,

где $h$ — VC-размерность (мера сложности) семейства моделей. Для состоятельности принципа ERM необходимо, чтобы объем выборки значительно превосходил сложность модели ( $\ell \gg h$ ).

Регуляризация

Для борьбы с переобучением применяется регуляризация. К эмпирическому риску добавляется штрафное слагаемое $\mathcal{R}(w)$ , ограничивающее эффективную сложность модели:

$Q_{\text{reg}}(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i) + \tau \mathcal{R}(w) \to \min_{w}$ ,

где $\tau$ — коэффициент регуляризации. Наиболее популярны $L_2$ -норма (сокращение весов) и $L_1$ -норма (отбор признаков).

Основные типы функций потерь

Выбор $\mathcal{L}$ зависит от типа прикладной задачи.

В задачах регрессии:

Квадратичная ошибка (MSE): $\mathcal{L}(w, x_i) = (a(x_i, w) - y_i)^2$ .
Абсолютная ошибка (MAE, для робастности к выбросам): $\mathcal{L}(w, x_i) = |a(x_i, w) - y_i|$ .

В задачах бинарной классификации (где $y \in \{-1, +1\}$ ) функция потерь зависит от отступа $M_i(w) = a(x_i, w)y_i$ :

Логистическая функция (в логистической регрессии): $\mathcal{L}(M) = \ln(1 + e^{-M})$ .
Кусочно-линейная функция (в SVM): $\mathcal{L}(M) = \max(0, 1 - M)$ .

Методы оптимизации

В современных задачах с большими данными прямое вычисление градиента эмпирического риска по всей выборке $X^\ell$ вычислительно неэффективно. Применяется метод стохастического градиента (SG). На каждой итерации $t$ градиентный шаг делается на основе потери только на одном случайно выбранном объекте $x_i$ :