Минимизация эмпирического риска

Материал из MachineLearning.

(Различия между версиями)

Версия 20:11, 21 июня 2026

Статья написана с использованием LLM ChatGPT и проверена участником Polina Khadralinova 00:11, 22 июня 2026 (MSD)

Минимизация эмпирического риска (англ. Empirical Risk Minimization, ERM) — один из фундаментальных принципов в теории машинного обучения, определяющий метод построения алгоритмов обучения с учителем. Суть принципа заключается в выборе параметрической модели, которая минимизирует среднюю ошибку (функцию потерь) на заданной обучающей выборке.

Данный принцип является строгой математической формализацией эмпирической индукции Фрэнсиса Бэкона: на основе частных опытных данных (прецедентов) строится общее закономерное правило (модель), способное делать предсказания для новых объектов.

Содержание

1 Историческая справка
2 Ожидаемый и эмпирический риск
3 Условия состоятельности и переобучение
- 3.1 Регуляризация
4 Основные типы функций потерь
5 Методы оптимизации
6 См. также
7 Примечания
8 Литература

Историческая справка

Идейным предшественником принципа ERM является метод наименьших квадратов, предложенный Карлом Фридрихом Гауссом (1795) и Адриеном Мари Лежандром (1805) для астрономических вычислений. Они первыми предложили искать параметры модели, минимизируя сумму квадратов отклонений на известных точках^[1].

Строгое математическое и статистическое обоснование принципа минимизации эмпирического риска было разработано в 1960–1970-х годах в рамках статистической теории обучения (теории Вапника — Червоненкиса). В. Н. Вапник и А. Я. Червоненкис доказали теоремы о равномерной сходимости частот к вероятностям, определив условия, при которых минимизация ошибки на обучающей выборке гарантирует низкую ошибку на новых данных^[1].

Ожидаемый и эмпирический риск

Пусть дано пространство объектов <math>X</math> и пространство ответов <math>Y</math>. Предполагается, что существует неизвестная совместная плотность распределения вероятностей <math>p(x, y)</math>, из которой порождаются данные.

Имеется параметрическое семейство моделей:

<math>A = \{ a(x, w) \mid w \in W \}</math>,

где <math>W \subseteq \mathbb{R}^N</math> — пространство параметров (весов).

Качество предсказания оценивается с помощью функции потерь (loss function) <math>\mathcal{L}(a(x, w), y)</math>.

Истинный (ожидаемый) риск <math>R(w)</math> — это математическое ожидание функции потерь по всему распределению <math>p(x, y)</math>:

<math>R(w) = \mathbb{E}_{x,y \sim p(x, y)} [\mathcal{L}(a(x, w), y)]</math>.

Идеальная цель машинного обучения — найти параметры <math>w</math>, минимизирующие истинный риск. Однако на практике распределение <math>p(x, y)</math> неизвестно.

Вместо этого доступна конечная обучающая выборка:

<math>X^{\ell} = \{ (x_1, y_1), \dots, (x_{\ell}, y_{\ell}) \}</math>.

В соответствии с законом больших чисел, истинный риск заменяется его выборочной оценкой — эмпирическим риском:

<math>Q(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i)</math>.

Принцип ERM утверждает, что оптимальные параметры модели <math>w^*</math> должны доставлять минимум функционалу эмпирического риска:

<math>w^* = \arg\min_{w \in W} Q(w, X^{\ell}) \to \min_w</math>.

Условия состоятельности и переобучение

Главная проблема принципа ERM заключается в том, что при высокой сложности семейства моделей <math>A</math> (например, в глубоких нейронных сетях) и малом объёме выборки <math>\ell</math>, минимум эмпирического риска не гарантирует минимума истинного риска. Возникает эффект переобучения (overfitting), когда <math>Q(w^*, X^{\ell}) \approx 0</math>, но истинный риск <math>R(w^*)</math> оказывается огромным.

Согласно теории Вапника — Червоненкиса, с вероятностью <math>1 - \eta</math> истинный риск ограничен сверху:

<math>R(w) \leqslant Q(w, X^{\ell}) + \sqrt{\frac{h (\ln(2\ell/h) + 1) - \ln(\eta/4)}{\ell}}</math>,

где <math>h</math> — VC-размерность (мера сложности) семейства моделей. Для состоятельности принципа ERM необходимо, чтобы объем выборки значительно превосходил сложность модели (<math>\ell \gg h</math>).

Регуляризация

Для борьбы с переобучением применяется регуляризация. К эмпирическому риску добавляется штрафное слагаемое <math>\mathcal{R}(w)</math>, ограничивающее эффективную сложность модели:

<math>Q_{\text{reg}}(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i) + \tau \mathcal{R}(w) \to \min_{w}</math>,

где <math>\tau</math> — коэффициент регуляризации. Наиболее популярны <math>L_2</math>-норма (сокращение весов) и <math>L_1</math>-норма (отбор признаков).

Основные типы функций потерь

Выбор <math>\mathcal{L}</math> зависит от типа прикладной задачи.

В задачах регрессии:

Квадратичная ошибка (MSE): <math>\mathcal{L}(w, x_i) = (a(x_i, w) - y_i)^2</math>.
Абсолютная ошибка (MAE, для робастности к выбросам): <math>\mathcal{L}(w, x_i) = |a(x_i, w) - y_i|</math>.

В задачах бинарной классификации (где <math>y \in \{-1, +1\}</math>) функция потерь зависит от отступа <math>M_i(w) = a(x_i, w)y_i</math>:

Логистическая функция (в логистической регрессии): <math>\mathcal{L}(M) = \ln(1 + e^{-M})</math>.
Кусочно-линейная функция (в SVM): <math>\mathcal{L}(M) = \max(0, 1 - M)</math>.

Методы оптимизации

В современных задачах с большими данными прямое вычисление градиента эмпирического риска по всей выборке <math>X^\ell</math> вычислительно неэффективно. Применяется метод стохастического градиента (SG). На каждой итерации <math>t</math> градиентный шаг делается на основе потери только на одном случайно выбранном объекте <math>x_i</math>:

<math>w^{(t+1)} := w^{(t)} - h \left( \nabla \mathcal{L}(a(x_i, w^{(t)}), y_i) + \tau \nabla \mathcal{R}(w^{(t)}) \right)</math>.

Для ускорения сходимости используются эвристики, такие как метод накопления инерции (Momentum) или адаптивный шаг (Adam).

См. также

Примечания

Литература

Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. — Springer, 2017.
Воронцов К. В. Философия. Введение в ИИ (курс лекций). — 2026.
Мерков А. Б. Распознавание образов. Введение в методы статистического обучения. — М.: Едиториал УРСС, 2011.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B8%D0%BD%D0%B8%D0%BC%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F_%D1%8D%D0%BC%D0%BF%D0%B8%D1%80%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D1%80%D0%B8%D1%81%D0%BA%D0%B0»

Категории: Машинное обучение | Математические методы | Теория вычислительного обучения

@@ Строка 1: / Строка 1: @@
-{{TOCright}}
+{{well|Статья написана с использованием LLM '''ChatGPT''' и проверена участником [[Участник:Polina Khadralinova|Polina Khadralinova]] 00:11, 22 июня 2026 (MSD)}}
-'''Эмпирический риск''' (Empirical Risk) — это средняя величина ошибки [[алгоритм]]а на [[обучающая выборка|обучающей выборке]].
-Метод '''минимизации эмпирического риска''' (Empirical Risk Minimization, ERM) — это общий подход к решению широкого класса задач [[обучение по прецедентам|обучения по прецедентам]], в первую очередь — задач [[обучение с учителем|обучения с учителем]], включая задачи [[классификация|классификации]] и [[регрессия|регрессии]].
+'''Минимизация эмпирического риска''' (англ. ''Empirical Risk Minimization, ERM'') — один из фундаментальных принципов в [[Теория вычислительного обучения|теории машинного обучения]], определяющий метод построения [[Обучение с учителем|алгоритмов обучения с учителем]]. Суть принципа заключается в выборе параметрической модели, которая минимизирует среднюю ошибку (функцию потерь) на заданной [[Выборка|обучающей выборке]].
-== Определения ==
+Данный принцип является строгой математической формализацией [[Эмпирическая индукция|эмпирической индукции]] Фрэнсиса Бэкона: на основе частных опытных данных (прецедентов) строится общее закономерное правило (модель), способное делать предсказания для новых объектов.
-=== Задача обучения по прецедентам ===
+== Историческая справка ==
-Пусть <tex>X</tex> — множество описаний объектов,
-<tex>Y</tex> — множество допустимых ответов.
-Предполагается, что существует неизвестная ''целевая зависимость'' — отображение
-<tex>y^{*}:\: X\to Y</tex>,
-значения которой известны только на объектах конечной [[обучающая выборка|обучающей выборки]]
-<tex>X^m = \{(x_1,y_1),\ldots,(x_m,y_m)\}</tex>.
-''Задача обучения по прецедентам'' состоит в том, чтобы построить алгоритм
+Идейным предшественником принципа ERM является [[Метод наименьших квадратов|метод наименьших квадратов]], предложенный Карлом Фридрихом Гауссом (1795) и Адриеном Мари Лежандром (1805) для астрономических вычислений. Они первыми предложили искать параметры модели, минимизируя сумму квадратов отклонений на известных точках<ref>Gauss C. F. Theoria motus corporum coelestium in sectionibus conicis solem ambientium. — 1809.</ref>.
-<tex>a:\: X\to Y</tex>,
-который приближал бы неизвестную целевую зависимость как на элементах выборки, так и на всём множестве <tex>X</tex>.
-=== Функция потерь и эмпирический риск ===
+Строгое математическое и статистическое обоснование принципа минимизации эмпирического риска было разработано в 1960–1970-х годах в рамках статистической теории обучения (теории Вапника — Червоненкиса). В. Н. Вапник и А. Я. Червоненкис доказали теоремы о равномерной сходимости частот к вероятностям, определив условия, при которых минимизация ошибки на обучающей выборке гарантирует низкую ошибку на новых данных<ref>Вапник В. Н., Червоненкис А. Я. Теория распознавания образов. — М.: Наука, 1974.</ref>.
-Вводится ''[[функция потерь]]''
-<tex>{\mathcal L}(y,y')</tex>,
-характеризующая величину отклонения ответа
-<tex>y=a(x)</tex>
-от правильного ответа
-<tex>y'=y^{*}(x)</tex>
-на произвольном объекте <tex>x\in X</tex>.
-Вводится ''[[модель алгоритмов]]'' <tex>A= \{a:\: X\to Y\}</tex>,
+== Ожидаемый и эмпирический риск ==
-в&nbsp;рамках которой будет вестись поиск отображения,
-приближающего неизвестную целевую зависимость.
-''Эмпирический риск'' — это функционал качества, характеризующий
+Пусть дано [[Пространство объектов|пространство объектов]] <math>X</math> и пространство ответов <math>Y</math>. Предполагается, что существует неизвестная совместная плотность распределения вероятностей <math>p(x, y)</math>, из которой порождаются данные.
-среднюю ошибку алгоритма <tex>a</tex> на выборке <tex>X^m</tex>:
-::<tex>Q(a,X^m) = \frac{1}{m} \sum_{i=1}^m {\mathcal L}(a(x_i),y^{*}(x_i)).</tex>
-''Метод минимизация эмпирического риска'' заключается в том, чтобы
+Имеется параметрическое семейство моделей:
-в&nbsp;заданной ''модели алгоритмов''&nbsp;<tex>A</tex>
+:<math>A = \{ a(x, w) \mid w \in W \}</math>,
-найти алгоритм, доставляющий минимальное значение функционалу эмпирического риска:
+где <math>W \subseteq \mathbb{R}^N</math> — пространство параметров (весов).
-::<tex>a = \mathrm{arg}\min_{a\in A} Q(a,X^m).</tex>
-=== Разновидности функций потерь ===
+Качество предсказания оценивается с помощью '''функции потерь''' (loss function) <math>\mathcal{L}(a(x, w), y)</math>.
-'''В задачах [[Задача классификации|классификации]]''' наиболее естественным выбором является ''пороговая функция потерь''
-::<tex>{\mathcal L}(y,y') = [y'\neq y].</tex>
-Когда функция потерь разрывна,
-минимизация эмпирического риска оказывается сложной задачей комбинаторной оптимизации.
-Во&nbsp;многих практически важных случаях эта сводится к поиску [[Максимальная совместная подсистема|максимальной совместной подсистемы]] в системе неравенств (число неравенств совпадает с число объектов обучения&nbsp;<tex>m</tex>) и является [[NP-полная задача|''NP''-полной]].
-Наряду с пороговыми фукциями потерь используются всевозможные их ''непрерывные аппроксимации'',
+'''Истинный (ожидаемый) риск''' <math>R(w)</math> — это математическое ожидание функции потерь по всему распределению <math>p(x, y)</math>:
-что позволяет применять достаточно эффективные классические методы непрерывной оптимизации,
+:<math>R(w) = \mathbb{E}_{x,y \sim p(x, y)} [\mathcal{L}(a(x, w), y)]</math>.
-в&nbsp;том числе градиентные методы.
+Идеальная цель машинного обучения — найти параметры <math>w</math>, минимизирующие истинный риск. Однако на практике распределение <math>p(x, y)</math> неизвестно.
-Более того, оказывается, что использование некоторых аппроксимаций
-способно улучшать [[обобщающая способность|обобщающую способность]] алгоритма классификации.
-Более подробно непрерывные аппроксимации рассматриваются в статье «[[Линейный классификатор]]».
-'''В задачах [[Задача регрессии|регрессии]]''' наиболее типичным выбором является ''квадратичная функция потерь''
+Вместо этого доступна конечная обучающая выборка:
-::<tex>{\mathcal L}(y,y') = (y'-y)^2.</tex>
+:<math>X^{\ell} = \{ (x_1, y_1), \dots, (x_{\ell}, y_{\ell}) \}</math>.
-== Достоинства и недостатки метода ==
+В соответствии с [[Закон больших чисел|законом больших чисел]], истинный риск заменяется его выборочной оценкой — '''эмпирическим риском''':
-Основное достоинство заключается в том, что это конструктивный и универсальный подход,
+:<math>Q(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i)</math>.
-позволяющий сводить задачу обучения к задачам численной оптимизации.
-Основной недостаток — явление ''[[переобучение|переобучения]]'', которое возникает практически всегда при использовании метода минимизации эмпирического риска.
+Принцип ERM утверждает, что оптимальные параметры модели <math>w^*</math> должны доставлять минимум функционалу эмпирического риска:
-* Ограничение сложности модели
+:<math>w^* = \arg\min_{w \in W} Q(w, X^{\ell}) \to \min_w</math>.
-** [[Метод структурной минимизации риска]]
-** [[Отбор признаков]]
-* Наложение дополнительных ограничений на параметры модели
-** [[Регуляризация]]
-** [[Байесовская регуляризация]]
-== Разновидности моделей алгоритмов ==
+== Условия состоятельности и переобучение ==
-* Линейные модели классификации
-* Линейные модели регрессии
-* Нелинейные модели классификации
-* Нелинейные модели регрессии
-== Литература ==
+Главная проблема принципа ERM заключается в том, что при высокой сложности семейства моделей <math>A</math> (например, в глубоких нейронных сетях) и малом объёме выборки <math>\ell</math>, минимум эмпирического риска не гарантирует минимума истинного риска. Возникает эффект '''[[Переобучение|переобучения]]''' (overfitting), когда <math>Q(w^*, X^{\ell}) \approx 0</math>, но истинный риск <math>R(w^*)</math> оказывается огромным.
-# {{П:Вапник 74}}
-# {{П:Вапник 79}}
+Согласно теории Вапника — Червоненкиса, с вероятностью <math>1 - \eta</math> истинный риск ограничен сверху:
-# {{П:Hastie 2001 The Elements of Statistical Learning}}
+:<math>R(w) \leqslant Q(w, X^{\ell}) + \sqrt{\frac{h (\ln(2\ell/h) + 1) - \ln(\eta/4)}{\ell}}</math>,
+где <math>h</math> — [[Емкость (машинное обучение)|VC-размерность]] (мера сложности) семейства моделей. Для состоятельности принципа ERM необходимо, чтобы объем выборки значительно превосходил сложность модели (<math>\ell \gg h</math>).
+=== Регуляризация ===
+Для борьбы с переобучением применяется '''[[Регуляризация|регуляризация]]'''. К эмпирическому риску добавляется штрафное слагаемое <math>\mathcal{R}(w)</math>, ограничивающее эффективную сложность модели:
+:<math>Q_{\text{reg}}(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i) + \tau \mathcal{R}(w) \to \min_{w}</math>,
+где <math>\tau</math> — коэффициент регуляризации. Наиболее популярны <math>L_2</math>-норма (сокращение весов) и <math>L_1</math>-норма (отбор признаков).
+== Основные типы функций потерь ==
+Выбор <math>\mathcal{L}</math> зависит от типа прикладной задачи.
+В задачах '''[[Регрессионный анализ|регрессии]]''':
+* Квадратичная ошибка (MSE): <math>\mathcal{L}(w, x_i) = (a(x_i, w) - y_i)^2</math>.
+* Абсолютная ошибка (MAE, для [[Робастное обучение|робастности]] к выбросам): <math>\mathcal{L}(w, x_i) = |a(x_i, w) - y_i|</math>.
+В задачах '''[[Классификация|бинарной классификации]]''' (где <math>y \in \{-1, +1\}</math>) функция потерь зависит от отступа <math>M_i(w) = a(x_i, w)y_i</math>:
+* Логистическая функция (в [[Логистическая регрессия|логистической регрессии]]): <math>\mathcal{L}(M) = \ln(1 + e^{-M})</math>.
+* Кусочно-линейная функция (в [[Метод опорных векторов|SVM]]): <math>\mathcal{L}(M) = \max(0, 1 - M)</math>.
+== Методы оптимизации ==
+В современных задачах с большими данными прямое вычисление градиента эмпирического риска по всей выборке <math>X^\ell</math> вычислительно неэффективно. Применяется метод '''[[Стохастический градиентный спуск|стохастического градиента]]''' (SG). На каждой итерации <math>t</math> градиентный шаг делается на основе потери только на одном случайно выбранном объекте <math>x_i</math>:
+:<math>w^{(t+1)} := w^{(t)} - h \left( \nabla \mathcal{L}(a(x_i, w^{(t)}), y_i) + \tau \nabla \mathcal{R}(w^{(t)}) \right)</math>.
+Для ускорения сходимости используются эвристики, такие как метод накопления инерции (Momentum) или адаптивный шаг (Adam).
 == См. также ==
-* [[Переобучение]]
-* [[Теория вычислительного обучения]]
-* [[Восстановление зависимостей по эмпирическим данным]]
 * [[Теория Вапника-Червоненкиса]]
-* [[Линейный классификатор]]
+* [[Переобучение]]
+* [[Регуляризация (машинное обучение)]]
+* [[Стохастический градиентный спуск]]
-== Ссылки ==
+== Примечания ==
+<references/>
+== Литература ==
+* ''Hastie T., Tibshirani R., Friedman J.'' The Elements of Statistical Learning. — Springer, 2017.
+* ''Воронцов К. В.'' Философия. Введение в ИИ (курс лекций). — 2026.
+* ''Мерков А. Б.'' Распознавание образов. Введение в методы статистического обучения. — М.: Едиториал УРСС, 2011.
-{{stub}}
+[[Категория:Машинное обучение]]
+[[Категория:Математические методы]]
 [[Категория:Теория вычислительного обучения]]