Минимизация эмпирического риска

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (уточнение)
Строка 1: Строка 1:
-
{{TOCright}}
+
{{well|Статья написана с использованием LLM '''ChatGPT''' и проверена участником [[Участник:Polina Khadralinova|Polina Khadralinova]] 00:11, 22 июня 2026 (MSD)}}
-
'''Эмпирический риск''' (Empirical Risk) — это средняя величина ошибки [[алгоритм]]а на [[обучающая выборка|обучающей выборке]].
+
-
Метод '''минимизации эмпирического риска''' (Empirical Risk Minimization, ERM) — это общий подход к решению широкого класса задач [[обучение по прецедентам|обучения по прецедентам]], в первую очередь — задач [[обучение с учителем|обучения с учителем]], включая задачи [[классификация|классификации]] и [[регрессия|регрессии]].
+
'''Минимизация эмпирического риска''' (англ. ''Empirical Risk Minimization, ERM'') — один из фундаментальных принципов в [[Теория вычислительного обучения|теории машинного обучения]], определяющий метод построения [[Обучение с учителем|алгоритмов обучения с учителем]]. Суть принципа заключается в выборе параметрической модели, которая минимизирует среднюю ошибку (функцию потерь) на заданной [[Выборка|обучающей выборке]].
-
== Определения ==
+
Данный принцип является строгой математической формализацией [[Эмпирическая индукция|эмпирической индукции]] Фрэнсиса Бэкона: на основе частных опытных данных (прецедентов) строится общее закономерное правило (модель), способное делать предсказания для новых объектов.
-
=== Задача обучения по прецедентам ===
+
== Историческая справка ==
-
Пусть <tex>X</tex> — множество описаний объектов,
+
-
<tex>Y</tex> — множество допустимых ответов.
+
-
Предполагается, что существует неизвестная ''целевая зависимость'' — отображение
+
-
<tex>y^{*}:\: X\to Y</tex>,
+
-
значения которой известны только на объектах конечной [[обучающая выборка|обучающей выборки]]
+
-
<tex>X^m = \{(x_1,y_1),\ldots,(x_m,y_m)\}</tex>.
+
-
''Задача обучения по прецедентам'' состоит в том, чтобы построить алгоритм
+
Идейным предшественником принципа ERM является [[Метод наименьших квадратов|метод наименьших квадратов]], предложенный Карлом Фридрихом Гауссом (1795) и Адриеном Мари Лежандром (1805) для астрономических вычислений. Они первыми предложили искать параметры модели, минимизируя сумму квадратов отклонений на известных точках<ref>Gauss C. F. Theoria motus corporum coelestium in sectionibus conicis solem ambientium. — 1809.</ref>.
-
<tex>a:\: X\to Y</tex>,
+
-
который приближал бы неизвестную целевую зависимость как на элементах выборки, так и на всём множестве <tex>X</tex>.
+
-
=== Функция потерь и эмпирический риск ===
+
Строгое математическое и статистическое обоснование принципа минимизации эмпирического риска было разработано в 1960–1970-х годах в рамках статистической теории обучения (теории Вапника — Червоненкиса). В. Н. Вапник и А. Я. Червоненкис доказали теоремы о равномерной сходимости частот к вероятностям, определив условия, при которых минимизация ошибки на обучающей выборке гарантирует низкую ошибку на новых данных<ref>Вапник В. Н., Червоненкис А. Я. Теория распознавания образов. — М.: Наука, 1974.</ref>.
-
Вводится ''[[функция потерь]]''
+
-
<tex>{\mathcal L}(y,y')</tex>,
+
-
характеризующая величину отклонения ответа
+
-
<tex>y=a(x)</tex>
+
-
от правильного ответа
+
-
<tex>y'=y^{*}(x)</tex>
+
-
на произвольном объекте <tex>x\in X</tex>.
+
-
Вводится ''[[модель алгоритмов]]'' <tex>A= \{a:\: X\to Y\}</tex>,
+
== Ожидаемый и эмпирический риск ==
-
в&nbsp;рамках которой будет вестись поиск отображения,
+
-
приближающего неизвестную целевую зависимость.
+
-
''Эмпирический риск'' — это функционал качества, характеризующий
+
Пусть дано [[Пространство объектов|пространство объектов]] <math>X</math> и пространство ответов <math>Y</math>. Предполагается, что существует неизвестная совместная плотность распределения вероятностей <math>p(x, y)</math>, из которой порождаются данные.
-
среднюю ошибку алгоритма <tex>a</tex> на выборке <tex>X^m</tex>:
+
-
::<tex>Q(a,X^m) = \frac{1}{m} \sum_{i=1}^m {\mathcal L}(a(x_i),y^{*}(x_i)).</tex>
+
-
''Метод минимизация эмпирического риска'' заключается в том, чтобы
+
Имеется параметрическое семейство моделей:
-
в&nbsp;заданной ''модели алгоритмов''&nbsp;<tex>A</tex>
+
:<math>A = \{ a(x, w) \mid w \in W \}</math>,
-
найти алгоритм, доставляющий минимальное значение функционалу эмпирического риска:
+
где <math>W \subseteq \mathbb{R}^N</math> — пространство параметров (весов).
-
::<tex>a = \mathrm{arg}\min_{a\in A} Q(a,X^m).</tex>
+
-
=== Разновидности функций потерь ===
+
Качество предсказания оценивается с помощью '''функции потерь''' (loss function) <math>\mathcal{L}(a(x, w), y)</math>.
-
'''В задачах [[Задача классификации|классификации]]''' наиболее естественным выбором является ''пороговая функция потерь''
+
-
::<tex>{\mathcal L}(y,y') = [y'\neq y].</tex>
+
-
Когда функция потерь разрывна,
+
-
минимизация эмпирического риска оказывается сложной задачей комбинаторной оптимизации.
+
-
Во&nbsp;многих практически важных случаях эта сводится к поиску [[Максимальная совместная подсистема|максимальной совместной подсистемы]] в системе неравенств (число неравенств совпадает с число объектов обучения&nbsp;<tex>m</tex>) и является [[NP-полная задача|''NP''-полной]].
+
-
Наряду с пороговыми фукциями потерь используются всевозможные их ''непрерывные аппроксимации'',
+
'''Истинный (ожидаемый) риск''' <math>R(w)</math> — это математическое ожидание функции потерь по всему распределению <math>p(x, y)</math>:
-
что позволяет применять достаточно эффективные классические методы непрерывной оптимизации,
+
:<math>R(w) = \mathbb{E}_{x,y \sim p(x, y)} [\mathcal{L}(a(x, w), y)]</math>.
-
в&nbsp;том числе градиентные методы.
+
Идеальная цель машинного обучения — найти параметры <math>w</math>, минимизирующие истинный риск. Однако на практике распределение <math>p(x, y)</math> неизвестно.
-
Более того, оказывается, что использование некоторых аппроксимаций
+
-
способно улучшать [[обобщающая способность|обобщающую способность]] алгоритма классификации.
+
-
Более подробно непрерывные аппроксимации рассматриваются в статье «[[Линейный классификатор]]».
+
-
'''В задачах [[Задача регрессии|регрессии]]''' наиболее типичным выбором является ''квадратичная функция потерь''
+
Вместо этого доступна конечная обучающая выборка:
-
::<tex>{\mathcal L}(y,y') = (y'-y)^2.</tex>
+
:<math>X^{\ell} = \{ (x_1, y_1), \dots, (x_{\ell}, y_{\ell}) \}</math>.
-
== Достоинства и недостатки метода ==
+
В соответствии с [[Закон больших чисел|законом больших чисел]], истинный риск заменяется его выборочной оценкой — '''эмпирическим риском''':
-
Основное достоинство заключается в том, что это конструктивный и универсальный подход,
+
:<math>Q(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i)</math>.
-
позволяющий сводить задачу обучения к задачам численной оптимизации.
+
-
Основной недостаток — явление ''[[переобучение|переобучения]]'', которое возникает практически всегда при использовании метода минимизации эмпирического риска.
+
Принцип ERM утверждает, что оптимальные параметры модели <math>w^*</math> должны доставлять минимум функционалу эмпирического риска:
-
* Ограничение сложности модели
+
:<math>w^* = \arg\min_{w \in W} Q(w, X^{\ell}) \to \min_w</math>.
-
** [[Метод структурной минимизации риска]]
+
-
** [[Отбор признаков]]
+
-
* Наложение дополнительных ограничений на параметры модели
+
-
** [[Регуляризация]]
+
-
** [[Байесовская регуляризация]]
+
-
== Разновидности моделей алгоритмов ==
+
== Условия состоятельности и переобучение ==
-
* Линейные модели классификации
+
-
* Линейные модели регрессии
+
-
* Нелинейные модели классификации
+
-
* Нелинейные модели регрессии
+
-
== Литература ==
+
Главная проблема принципа ERM заключается в том, что при высокой сложности семейства моделей <math>A</math> (например, в глубоких нейронных сетях) и малом объёме выборки <math>\ell</math>, минимум эмпирического риска не гарантирует минимума истинного риска. Возникает эффект '''[[Переобучение|переобучения]]''' (overfitting), когда <math>Q(w^*, X^{\ell}) \approx 0</math>, но истинный риск <math>R(w^*)</math> оказывается огромным.
-
# {:Вапник 74}}
+
 
-
# {{П:Вапник 79}}
+
Согласно теории Вапника — Червоненкиса, с вероятностью <math>1 - \eta</math> истинный риск ограничен сверху:
-
# {{П:Hastie 2001 The Elements of Statistical Learning}}
+
:<math>R(w) \leqslant Q(w, X^{\ell}) + \sqrt{\frac{h (\ln(2\ell/h) + 1) - \ln(\eta/4)}{\ell}}</math>,
 +
где <math>h</math> — [[Емкость (машинное обучение)|VC-размерность]] (мера сложности) семейства моделей. Для состоятельности принципа ERM необходимо, чтобы объем выборки значительно превосходил сложность модели (<math>\ell \gg h</math>).
 +
 
 +
=== Регуляризация ===
 +
Для борьбы с переобучением применяется '''[[Регуляризация|регуляризация]]'''. К эмпирическому риску добавляется штрафное слагаемое <math>\mathcal{R}(w)</math>, ограничивающее эффективную сложность модели:
 +
:<math>Q_{\text{reg}}(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i) + \tau \mathcal{R}(w) \to \min_{w}</math>,
 +
где <math>\tau</math> — коэффициент регуляризации. Наиболее популярны <math>L_2</math>-норма (сокращение весов) и <math>L_1</math>-норма (отбор признаков).
 +
 
 +
== Основные типы функций потерь ==
 +
 
 +
Выбор <math>\mathcal{L}</math> зависит от типа прикладной задачи.
 +
 
 +
В задачах '''[[Регрессионный анализ|регрессии]]''':
 +
* Квадратичная ошибка (MSE): <math>\mathcal{L}(w, x_i) = (a(x_i, w) - y_i)^2</math>.
 +
* Абсолютная ошибка (MAE, для [[Робастное обучение|робастности]] к выбросам): <math>\mathcal{L}(w, x_i) = |a(x_i, w) - y_i|</math>.
 +
 
 +
В задачах '''[[Классификация|бинарной классификации]]''' (где <math>y \in \{-1, +1\}</math>) функция потерь зависит от отступа <math>M_i(w) = a(x_i, w)y_i</math>:
 +
* Логистическая функция (в [[Логистическая регрессия|логистической регрессии]]): <math>\mathcal{L}(M) = \ln(1 + e^{-M})</math>.
 +
* Кусочно-линейная функция (в [[Метод опорных векторов|SVM]]): <math>\mathcal{L}(M) = \max(0, 1 - M)</math>.
 +
 
 +
== Методы оптимизации ==
 +
 
 +
В современных задачах с большими данными прямое вычисление градиента эмпирического риска по всей выборке <math>X^\ell</math> вычислительно неэффективно. Применяется метод '''[[Стохастический градиентный спуск|стохастического градиента]]''' (SG). На каждой итерации <math>t</math> градиентный шаг делается на основе потери только на одном случайно выбранном объекте <math>x_i</math>:
 +
:<math>w^{(t+1)} := w^{(t)} - h \left( \nabla \mathcal{L}(a(x_i, w^{(t)}), y_i) + \tau \nabla \mathcal{R}(w^{(t)}) \right)</math>.
 +
Для ускорения сходимости используются эвристики, такие как метод накопления инерции (Momentum) или адаптивный шаг (Adam).
== См. также ==
== См. также ==
-
* [[Переобучение]]
 
-
* [[Теория вычислительного обучения]]
 
-
* [[Восстановление зависимостей по эмпирическим данным]]
 
* [[Теория Вапника-Червоненкиса]]
* [[Теория Вапника-Червоненкиса]]
-
* [[Линейный классификатор]]
+
* [[Переобучение]]
 +
* [[Регуляризация (машинное обучение)]]
 +
* [[Стохастический градиентный спуск]]
-
== Ссылки ==
+
== Примечания ==
 +
<references/>
 +
 
 +
== Литература ==
 +
* ''Hastie T., Tibshirani R., Friedman J.'' The Elements of Statistical Learning. — Springer, 2017.
 +
* ''Воронцов К. В.'' Философия. Введение в ИИ (курс лекций). — 2026.
 +
* ''Мерков А. Б.'' Распознавание образов. Введение в методы статистического обучения. — М.: Едиториал УРСС, 2011.
-
{{stub}}
+
[[Категория:Машинное обучение]]
 +
[[Категория:Математические методы]]
[[Категория:Теория вычислительного обучения]]
[[Категория:Теория вычислительного обучения]]

Версия 20:11, 21 июня 2026

Статья написана с использованием LLM ChatGPT и проверена участником Polina Khadralinova 00:11, 22 июня 2026 (MSD)


Минимизация эмпирического риска (англ. Empirical Risk Minimization, ERM) — один из фундаментальных принципов в теории машинного обучения, определяющий метод построения алгоритмов обучения с учителем. Суть принципа заключается в выборе параметрической модели, которая минимизирует среднюю ошибку (функцию потерь) на заданной обучающей выборке.

Данный принцип является строгой математической формализацией эмпирической индукции Фрэнсиса Бэкона: на основе частных опытных данных (прецедентов) строится общее закономерное правило (модель), способное делать предсказания для новых объектов.

Содержание

Историческая справка

Идейным предшественником принципа ERM является метод наименьших квадратов, предложенный Карлом Фридрихом Гауссом (1795) и Адриеном Мари Лежандром (1805) для астрономических вычислений. Они первыми предложили искать параметры модели, минимизируя сумму квадратов отклонений на известных точках[1].

Строгое математическое и статистическое обоснование принципа минимизации эмпирического риска было разработано в 1960–1970-х годах в рамках статистической теории обучения (теории Вапника — Червоненкиса). В. Н. Вапник и А. Я. Червоненкис доказали теоремы о равномерной сходимости частот к вероятностям, определив условия, при которых минимизация ошибки на обучающей выборке гарантирует низкую ошибку на новых данных[1].

Ожидаемый и эмпирический риск

Пусть дано пространство объектов <math>X</math> и пространство ответов <math>Y</math>. Предполагается, что существует неизвестная совместная плотность распределения вероятностей <math>p(x, y)</math>, из которой порождаются данные.

Имеется параметрическое семейство моделей:

<math>A = \{ a(x, w) \mid w \in W \}</math>,

где <math>W \subseteq \mathbb{R}^N</math> — пространство параметров (весов).

Качество предсказания оценивается с помощью функции потерь (loss function) <math>\mathcal{L}(a(x, w), y)</math>.

Истинный (ожидаемый) риск <math>R(w)</math> — это математическое ожидание функции потерь по всему распределению <math>p(x, y)</math>:

<math>R(w) = \mathbb{E}_{x,y \sim p(x, y)} [\mathcal{L}(a(x, w), y)]</math>.

Идеальная цель машинного обучения — найти параметры <math>w</math>, минимизирующие истинный риск. Однако на практике распределение <math>p(x, y)</math> неизвестно.

Вместо этого доступна конечная обучающая выборка:

<math>X^{\ell} = \{ (x_1, y_1), \dots, (x_{\ell}, y_{\ell}) \}</math>.

В соответствии с законом больших чисел, истинный риск заменяется его выборочной оценкой — эмпирическим риском:

<math>Q(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i)</math>.

Принцип ERM утверждает, что оптимальные параметры модели <math>w^*</math> должны доставлять минимум функционалу эмпирического риска:

<math>w^* = \arg\min_{w \in W} Q(w, X^{\ell}) \to \min_w</math>.

Условия состоятельности и переобучение

Главная проблема принципа ERM заключается в том, что при высокой сложности семейства моделей <math>A</math> (например, в глубоких нейронных сетях) и малом объёме выборки <math>\ell</math>, минимум эмпирического риска не гарантирует минимума истинного риска. Возникает эффект переобучения (overfitting), когда <math>Q(w^*, X^{\ell}) \approx 0</math>, но истинный риск <math>R(w^*)</math> оказывается огромным.

Согласно теории Вапника — Червоненкиса, с вероятностью <math>1 - \eta</math> истинный риск ограничен сверху:

<math>R(w) \leqslant Q(w, X^{\ell}) + \sqrt{\frac{h (\ln(2\ell/h) + 1) - \ln(\eta/4)}{\ell}}</math>,

где <math>h</math> — VC-размерность (мера сложности) семейства моделей. Для состоятельности принципа ERM необходимо, чтобы объем выборки значительно превосходил сложность модели (<math>\ell \gg h</math>).

Регуляризация

Для борьбы с переобучением применяется регуляризация. К эмпирическому риску добавляется штрафное слагаемое <math>\mathcal{R}(w)</math>, ограничивающее эффективную сложность модели:

<math>Q_{\text{reg}}(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i) + \tau \mathcal{R}(w) \to \min_{w}</math>,

где <math>\tau</math> — коэффициент регуляризации. Наиболее популярны <math>L_2</math>-норма (сокращение весов) и <math>L_1</math>-норма (отбор признаков).

Основные типы функций потерь

Выбор <math>\mathcal{L}</math> зависит от типа прикладной задачи.

В задачах регрессии:

  • Квадратичная ошибка (MSE): <math>\mathcal{L}(w, x_i) = (a(x_i, w) - y_i)^2</math>.
  • Абсолютная ошибка (MAE, для робастности к выбросам): <math>\mathcal{L}(w, x_i) = |a(x_i, w) - y_i|</math>.

В задачах бинарной классификации (где <math>y \in \{-1, +1\}</math>) функция потерь зависит от отступа <math>M_i(w) = a(x_i, w)y_i</math>:

  • Логистическая функция (в логистической регрессии): <math>\mathcal{L}(M) = \ln(1 + e^{-M})</math>.
  • Кусочно-линейная функция (в SVM): <math>\mathcal{L}(M) = \max(0, 1 - M)</math>.

Методы оптимизации

В современных задачах с большими данными прямое вычисление градиента эмпирического риска по всей выборке <math>X^\ell</math> вычислительно неэффективно. Применяется метод стохастического градиента (SG). На каждой итерации <math>t</math> градиентный шаг делается на основе потери только на одном случайно выбранном объекте <math>x_i</math>:

<math>w^{(t+1)} := w^{(t)} - h \left( \nabla \mathcal{L}(a(x_i, w^{(t)}), y_i) + \tau \nabla \mathcal{R}(w^{(t)}) \right)</math>.

Для ускорения сходимости используются эвристики, такие как метод накопления инерции (Momentum) или адаптивный шаг (Adam).

См. также

Примечания


Литература

  • Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. — Springer, 2017.
  • Воронцов К. В. Философия. Введение в ИИ (курс лекций). — 2026.
  • Мерков А. Б. Распознавание образов. Введение в методы статистического обучения. — М.: Едиториал УРСС, 2011.