Минимизация эмпирического риска

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
 
(3 промежуточные версии не показаны)
Строка 1: Строка 1:
-
{{well|Статья написана с использованием LLM '''ChatGPT''' и проверена участником [[Участник:Polina Khadralinova|Polina Khadralinova]] 00:11, 22 июня 2026 (MSD)}}
+
{{well|'''СТАТЬЯ В РАЗРАБОТКЕ:''' Этот материал сейчас находится в процессе активного редактирования и доработки участником Polina Khadralinova.}}
-
 
+
'''Минимизация эмпирического риска''' (англ. ''Empirical Risk Minimization, ERM'') — один из фундаментальных принципов в [[Теория вычислительного обучения|теории машинного обучения]], определяющий метод построения [[Обучение с учителем|алгоритмов обучения с учителем]]. Суть принципа заключается в выборе параметрической модели, которая минимизирует среднюю ошибку (функцию потерь) на заданной [[Выборка|обучающей выборке]].
'''Минимизация эмпирического риска''' (англ. ''Empirical Risk Minimization, ERM'') — один из фундаментальных принципов в [[Теория вычислительного обучения|теории машинного обучения]], определяющий метод построения [[Обучение с учителем|алгоритмов обучения с учителем]]. Суть принципа заключается в выборе параметрической модели, которая минимизирует среднюю ошибку (функцию потерь) на заданной [[Выборка|обучающей выборке]].
Строка 6: Строка 5:
== Историческая справка ==
== Историческая справка ==
-
 
Идейным предшественником принципа ERM является [[Метод наименьших квадратов|метод наименьших квадратов]], предложенный Карлом Фридрихом Гауссом (1795) и Адриеном Мари Лежандром (1805) для астрономических вычислений. Они первыми предложили искать параметры модели, минимизируя сумму квадратов отклонений на известных точках<ref>Gauss C. F. Theoria motus corporum coelestium in sectionibus conicis solem ambientium. — 1809.</ref>.
Идейным предшественником принципа ERM является [[Метод наименьших квадратов|метод наименьших квадратов]], предложенный Карлом Фридрихом Гауссом (1795) и Адриеном Мари Лежандром (1805) для астрономических вычислений. Они первыми предложили искать параметры модели, минимизируя сумму квадратов отклонений на известных точках<ref>Gauss C. F. Theoria motus corporum coelestium in sectionibus conicis solem ambientium. — 1809.</ref>.
Строка 12: Строка 10:
== Ожидаемый и эмпирический риск ==
== Ожидаемый и эмпирический риск ==
-
 
+
Пусть дано [[Пространство объектов|пространство объектов]] <tex>X</tex> и пространство ответов <tex>Y</tex>. Предполагается, что существует неизвестная совместная плотность распределения вероятностей <tex>p(x, y)</tex>, из которой порождаются данные.
-
Пусть дано [[Пространство объектов|пространство объектов]] <math>X</math> и пространство ответов <math>Y</math>. Предполагается, что существует неизвестная совместная плотность распределения вероятностей <math>p(x, y)</math>, из которой порождаются данные.
+
Имеется параметрическое семейство моделей:
Имеется параметрическое семейство моделей:
-
:<math>A = \{ a(x, w) \mid w \in W \}</math>,
+
:<tex>A = \{ a(x, w) \mid w \in W \}</tex>,
-
где <math>W \subseteq \mathbb{R}^N</math> — пространство параметров (весов).
+
где <tex>W \subseteq \mathbb{R}^N</tex> — пространство параметров (весов).
-
Качество предсказания оценивается с помощью '''функции потерь''' (loss function) <math>\mathcal{L}(a(x, w), y)</math>.
+
Качество предсказания оценивается с помощью '''функции потерь''' (loss function) <tex>\mathcal{L}(a(x, w), y)</tex>.
-
'''Истинный (ожидаемый) риск''' <math>R(w)</math> — это математическое ожидание функции потерь по всему распределению <math>p(x, y)</math>:
+
'''Истинный (ожидаемый) риск''' <tex>R(w)</tex> — это математическое ожидание функции потерь по всему распределению <tex>p(x, y)</tex>:
-
:<math>R(w) = \mathbb{E}_{x,y \sim p(x, y)} [\mathcal{L}(a(x, w), y)]</math>.
+
:<tex>R(w) = \mathbb{E}_{x,y \sim p(x, y)} [\mathcal{L}(a(x, w), y)]</tex>.
-
Идеальная цель машинного обучения — найти параметры <math>w</math>, минимизирующие истинный риск. Однако на практике распределение <math>p(x, y)</math> неизвестно.
+
Идеальная цель машинного обучения — найти параметры <tex>w</tex>, минимизирующие истинный риск. Однако на практике распределение <tex>p(x, y)</tex> неизвестно.
Вместо этого доступна конечная обучающая выборка:
Вместо этого доступна конечная обучающая выборка:
-
:<math>X^{\ell} = \{ (x_1, y_1), \dots, (x_{\ell}, y_{\ell}) \}</math>.
+
:<tex>X^{\ell} = \{ (x_1, y_1), \dots, (x_{\ell}, y_{\ell}) \}</tex>.
В соответствии с [[Закон больших чисел|законом больших чисел]], истинный риск заменяется его выборочной оценкой — '''эмпирическим риском''':
В соответствии с [[Закон больших чисел|законом больших чисел]], истинный риск заменяется его выборочной оценкой — '''эмпирическим риском''':
-
:<math>Q(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i)</math>.
+
:<tex>Q(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i)</tex>.
-
Принцип ERM утверждает, что оптимальные параметры модели <math>w^*</math> должны доставлять минимум функционалу эмпирического риска:
+
Принцип ERM утверждает, что оптимальные параметры модели <tex>w^*</tex> должны доставлять минимум функционалу эмпирического риска:
-
:<math>w^* = \arg\min_{w \in W} Q(w, X^{\ell}) \to \min_w</math>.
+
:<tex>w^* = \arg \min_{w \in W} Q(w, X^{\ell})</tex>.
== Условия состоятельности и переобучение ==
== Условия состоятельности и переобучение ==
 +
Главная проблема принципа ERM заключается в том, что при высокой сложности семейства моделей <tex>A</tex> (например, в глубоких нейронных сетях) и малом объёме выборки <tex>\ell</tex>, минимум эмпирического риска не гарантирует минимума истинного риска. Возникает эффект '''[[Переобучение|переобучения]]''' (overfitting), когда <tex>Q(w^*, X^{\ell}) \approx 0</tex>, но истинный риск <tex>R(w^*)</tex> оказывается огромным.
-
Главная проблема принципа ERM заключается в том, что при высокой сложности семейства моделей <math>A</math> (например, в глубоких нейронных сетях) и малом объёме выборки <math>\ell</math>, минимум эмпирического риска не гарантирует минимума истинного риска. Возникает эффект '''[[Переобучение|переобучения]]''' (overfitting), когда <math>Q(w^*, X^{\ell}) \approx 0</math>, но истинный риск <math>R(w^*)</math> оказывается огромным.
+
Согласно теории Вапника — Червоненкиса, с вероятностью <tex>1 - \eta</tex> истинный риск ограничен сверху:
-
 
+
:<tex>R(w) \le Q(w, X^{\ell}) + \sqrt{\frac{h (\ln(2\ell/h) + 1) - \ln(\eta/4)}{\ell}}</tex>,
-
Согласно теории Вапника — Червоненкиса, с вероятностью <math>1 - \eta</math> истинный риск ограничен сверху:
+
где <tex>h</tex> — [[Емкость (машинное обучение)|VC-размерность]] (мера сложности) семейства моделей. Для состоятельности принципа ERM необходимо, чтобы объем выборки значительно превосходил сложность модели (<tex>\ell \gg h</tex>).
-
:<math>R(w) \leqslant Q(w, X^{\ell}) + \sqrt{\frac{h (\ln(2\ell/h) + 1) - \ln(\eta/4)}{\ell}}</math>,
+
-
где <math>h</math> — [[Емкость (машинное обучение)|VC-размерность]] (мера сложности) семейства моделей. Для состоятельности принципа ERM необходимо, чтобы объем выборки значительно превосходил сложность модели (<math>\ell \gg h</math>).
+
=== Регуляризация ===
=== Регуляризация ===
-
Для борьбы с переобучением применяется '''[[Регуляризация|регуляризация]]'''. К эмпирическому риску добавляется штрафное слагаемое <math>\mathcal{R}(w)</math>, ограничивающее эффективную сложность модели:
+
Для борьбы с переобучением применяется '''[[Регуляризация|регуляризация]]'''. К эмпирическому риску добавляется штрафное слагаемое <tex>\mathcal{R}(w)</tex>, ограничивающее эффективную сложность модели:
-
:<math>Q_{\text{reg}}(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i) + \tau \mathcal{R}(w) \to \min_{w}</math>,
+
:<tex>Q_{\text{reg}}(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i) + \tau \mathcal{R}(w) \to \min_{w}</tex>,
-
где <math>\tau</math> — коэффициент регуляризации. Наиболее популярны <math>L_2</math>-норма (сокращение весов) и <math>L_1</math>-норма (отбор признаков).
+
где <tex>\tau</tex> — коэффициент регуляризации. Наиболее популярны <tex>L_2</tex>-норма (сокращение весов) и <tex>L_1</tex>-норма (отбор признаков).
== Основные типы функций потерь ==
== Основные типы функций потерь ==
-
 
+
Выбор <tex>\mathcal{L}</tex> зависит от типа прикладной задачи.
-
Выбор <math>\mathcal{L}</math> зависит от типа прикладной задачи.
+
В задачах '''[[Регрессионный анализ|регрессии]]''':
В задачах '''[[Регрессионный анализ|регрессии]]''':
-
* Квадратичная ошибка (MSE): <math>\mathcal{L}(w, x_i) = (a(x_i, w) - y_i)^2</math>.
+
* Квадратичная ошибка (MSE): <tex>\mathcal{L}(w, x_i) = (a(x_i, w) - y_i)^2</tex>.
-
* Абсолютная ошибка (MAE, для [[Робастное обучение|робастности]] к выбросам): <math>\mathcal{L}(w, x_i) = |a(x_i, w) - y_i|</math>.
+
* Абсолютная ошибка (MAE, для [[Робастное обучение|робастности]] к выбросам): <tex>\mathcal{L}(w, x_i) = |a(x_i, w) - y_i|</tex>.
-
В задачах '''[[Классификация|бинарной классификации]]''' (где <math>y \in \{-1, +1\}</math>) функция потерь зависит от отступа <math>M_i(w) = a(x_i, w)y_i</math>:
+
В задачах '''[[Классификация|бинарной классификации]]''' (где <tex>y \in \{-1, +1\}</tex>) функция потерь зависит от отступа <tex>M_i(w) = a(x_i, w)y_i</tex>:
-
* Логистическая функция (в [[Логистическая регрессия|логистической регрессии]]): <math>\mathcal{L}(M) = \ln(1 + e^{-M})</math>.
+
* Логистическая функция (в [[Логистическая регрессия|логистической регрессии]]): <tex>\mathcal{L}(M) = \ln(1 + e^{-M})</tex>.
-
* Кусочно-линейная функция (в [[Метод опорных векторов|SVM]]): <math>\mathcal{L}(M) = \max(0, 1 - M)</math>.
+
* Кусочно-линейная функция (в [[Метод опорных векторов|SVM]]): <tex>\mathcal{L}(M) = \max(0, 1 - M)</tex>.
== Методы оптимизации ==
== Методы оптимизации ==
-
 
+
В современных задачах с большими данными прямое вычисление градиента эмпирического риска по всей выборке <tex>X^\ell</tex> вычислительно неэффективно. Применяется метод '''[[Стохастический градиентный спуск|стохастического градиента]]''' (SG). На каждой итерации <tex>t</tex> градиентный шаг делается на основе потери только на одном случайно выбранном объекте <tex>x_i</tex>:
-
В современных задачах с большими данными прямое вычисление градиента эмпирического риска по всей выборке <math>X^\ell</math> вычислительно неэффективно. Применяется метод '''[[Стохастический градиентный спуск|стохастического градиента]]''' (SG). На каждой итерации <math>t</math> градиентный шаг делается на основе потери только на одном случайно выбранном объекте <math>x_i</math>:
+
:<tex>w^{(t+1)} = w^{(t)} - h ( \nabla \mathcal{L}(a(x_i, w^{(t)}), y_i) + \tau \nabla \mathcal{R}(w^{(t)}) )</tex>.
-
:<math>w^{(t+1)} := w^{(t)} - h \left( \nabla \mathcal{L}(a(x_i, w^{(t)}), y_i) + \tau \nabla \mathcal{R}(w^{(t)}) \right)</math>.
+
-
Для ускорения сходимости используются эвристики, такие как метод накопления инерции (Momentum) или адаптивный шаг (Adam).
+
== См. также ==
== См. также ==
Строка 69: Строка 62:
* [[Переобучение]]
* [[Переобучение]]
* [[Регуляризация (машинное обучение)]]
* [[Регуляризация (машинное обучение)]]
-
* [[Стохастический градиентный спуск]]
 
== Примечания ==
== Примечания ==
<references/>
<references/>
-
 
-
== Литература ==
 
-
* ''Hastie T., Tibshirani R., Friedman J.'' The Elements of Statistical Learning. — Springer, 2017.
 
-
* ''Воронцов К. В.'' Философия. Введение в ИИ (курс лекций). — 2026.
 
-
* ''Мерков А. Б.'' Распознавание образов. Введение в методы статистического обучения. — М.: Едиториал УРСС, 2011.
 
[[Категория:Машинное обучение]]
[[Категория:Машинное обучение]]
[[Категория:Математические методы]]
[[Категория:Математические методы]]
[[Категория:Теория вычислительного обучения]]
[[Категория:Теория вычислительного обучения]]

Текущая версия

СТАТЬЯ В РАЗРАБОТКЕ: Этот материал сейчас находится в процессе активного редактирования и доработки участником Polina Khadralinova.


Минимизация эмпирического риска (англ. Empirical Risk Minimization, ERM) — один из фундаментальных принципов в теории машинного обучения, определяющий метод построения алгоритмов обучения с учителем. Суть принципа заключается в выборе параметрической модели, которая минимизирует среднюю ошибку (функцию потерь) на заданной обучающей выборке.

Данный принцип является строгой математической формализацией эмпирической индукции Фрэнсиса Бэкона: на основе частных опытных данных (прецедентов) строится общее закономерное правило (модель), способное делать предсказания для новых объектов.

Содержание

Историческая справка

Идейным предшественником принципа ERM является метод наименьших квадратов, предложенный Карлом Фридрихом Гауссом (1795) и Адриеном Мари Лежандром (1805) для астрономических вычислений. Они первыми предложили искать параметры модели, минимизируя сумму квадратов отклонений на известных точках[1].

Строгое математическое и статистическое обоснование принципа минимизации эмпирического риска было разработано в 1960–1970-х годах в рамках статистической теории обучения (теории Вапника — Червоненкиса). В. Н. Вапник и А. Я. Червоненкис доказали теоремы о равномерной сходимости частот к вероятностям, определив условия, при которых минимизация ошибки на обучающей выборке гарантирует низкую ошибку на новых данных[1].

Ожидаемый и эмпирический риск

Пусть дано пространство объектов X и пространство ответов Y. Предполагается, что существует неизвестная совместная плотность распределения вероятностей p(x, y), из которой порождаются данные.

Имеется параметрическое семейство моделей:

A = \{ a(x, w) \mid w \in W \},

где W \subseteq \mathbb{R}^N — пространство параметров (весов).

Качество предсказания оценивается с помощью функции потерь (loss function) \mathcal{L}(a(x, w), y).

Истинный (ожидаемый) риск R(w) — это математическое ожидание функции потерь по всему распределению p(x, y):

R(w) = \mathbb{E}_{x,y \sim p(x, y)} [\mathcal{L}(a(x, w), y)].

Идеальная цель машинного обучения — найти параметры w, минимизирующие истинный риск. Однако на практике распределение p(x, y) неизвестно.

Вместо этого доступна конечная обучающая выборка:

X^{\ell} = \{ (x_1, y_1), \dots, (x_{\ell}, y_{\ell}) \}.

В соответствии с законом больших чисел, истинный риск заменяется его выборочной оценкой — эмпирическим риском:

Q(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i).

Принцип ERM утверждает, что оптимальные параметры модели w^* должны доставлять минимум функционалу эмпирического риска:

w^* = \arg \min_{w \in W} Q(w, X^{\ell}).

Условия состоятельности и переобучение

Главная проблема принципа ERM заключается в том, что при высокой сложности семейства моделей A (например, в глубоких нейронных сетях) и малом объёме выборки \ell, минимум эмпирического риска не гарантирует минимума истинного риска. Возникает эффект переобучения (overfitting), когда Q(w^*, X^{\ell}) \approx 0, но истинный риск R(w^*) оказывается огромным.

Согласно теории Вапника — Червоненкиса, с вероятностью 1 - \eta истинный риск ограничен сверху:

R(w) \le Q(w, X^{\ell}) + \sqrt{\frac{h (\ln(2\ell/h) + 1) - \ln(\eta/4)}{\ell}},

где hVC-размерность (мера сложности) семейства моделей. Для состоятельности принципа ERM необходимо, чтобы объем выборки значительно превосходил сложность модели (\ell \gg h).

Регуляризация

Для борьбы с переобучением применяется регуляризация. К эмпирическому риску добавляется штрафное слагаемое \mathcal{R}(w), ограничивающее эффективную сложность модели:

Q_{\text{reg}}(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i) + \tau \mathcal{R}(w) \to \min_{w},

где \tau — коэффициент регуляризации. Наиболее популярны L_2-норма (сокращение весов) и L_1-норма (отбор признаков).

Основные типы функций потерь

Выбор \mathcal{L} зависит от типа прикладной задачи.

В задачах регрессии:

  • Квадратичная ошибка (MSE): \mathcal{L}(w, x_i) = (a(x_i, w) - y_i)^2.
  • Абсолютная ошибка (MAE, для робастности к выбросам): \mathcal{L}(w, x_i) = |a(x_i, w) - y_i|.

В задачах бинарной классификации (где y \in \{-1, +1\}) функция потерь зависит от отступа M_i(w) = a(x_i, w)y_i:

Методы оптимизации

В современных задачах с большими данными прямое вычисление градиента эмпирического риска по всей выборке X^\ell вычислительно неэффективно. Применяется метод стохастического градиента (SG). На каждой итерации t градиентный шаг делается на основе потери только на одном случайно выбранном объекте x_i:

w^{(t+1)} = w^{(t)} - h ( \nabla \mathcal{L}(a(x_i, w^{(t)}), y_i) + \tau \nabla \mathcal{R}(w^{(t)}) ).

См. также

Примечания