Минимизация эмпирического риска
Материал из MachineLearning.
м (уточнение) |
|||
| Строка 1: | Строка 1: | ||
| - | {{ | + | {{well|Статья написана с использованием LLM '''ChatGPT''' и проверена участником [[Участник:Polina Khadralinova|Polina Khadralinova]] 00:11, 22 июня 2026 (MSD)}} |
| - | ''' | + | |
| - | + | '''Минимизация эмпирического риска''' (англ. ''Empirical Risk Minimization, ERM'') — один из фундаментальных принципов в [[Теория вычислительного обучения|теории машинного обучения]], определяющий метод построения [[Обучение с учителем|алгоритмов обучения с учителем]]. Суть принципа заключается в выборе параметрической модели, которая минимизирует среднюю ошибку (функцию потерь) на заданной [[Выборка|обучающей выборке]]. | |
| - | + | Данный принцип является строгой математической формализацией [[Эмпирическая индукция|эмпирической индукции]] Фрэнсиса Бэкона: на основе частных опытных данных (прецедентов) строится общее закономерное правило (модель), способное делать предсказания для новых объектов. | |
| - | === | + | == Историческая справка == |
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | Идейным предшественником принципа ERM является [[Метод наименьших квадратов|метод наименьших квадратов]], предложенный Карлом Фридрихом Гауссом (1795) и Адриеном Мари Лежандром (1805) для астрономических вычислений. Они первыми предложили искать параметры модели, минимизируя сумму квадратов отклонений на известных точках<ref>Gauss C. F. Theoria motus corporum coelestium in sectionibus conicis solem ambientium. — 1809.</ref>. | |
| - | + | ||
| - | + | ||
| - | + | Строгое математическое и статистическое обоснование принципа минимизации эмпирического риска было разработано в 1960–1970-х годах в рамках статистической теории обучения (теории Вапника — Червоненкиса). В. Н. Вапник и А. Я. Червоненкис доказали теоремы о равномерной сходимости частот к вероятностям, определив условия, при которых минимизация ошибки на обучающей выборке гарантирует низкую ошибку на новых данных<ref>Вапник В. Н., Червоненкис А. Я. Теория распознавания образов. — М.: Наука, 1974.</ref>. | |
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | на | + | |
| - | + | == Ожидаемый и эмпирический риск == | |
| - | + | ||
| - | + | ||
| - | + | Пусть дано [[Пространство объектов|пространство объектов]] <math>X</math> и пространство ответов <math>Y</math>. Предполагается, что существует неизвестная совместная плотность распределения вероятностей <math>p(x, y)</math>, из которой порождаются данные. | |
| - | + | ||
| - | + | ||
| - | + | Имеется параметрическое семейство моделей: | |
| - | + | :<math>A = \{ a(x, w) \mid w \in W \}</math>, | |
| - | + | где <math>W \subseteq \mathbb{R}^N</math> — пространство параметров (весов). | |
| - | + | ||
| - | + | Качество предсказания оценивается с помощью '''функции потерь''' (loss function) <math>\mathcal{L}(a(x, w), y)</math>. | |
| - | ''' | + | |
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | '''Истинный (ожидаемый) риск''' <math>R(w)</math> — это математическое ожидание функции потерь по всему распределению <math>p(x, y)</math>: | |
| - | + | :<math>R(w) = \mathbb{E}_{x,y \sim p(x, y)} [\mathcal{L}(a(x, w), y)]</math>. | |
| - | + | Идеальная цель машинного обучения — найти параметры <math>w</math>, минимизирующие истинный риск. Однако на практике распределение <math>p(x, y)</math> неизвестно. | |
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | Вместо этого доступна конечная обучающая выборка: | |
| - | ::< | + | :<math>X^{\ell} = \{ (x_1, y_1), \dots, (x_{\ell}, y_{\ell}) \}</math>. |
| - | == | + | В соответствии с [[Закон больших чисел|законом больших чисел]], истинный риск заменяется его выборочной оценкой — '''эмпирическим риском''': |
| - | + | :<math>Q(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i)</math>. | |
| - | + | ||
| - | + | Принцип ERM утверждает, что оптимальные параметры модели <math>w^*</math> должны доставлять минимум функционалу эмпирического риска: | |
| - | + | :<math>w^* = \arg\min_{w \in W} Q(w, X^{\ell}) \to \min_w</math>. | |
| - | * | + | |
| - | * | + | |
| - | + | ||
| - | + | ||
| - | + | ||
| - | == | + | == Условия состоятельности и переобучение == |
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | == | + | Главная проблема принципа ERM заключается в том, что при высокой сложности семейства моделей <math>A</math> (например, в глубоких нейронных сетях) и малом объёме выборки <math>\ell</math>, минимум эмпирического риска не гарантирует минимума истинного риска. Возникает эффект '''[[Переобучение|переобучения]]''' (overfitting), когда <math>Q(w^*, X^{\ell}) \approx 0</math>, но истинный риск <math>R(w^*)</math> оказывается огромным. |
| - | + | ||
| - | + | Согласно теории Вапника — Червоненкиса, с вероятностью <math>1 - \eta</math> истинный риск ограничен сверху: | |
| - | + | :<math>R(w) \leqslant Q(w, X^{\ell}) + \sqrt{\frac{h (\ln(2\ell/h) + 1) - \ln(\eta/4)}{\ell}}</math>, | |
| + | где <math>h</math> — [[Емкость (машинное обучение)|VC-размерность]] (мера сложности) семейства моделей. Для состоятельности принципа ERM необходимо, чтобы объем выборки значительно превосходил сложность модели (<math>\ell \gg h</math>). | ||
| + | |||
| + | === Регуляризация === | ||
| + | Для борьбы с переобучением применяется '''[[Регуляризация|регуляризация]]'''. К эмпирическому риску добавляется штрафное слагаемое <math>\mathcal{R}(w)</math>, ограничивающее эффективную сложность модели: | ||
| + | :<math>Q_{\text{reg}}(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i) + \tau \mathcal{R}(w) \to \min_{w}</math>, | ||
| + | где <math>\tau</math> — коэффициент регуляризации. Наиболее популярны <math>L_2</math>-норма (сокращение весов) и <math>L_1</math>-норма (отбор признаков). | ||
| + | |||
| + | == Основные типы функций потерь == | ||
| + | |||
| + | Выбор <math>\mathcal{L}</math> зависит от типа прикладной задачи. | ||
| + | |||
| + | В задачах '''[[Регрессионный анализ|регрессии]]''': | ||
| + | * Квадратичная ошибка (MSE): <math>\mathcal{L}(w, x_i) = (a(x_i, w) - y_i)^2</math>. | ||
| + | * Абсолютная ошибка (MAE, для [[Робастное обучение|робастности]] к выбросам): <math>\mathcal{L}(w, x_i) = |a(x_i, w) - y_i|</math>. | ||
| + | |||
| + | В задачах '''[[Классификация|бинарной классификации]]''' (где <math>y \in \{-1, +1\}</math>) функция потерь зависит от отступа <math>M_i(w) = a(x_i, w)y_i</math>: | ||
| + | * Логистическая функция (в [[Логистическая регрессия|логистической регрессии]]): <math>\mathcal{L}(M) = \ln(1 + e^{-M})</math>. | ||
| + | * Кусочно-линейная функция (в [[Метод опорных векторов|SVM]]): <math>\mathcal{L}(M) = \max(0, 1 - M)</math>. | ||
| + | |||
| + | == Методы оптимизации == | ||
| + | |||
| + | В современных задачах с большими данными прямое вычисление градиента эмпирического риска по всей выборке <math>X^\ell</math> вычислительно неэффективно. Применяется метод '''[[Стохастический градиентный спуск|стохастического градиента]]''' (SG). На каждой итерации <math>t</math> градиентный шаг делается на основе потери только на одном случайно выбранном объекте <math>x_i</math>: | ||
| + | :<math>w^{(t+1)} := w^{(t)} - h \left( \nabla \mathcal{L}(a(x_i, w^{(t)}), y_i) + \tau \nabla \mathcal{R}(w^{(t)}) \right)</math>. | ||
| + | Для ускорения сходимости используются эвристики, такие как метод накопления инерции (Momentum) или адаптивный шаг (Adam). | ||
== См. также == | == См. также == | ||
| - | |||
| - | |||
| - | |||
* [[Теория Вапника-Червоненкиса]] | * [[Теория Вапника-Червоненкиса]] | ||
| - | * [[ | + | * [[Переобучение]] |
| + | * [[Регуляризация (машинное обучение)]] | ||
| + | * [[Стохастический градиентный спуск]] | ||
| - | == | + | == Примечания == |
| + | <references/> | ||
| + | |||
| + | == Литература == | ||
| + | * ''Hastie T., Tibshirani R., Friedman J.'' The Elements of Statistical Learning. — Springer, 2017. | ||
| + | * ''Воронцов К. В.'' Философия. Введение в ИИ (курс лекций). — 2026. | ||
| + | * ''Мерков А. Б.'' Распознавание образов. Введение в методы статистического обучения. — М.: Едиториал УРСС, 2011. | ||
| - | + | [[Категория:Машинное обучение]] | |
| + | [[Категория:Математические методы]] | ||
[[Категория:Теория вычислительного обучения]] | [[Категория:Теория вычислительного обучения]] | ||
Версия 20:11, 21 июня 2026
| | Статья написана с использованием LLM ChatGPT и проверена участником Polina Khadralinova 00:11, 22 июня 2026 (MSD) |
Минимизация эмпирического риска (англ. Empirical Risk Minimization, ERM) — один из фундаментальных принципов в теории машинного обучения, определяющий метод построения алгоритмов обучения с учителем. Суть принципа заключается в выборе параметрической модели, которая минимизирует среднюю ошибку (функцию потерь) на заданной обучающей выборке.
Данный принцип является строгой математической формализацией эмпирической индукции Фрэнсиса Бэкона: на основе частных опытных данных (прецедентов) строится общее закономерное правило (модель), способное делать предсказания для новых объектов.
Содержание |
Историческая справка
Идейным предшественником принципа ERM является метод наименьших квадратов, предложенный Карлом Фридрихом Гауссом (1795) и Адриеном Мари Лежандром (1805) для астрономических вычислений. Они первыми предложили искать параметры модели, минимизируя сумму квадратов отклонений на известных точках[1].
Строгое математическое и статистическое обоснование принципа минимизации эмпирического риска было разработано в 1960–1970-х годах в рамках статистической теории обучения (теории Вапника — Червоненкиса). В. Н. Вапник и А. Я. Червоненкис доказали теоремы о равномерной сходимости частот к вероятностям, определив условия, при которых минимизация ошибки на обучающей выборке гарантирует низкую ошибку на новых данных[1].
Ожидаемый и эмпирический риск
Пусть дано пространство объектов <math>X</math> и пространство ответов <math>Y</math>. Предполагается, что существует неизвестная совместная плотность распределения вероятностей <math>p(x, y)</math>, из которой порождаются данные.
Имеется параметрическое семейство моделей:
- <math>A = \{ a(x, w) \mid w \in W \}</math>,
где <math>W \subseteq \mathbb{R}^N</math> — пространство параметров (весов).
Качество предсказания оценивается с помощью функции потерь (loss function) <math>\mathcal{L}(a(x, w), y)</math>.
Истинный (ожидаемый) риск <math>R(w)</math> — это математическое ожидание функции потерь по всему распределению <math>p(x, y)</math>:
- <math>R(w) = \mathbb{E}_{x,y \sim p(x, y)} [\mathcal{L}(a(x, w), y)]</math>.
Идеальная цель машинного обучения — найти параметры <math>w</math>, минимизирующие истинный риск. Однако на практике распределение <math>p(x, y)</math> неизвестно.
Вместо этого доступна конечная обучающая выборка:
- <math>X^{\ell} = \{ (x_1, y_1), \dots, (x_{\ell}, y_{\ell}) \}</math>.
В соответствии с законом больших чисел, истинный риск заменяется его выборочной оценкой — эмпирическим риском:
- <math>Q(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i)</math>.
Принцип ERM утверждает, что оптимальные параметры модели <math>w^*</math> должны доставлять минимум функционалу эмпирического риска:
- <math>w^* = \arg\min_{w \in W} Q(w, X^{\ell}) \to \min_w</math>.
Условия состоятельности и переобучение
Главная проблема принципа ERM заключается в том, что при высокой сложности семейства моделей <math>A</math> (например, в глубоких нейронных сетях) и малом объёме выборки <math>\ell</math>, минимум эмпирического риска не гарантирует минимума истинного риска. Возникает эффект переобучения (overfitting), когда <math>Q(w^*, X^{\ell}) \approx 0</math>, но истинный риск <math>R(w^*)</math> оказывается огромным.
Согласно теории Вапника — Червоненкиса, с вероятностью <math>1 - \eta</math> истинный риск ограничен сверху:
- <math>R(w) \leqslant Q(w, X^{\ell}) + \sqrt{\frac{h (\ln(2\ell/h) + 1) - \ln(\eta/4)}{\ell}}</math>,
где <math>h</math> — VC-размерность (мера сложности) семейства моделей. Для состоятельности принципа ERM необходимо, чтобы объем выборки значительно превосходил сложность модели (<math>\ell \gg h</math>).
Регуляризация
Для борьбы с переобучением применяется регуляризация. К эмпирическому риску добавляется штрафное слагаемое <math>\mathcal{R}(w)</math>, ограничивающее эффективную сложность модели:
- <math>Q_{\text{reg}}(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i) + \tau \mathcal{R}(w) \to \min_{w}</math>,
где <math>\tau</math> — коэффициент регуляризации. Наиболее популярны <math>L_2</math>-норма (сокращение весов) и <math>L_1</math>-норма (отбор признаков).
Основные типы функций потерь
Выбор <math>\mathcal{L}</math> зависит от типа прикладной задачи.
В задачах регрессии:
- Квадратичная ошибка (MSE): <math>\mathcal{L}(w, x_i) = (a(x_i, w) - y_i)^2</math>.
- Абсолютная ошибка (MAE, для робастности к выбросам): <math>\mathcal{L}(w, x_i) = |a(x_i, w) - y_i|</math>.
В задачах бинарной классификации (где <math>y \in \{-1, +1\}</math>) функция потерь зависит от отступа <math>M_i(w) = a(x_i, w)y_i</math>:
- Логистическая функция (в логистической регрессии): <math>\mathcal{L}(M) = \ln(1 + e^{-M})</math>.
- Кусочно-линейная функция (в SVM): <math>\mathcal{L}(M) = \max(0, 1 - M)</math>.
Методы оптимизации
В современных задачах с большими данными прямое вычисление градиента эмпирического риска по всей выборке <math>X^\ell</math> вычислительно неэффективно. Применяется метод стохастического градиента (SG). На каждой итерации <math>t</math> градиентный шаг делается на основе потери только на одном случайно выбранном объекте <math>x_i</math>:
- <math>w^{(t+1)} := w^{(t)} - h \left( \nabla \mathcal{L}(a(x_i, w^{(t)}), y_i) + \tau \nabla \mathcal{R}(w^{(t)}) \right)</math>.
Для ускорения сходимости используются эвристики, такие как метод накопления инерции (Momentum) или адаптивный шаг (Adam).
См. также
- Теория Вапника-Червоненкиса
- Переобучение
- Регуляризация (машинное обучение)
- Стохастический градиентный спуск
Примечания
Литература
- Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. — Springer, 2017.
- Воронцов К. В. Философия. Введение в ИИ (курс лекций). — 2026.
- Мерков А. Б. Распознавание образов. Введение в методы статистического обучения. — М.: Едиториал УРСС, 2011.

