Минимизация эмпирического риска

Материал из MachineLearning.

(Различия между версиями)

Текущая версия

СТАТЬЯ В РАЗРАБОТКЕ: Этот материал сейчас находится в процессе активного редактирования и доработки участником Polina Khadralinova.

Минимизация эмпирического риска (англ. Empirical Risk Minimization, ERM) — один из фундаментальных принципов в теории машинного обучения, определяющий метод построения алгоритмов обучения с учителем. Суть принципа заключается в выборе параметрической модели, которая минимизирует среднюю ошибку (функцию потерь) на заданной обучающей выборке.

Данный принцип является строгой математической формализацией эмпирической индукции Фрэнсиса Бэкона: на основе частных опытных данных (прецедентов) строится общее закономерное правило (модель), способное делать предсказания для новых объектов.

Содержание

1 Историческая справка
2 Ожидаемый и эмпирический риск
3 Условия состоятельности и переобучение
- 3.1 Регуляризация
4 Основные типы функций потерь
5 Методы оптимизации
6 См. также
7 Примечания

Историческая справка

Идейным предшественником принципа ERM является метод наименьших квадратов, предложенный Карлом Фридрихом Гауссом (1795) и Адриеном Мари Лежандром (1805) для астрономических вычислений. Они первыми предложили искать параметры модели, минимизируя сумму квадратов отклонений на известных точках^[1].

Строгое математическое и статистическое обоснование принципа минимизации эмпирического риска было разработано в 1960–1970-х годах в рамках статистической теории обучения (теории Вапника — Червоненкиса). В. Н. Вапник и А. Я. Червоненкис доказали теоремы о равномерной сходимости частот к вероятностям, определив условия, при которых минимизация ошибки на обучающей выборке гарантирует низкую ошибку на новых данных^[1].

Ожидаемый и эмпирический риск

Пусть дано пространство объектов $X$ и пространство ответов $Y$ . Предполагается, что существует неизвестная совместная плотность распределения вероятностей $p(x, y)$ , из которой порождаются данные.

Имеется параметрическое семейство моделей:

$A = \{ a(x, w) \mid w \in W \}$ ,

где $W \subseteq \mathbb{R}^N$ — пространство параметров (весов).

Качество предсказания оценивается с помощью функции потерь (loss function) $\mathcal{L}(a(x, w), y)$ .

Истинный (ожидаемый) риск $R(w)$ — это математическое ожидание функции потерь по всему распределению $p(x, y)$ :

$R(w) = \mathbb{E}_{x,y \sim p(x, y)} [\mathcal{L}(a(x, w), y)]$ .

Идеальная цель машинного обучения — найти параметры $w$ , минимизирующие истинный риск. Однако на практике распределение $p(x, y)$ неизвестно.

Вместо этого доступна конечная обучающая выборка:

$X^{\ell} = \{ (x_1, y_1), \dots, (x_{\ell}, y_{\ell}) \}$ .

В соответствии с законом больших чисел, истинный риск заменяется его выборочной оценкой — эмпирическим риском:

$Q(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i)$ .

Принцип ERM утверждает, что оптимальные параметры модели $w^*$ должны доставлять минимум функционалу эмпирического риска:

$w^* = \arg \min_{w \in W} Q(w, X^{\ell})$ .

Условия состоятельности и переобучение

Главная проблема принципа ERM заключается в том, что при высокой сложности семейства моделей $A$ (например, в глубоких нейронных сетях) и малом объёме выборки $\ell$ , минимум эмпирического риска не гарантирует минимума истинного риска. Возникает эффект переобучения (overfitting), когда $Q(w^*, X^{\ell}) \approx 0$ , но истинный риск $R(w^*)$ оказывается огромным.

Согласно теории Вапника — Червоненкиса, с вероятностью $1 - \eta$ истинный риск ограничен сверху:

$R(w) \le Q(w, X^{\ell}) + \sqrt{\frac{h (\ln(2\ell/h) + 1) - \ln(\eta/4)}{\ell}}$ ,

где $h$ — VC-размерность (мера сложности) семейства моделей. Для состоятельности принципа ERM необходимо, чтобы объем выборки значительно превосходил сложность модели ( $\ell \gg h$ ).

Регуляризация

Для борьбы с переобучением применяется регуляризация. К эмпирическому риску добавляется штрафное слагаемое $\mathcal{R}(w)$ , ограничивающее эффективную сложность модели:

$Q_{\text{reg}}(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i) + \tau \mathcal{R}(w) \to \min_{w}$ ,

где $\tau$ — коэффициент регуляризации. Наиболее популярны $L_2$ -норма (сокращение весов) и $L_1$ -норма (отбор признаков).

Основные типы функций потерь

Выбор $\mathcal{L}$ зависит от типа прикладной задачи.

В задачах регрессии:

Квадратичная ошибка (MSE): $\mathcal{L}(w, x_i) = (a(x_i, w) - y_i)^2$ .
Абсолютная ошибка (MAE, для робастности к выбросам): $\mathcal{L}(w, x_i) = |a(x_i, w) - y_i|$ .

В задачах бинарной классификации (где $y \in \{-1, +1\}$ ) функция потерь зависит от отступа $M_i(w) = a(x_i, w)y_i$ :

Логистическая функция (в логистической регрессии): $\mathcal{L}(M) = \ln(1 + e^{-M})$ .
Кусочно-линейная функция (в SVM): $\mathcal{L}(M) = \max(0, 1 - M)$ .

Методы оптимизации

В современных задачах с большими данными прямое вычисление градиента эмпирического риска по всей выборке $X^\ell$ вычислительно неэффективно. Применяется метод стохастического градиента (SG). На каждой итерации $t$ градиентный шаг делается на основе потери только на одном случайно выбранном объекте $x_i$ :

$w^{(t+1)} = w^{(t)} - h ( \nabla \mathcal{L}(a(x_i, w^{(t)}), y_i) + \tau \nabla \mathcal{R}(w^{(t)}) )$ .

См. также

Примечания

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B8%D0%BD%D0%B8%D0%BC%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F_%D1%8D%D0%BC%D0%BF%D0%B8%D1%80%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D1%80%D0%B8%D1%81%D0%BA%D0%B0»

Категории: Машинное обучение | Математические методы | Теория вычислительного обучения

@@ Строка 1: / Строка 1: @@
-{{well|Статья написана с использованием LLM '''Gemini 3.1 Pro Preview''' и проверена участником Polina Khadralinova}}
+{{well|'''СТАТЬЯ В РАЗРАБОТКЕ:''' Этот материал сейчас находится в процессе активного редактирования и доработки участником Polina Khadralinova.}}
+'''Минимизация эмпирического риска''' (англ. ''Empirical Risk Minimization, ERM'') — один из фундаментальных принципов в [[Теория вычислительного обучения|теории машинного обучения]], определяющий метод построения [[Обучение с учителем|алгоритмов обучения с учителем]]. Суть принципа заключается в выборе параметрической модели, которая минимизирует среднюю ошибку (функцию потерь) на заданной [[Выборка|обучающей выборке]].
-'''Принцип эмпирической индукции Фрэнсиса Бэкона''' в контексте [[Машинное обучение|машинного обучения]] — это философско-методологическая основа извлечения закономерностей из данных. Сформулированный в XVII веке принцип перехода от частных наблюдений (прецедентов) к общим правилам сегодня является фундаментальной парадигмой [[Обучение по прецедентам|обучения по прецедентам]], математически выраженной через [[Минимизация эмпирического риска|минимизацию эмпирического риска]] (ERM).
+Данный принцип является строгой математической формализацией [[Эмпирическая индукция|эмпирической индукции]] Фрэнсиса Бэкона: на основе частных опытных данных (прецедентов) строится общее закономерное правило (модель), способное делать предсказания для новых объектов.
-С гносеологической точки зрения машинное обучение рассматривается не просто как набор алгоритмов, а как современная математическая технология автоматизации научного метода познания, у истоков которого стоял Фрэнсис Бэкон.
+== Историческая справка ==
+Идейным предшественником принципа ERM является [[Метод наименьших квадратов|метод наименьших квадратов]], предложенный Карлом Фридрихом Гауссом (1795) и Адриеном Мари Лежандром (1805) для астрономических вычислений. Они первыми предложили искать параметры модели, минимизируя сумму квадратов отклонений на известных точках<ref>Gauss C. F. Theoria motus corporum coelestium in sectionibus conicis solem ambientium. — 1809.</ref>.
-== Исторический контекст ==
+Строгое математическое и статистическое обоснование принципа минимизации эмпирического риска было разработано в 1960–1970-х годах в рамках статистической теории обучения (теории Вапника — Червоненкиса). В. Н. Вапник и А. Я. Червоненкис доказали теоремы о равномерной сходимости частот к вероятностям, определив условия, при которых минимизация ошибки на обучающей выборке гарантирует низкую ошибку на новых данных<ref>Вапник В. Н., Червоненкис А. Я. Теория распознавания образов. — М.: Наука, 1974.</ref>.
-Английский философ и политик Фрэнсис Бэкон (1561–1626) в своём фундаментальном труде «Новый Органон» (1620) подверг жёсткой критике формальную дедуктивную логику Аристотеля. Бэкон утверждал, что законы природы невозможно вывести из умозрительных, абстрактных аксиом; их необходимо «расшифровывать» исключительно из фактов опыта<ref>Бэкон Ф. Новый Органон, или Истинные указания для истолкования природы. — 1620.</ref>.
+== Ожидаемый и эмпирический риск ==
+Пусть дано [[Пространство объектов|пространство объектов]] <tex>X</tex> и пространство ответов <tex>Y</tex>. Предполагается, что существует неизвестная совместная плотность распределения вероятностей <tex>p(x, y)</tex>, из которой порождаются данные.
-Для систематизации наблюдений Бэкон предложил использовать так называемые «Таблицы открытия» (таблицы присутствия, отсутствия и степеней). Исследователь должен был фиксировать условия, при которых исследуемое свойство проявляется, отсутствует или меняет свою интенсивность. Исторически эти таблицы можно считать первым прообразом современных [[Выборка|обучающих выборок]] (датасетов) с признаковым описанием.
+Имеется параметрическое семейство моделей:
+:<tex>A = \{ a(x, w) \mid w \in W \}</tex>,
+где <tex>W \subseteq \mathbb{R}^N</tex> — пространство параметров (весов).
-== Формализация идей Бэкона в машинном обучении ==
+Качество предсказания оценивается с помощью '''функции потерь''' (loss function) <tex>\mathcal{L}(a(x, w), y)</tex>.
-Современная математическая постановка задачи машинного обучения является прямой алгоритмической реализацией бэконовской эмпирической индукции. «Таблица открытия» Бэкона задаётся в машинном обучении как множество прецедентов:
+'''Истинный (ожидаемый) риск''' <tex>R(w)</tex> — это математическое ожидание функции потерь по всему распределению <tex>p(x, y)</tex>:
-:<tex>X^\ell = \{ x_i \mid i = 1, \dots, \ell \}</tex>,
+:<tex>R(w) = \mathbb{E}_{x,y \sim p(x, y)} [\mathcal{L}(a(x, w), y)]</tex>.
-где <tex>\ell</tex> — количество доступных наблюдений (опытов).
+Идеальная цель машинного обучения — найти параметры <tex>w</tex>, минимизирующие истинный риск. Однако на практике распределение <tex>p(x, y)</tex> неизвестно.
-Свойства объектов, которые Бэкон призывал тщательно измерять и систематизировать, формализуются через измеряемые признаки (векторное представление):
+Вместо этого доступна конечная обучающая выборка:
-:<tex>f_j(x)</tex> — <tex>j</tex>-й признак объекта, где <tex>j = 1, \dots, n</tex>.
+:<tex>X^{\ell} = \{ (x_1, y_1), \dots, (x_{\ell}, y_{\ell}) \}</tex>.
-Цель бэконовского исследования (поиск «формы» или истинного закона) сводится к предсказанию целевого свойства <tex>y_i</tex>. Алгоритм машинного обучения автоматизирует процесс индукции, подбирая параметрическую модель <tex>a(x, w)</tex>, которая наилучшим образом обобщает частные факты из <tex>X^\ell</tex> на всё пространство объектов <tex>X</tex>.
+В соответствии с [[Закон больших чисел|законом больших чисел]], истинный риск заменяется его выборочной оценкой — '''эмпирическим риском''':
+:<tex>Q(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i)</tex>.
-== Машинное обучение как автоматизация научного метода ==
+Принцип ERM утверждает, что оптимальные параметры модели <tex>w^*</tex> должны доставлять минимум функционалу эмпирического риска:
+:<tex>w^* = \arg \min_{w \in W} Q(w, X^{\ell})</tex>.
-Индуктивный метод Бэкона тесно связан с современными концепциями [[Эпистемология|эпистемологии]] и философии науки. В парадигме искусственного интеллекта классические шаги научного познания формализуются через строгие математические операции<ref>Воронцов К. В. Философия. Введение в ИИ (курс лекций). — 2026.</ref>:
+== Условия состоятельности и переобучение ==
+Главная проблема принципа ERM заключается в том, что при высокой сложности семейства моделей <tex>A</tex> (например, в глубоких нейронных сетях) и малом объёме выборки <tex>\ell</tex>, минимум эмпирического риска не гарантирует минимума истинного риска. Возникает эффект '''[[Переобучение|переобучения]]''' (overfitting), когда <tex>Q(w^*, X^{\ell}) \approx 0</tex>, но истинный риск <tex>R(w^*)</tex> оказывается огромным.
-# '''Наблюдения и измерения:''' Сбор сырых данных и формирование обучающей выборки <tex>X^\ell</tex>. Этот этап соответствует заполнению «Таблиц открытия».
+Согласно теории Вапника — Червоненкиса, с вероятностью <tex>1 - \eta</tex> истинный риск ограничен сверху:
-# '''Гипотеза (модель):''' Выбор параметрического семейства функций <tex>A = \{a(x, w) \mid w \in W\}</tex>. Модель выступает в роли научной теории, объясняющей данные.
+:<tex>R(w) \le Q(w, X^{\ell}) + \sqrt{\frac{h (\ln(2\ell/h) + 1) - \ln(\eta/4)}{\ell}}</tex>,
-# '''Принцип верифицируемости (Фрэнсис Бэкон):''' Обучение модели (train) путём оптимизации её параметров. Система ищет подтверждение гипотезы на известных данных через [[Минимизация эмпирического риска|минимизацию функции потерь]] <tex>\mathcal{L}(w, x_i)</tex>.
+где <tex>h</tex> — [[Емкость (машинное обучение)|VC-размерность]] (мера сложности) семейства моделей. Для состоятельности принципа ERM необходимо, чтобы объем выборки значительно превосходил сложность модели (<tex>\ell \gg h</tex>).
-# '''Принцип фальсифицируемости (Карл Поппер):''' Проверка (test) обученной модели на новых, отложенных данных. Согласно Попперу, научная теория должна допускать возможность опровержения. В машинном обучении это реализуется через процедуру [[Скользящий контроль|кросс-валидации]]: если модель показывает плохую обобщающую способность на независимом тесте (происходит [[Переобучение|переобучение]]), гипотеза (текущие веса модели) отвергается.
-Таким образом, современные алгоритмы машинного обучения выступают вычислительными инструментами, которые масштабируют философский принцип эмпирической индукции на массивы данных, объём которых недоступен для ручного анализа человеком.
+=== Регуляризация ===
+Для борьбы с переобучением применяется '''[[Регуляризация|регуляризация]]'''. К эмпирическому риску добавляется штрафное слагаемое <tex>\mathcal{R}(w)</tex>, ограничивающее эффективную сложность модели:
+:<tex>Q_{\text{reg}}(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i) + \tau \mathcal{R}(w) \to \min_{w}</tex>,
+где <tex>\tau</tex> — коэффициент регуляризации. Наиболее популярны <tex>L_2</tex>-норма (сокращение весов) и <tex>L_1</tex>-норма (отбор признаков).
+== Основные типы функций потерь ==
+Выбор <tex>\mathcal{L}</tex> зависит от типа прикладной задачи.
+В задачах '''[[Регрессионный анализ|регрессии]]''':
+* Квадратичная ошибка (MSE): <tex>\mathcal{L}(w, x_i) = (a(x_i, w) - y_i)^2</tex>.
+* Абсолютная ошибка (MAE, для [[Робастное обучение|робастности]] к выбросам): <tex>\mathcal{L}(w, x_i) = |a(x_i, w) - y_i|</tex>.
+В задачах '''[[Классификация|бинарной классификации]]''' (где <tex>y \in \{-1, +1\}</tex>) функция потерь зависит от отступа <tex>M_i(w) = a(x_i, w)y_i</tex>:
+* Логистическая функция (в [[Логистическая регрессия|логистической регрессии]]): <tex>\mathcal{L}(M) = \ln(1 + e^{-M})</tex>.
+* Кусочно-линейная функция (в [[Метод опорных векторов|SVM]]): <tex>\mathcal{L}(M) = \max(0, 1 - M)</tex>.
+== Методы оптимизации ==
+В современных задачах с большими данными прямое вычисление градиента эмпирического риска по всей выборке <tex>X^\ell</tex> вычислительно неэффективно. Применяется метод '''[[Стохастический градиентный спуск|стохастического градиента]]''' (SG). На каждой итерации <tex>t</tex> градиентный шаг делается на основе потери только на одном случайно выбранном объекте <tex>x_i</tex>:
+:<tex>w^{(t+1)} = w^{(t)} - h ( \nabla \mathcal{L}(a(x_i, w^{(t)}), y_i) + \tau \nabla \mathcal{R}(w^{(t)}) )</tex>.
 == См. также ==
-* [[Обучение с учителем]]
+* [[Теория Вапника-Червоненкиса]]
-* [[Минимизация эмпирического риска]]
 * [[Переобучение]]
-* [[Скользящий контроль]]
+* [[Регуляризация (машинное обучение)]]
 == Примечания ==
 <references/>
-== Литература ==
-* ''Бэкон Ф.'' Сочинения в двух томах. Т. 2. — М.: Мысль, 1978. (Включает «Новый Органон»).
-* ''Воронцов К. В.'' Математические методы обучения по прецедентам (теория обучения машин). — МФТИ, 2012.
 [[Категория:Машинное обучение]]
-[[Категория:Философия искусственного интеллекта]]
+[[Категория:Математические методы]]
+[[Категория:Теория вычислительного обучения]]