Минимизация эмпирического риска

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
 
(2 промежуточные версии не показаны)
Строка 1: Строка 1:
-
{{well|Статья написана с использованием LLM '''Gemini 3.1 Pro Preview''' и проверена участником Polina Khadralinova}}
+
{{well|'''СТАТЬЯ В РАЗРАБОТКЕ:''' Этот материал сейчас находится в процессе активного редактирования и доработки участником Polina Khadralinova.}}
 +
'''Минимизация эмпирического риска''' (англ. ''Empirical Risk Minimization, ERM'') — один из фундаментальных принципов в [[Теория вычислительного обучения|теории машинного обучения]], определяющий метод построения [[Обучение с учителем|алгоритмов обучения с учителем]]. Суть принципа заключается в выборе параметрической модели, которая минимизирует среднюю ошибку (функцию потерь) на заданной [[Выборка|обучающей выборке]].
-
'''Принцип эмпирической индукции Фрэнсиса Бэкона''' в контексте [[Машинное обучение|машинного обучения]] — это философско-методологическая основа извлечения закономерностей из данных. Сформулированный в XVII веке принцип перехода от частных наблюдений (прецедентов) к общим правилам сегодня является фундаментальной парадигмой [[Обучение по прецедентам|обучения по прецедентам]], математически выраженной через [[Минимизация эмпирического риска|минимизацию эмпирического риска]] (ERM).
+
Данный принцип является строгой математической формализацией [[Эмпирическая индукция|эмпирической индукции]] Фрэнсиса Бэкона: на основе частных опытных данных (прецедентов) строится общее закономерное правило (модель), способное делать предсказания для новых объектов.
-
С гносеологической точки зрения машинное обучение рассматривается не просто как набор алгоритмов, а как современная математическая технология автоматизации научного метода познания, у истоков которого стоял Фрэнсис Бэкон.
+
== Историческая справка ==
 +
Идейным предшественником принципа ERM является [[Метод наименьших квадратов|метод наименьших квадратов]], предложенный Карлом Фридрихом Гауссом (1795) и Адриеном Мари Лежандром (1805) для астрономических вычислений. Они первыми предложили искать параметры модели, минимизируя сумму квадратов отклонений на известных точках<ref>Gauss C. F. Theoria motus corporum coelestium in sectionibus conicis solem ambientium. — 1809.</ref>.
-
== Исторический контекст ==
+
Строгое математическое и статистическое обоснование принципа минимизации эмпирического риска было разработано в 1960–1970-х годах в рамках статистической теории обучения (теории Вапника — Червоненкиса). В. Н. Вапник и А. Я. Червоненкис доказали теоремы о равномерной сходимости частот к вероятностям, определив условия, при которых минимизация ошибки на обучающей выборке гарантирует низкую ошибку на новых данных<ref>Вапник В. Н., Червоненкис А. Я. Теория распознавания образов. — М.: Наука, 1974.</ref>.
-
Английский философ и политик Фрэнсис Бэкон (1561–1626) в своём фундаментальном труде «Новый Органон» (1620) подверг жёсткой критике формальную дедуктивную логику Аристотеля. Бэкон утверждал, что законы природы невозможно вывести из умозрительных, абстрактных аксиом; их необходимо «расшифровывать» исключительно из фактов опыта<ref>Бэкон Ф. Новый Органон, или Истинные указания для истолкования природы. — 1620.</ref>.
+
== Ожидаемый и эмпирический риск ==
 +
Пусть дано [[Пространство объектов|пространство объектов]] <tex>X</tex> и пространство ответов <tex>Y</tex>. Предполагается, что существует неизвестная совместная плотность распределения вероятностей <tex>p(x, y)</tex>, из которой порождаются данные.
-
Для систематизации наблюдений Бэкон предложил использовать так называемые «Таблицы открытия» (таблицы присутствия, отсутствия и степеней). Исследователь должен был фиксировать условия, при которых исследуемое свойство проявляется, отсутствует или меняет свою интенсивность. Исторически эти таблицы можно считать первым прообразом современных [[Выборка|обучающих выборок]] (датасетов) с признаковым описанием.
+
Имеется параметрическое семейство моделей:
 +
:<tex>A = \{ a(x, w) \mid w \in W \}</tex>,
 +
где <tex>W \subseteq \mathbb{R}^N</tex> — пространство параметров (весов).
-
== Формализация идей Бэкона в машинном обучении ==
+
Качество предсказания оценивается с помощью '''функции потерь''' (loss function) <tex>\mathcal{L}(a(x, w), y)</tex>.
-
Современная математическая постановка задачи машинного обучения является прямой алгоритмической реализацией бэконовской эмпирической индукции. «Таблица открытия» Бэкона задаётся в машинном обучении как множество прецедентов:
+
'''Истинный (ожидаемый) риск''' <tex>R(w)</tex> — это математическое ожидание функции потерь по всему распределению <tex>p(x, y)</tex>:
-
:<tex>X^\ell = \{ x_i \mid i = 1, \dots, \ell \}</tex>,
+
:<tex>R(w) = \mathbb{E}_{x,y \sim p(x, y)} [\mathcal{L}(a(x, w), y)]</tex>.
-
где <tex>\ell</tex> — количество доступных наблюдений (опытов).
+
Идеальная цель машинного обучения — найти параметры <tex>w</tex>, минимизирующие истинный риск. Однако на практике распределение <tex>p(x, y)</tex> неизвестно.
-
Свойства объектов, которые Бэкон призывал тщательно измерять и систематизировать, формализуются через измеряемые признаки (векторное представление):
+
Вместо этого доступна конечная обучающая выборка:
-
:<tex>f_j(x)</tex> — <tex>j</tex>-й признак объекта, где <tex>j = 1, \dots, n</tex>.
+
:<tex>X^{\ell} = \{ (x_1, y_1), \dots, (x_{\ell}, y_{\ell}) \}</tex>.
-
Цель бэконовского исследования (поиск «формы» или истинного закона) сводится к предсказанию целевого свойства <tex>y_i</tex>. Алгоритм машинного обучения автоматизирует процесс индукции, подбирая параметрическую модель <tex>a(x, w)</tex>, которая наилучшим образом обобщает частные факты из <tex>X^\ell</tex> на всё пространство объектов <tex>X</tex>.
+
В соответствии с [[Закон больших чисел|законом больших чисел]], истинный риск заменяется его выборочной оценкой — '''эмпирическим риском''':
 +
:<tex>Q(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i)</tex>.
-
== Машинное обучение как автоматизация научного метода ==
+
Принцип ERM утверждает, что оптимальные параметры модели <tex>w^*</tex> должны доставлять минимум функционалу эмпирического риска:
 +
:<tex>w^* = \arg \min_{w \in W} Q(w, X^{\ell})</tex>.
-
Индуктивный метод Бэкона тесно связан с современными концепциями [[Эпистемология|эпистемологии]] и философии науки. В парадигме искусственного интеллекта классические шаги научного познания формализуются через строгие математические операции<ref>Воронцов К. В. Философия. Введение в ИИ (курс лекций). — 2026.</ref>:
+
== Условия состоятельности и переобучение ==
 +
Главная проблема принципа ERM заключается в том, что при высокой сложности семейства моделей <tex>A</tex> (например, в глубоких нейронных сетях) и малом объёме выборки <tex>\ell</tex>, минимум эмпирического риска не гарантирует минимума истинного риска. Возникает эффект '''[[Переобучение|переобучения]]''' (overfitting), когда <tex>Q(w^*, X^{\ell}) \approx 0</tex>, но истинный риск <tex>R(w^*)</tex> оказывается огромным.
-
# '''Наблюдения и измерения:''' Сбор сырых данных и формирование обучающей выборки <tex>X^\ell</tex>. Этот этап соответствует заполнению «Таблиц открытия».
+
Согласно теории Вапника — Червоненкиса, с вероятностью <tex>1 - \eta</tex> истинный риск ограничен сверху:
-
# '''Гипотеза (модель):''' Выбор параметрического семейства функций <tex>A = \{a(x, w) \mid w \in W\}</tex>. Модель выступает в роли научной теории, объясняющей данные.
+
:<tex>R(w) \le Q(w, X^{\ell}) + \sqrt{\frac{h (\ln(2\ell/h) + 1) - \ln(\eta/4)}{\ell}}</tex>,
-
# '''Принцип верифицируемости (Фрэнсис Бэкон):''' Обучение модели (train) путём оптимизации её параметров. Система ищет подтверждение гипотезы на известных данных через [[Минимизация эмпирического риска|минимизацию функции потерь]] <tex>\mathcal{L}(w, x_i)</tex>.
+
где <tex>h</tex> — [[Емкость (машинное обучение)|VC-размерность]] (мера сложности) семейства моделей. Для состоятельности принципа ERM необходимо, чтобы объем выборки значительно превосходил сложность модели (<tex>\ell \gg h</tex>).
-
# '''Принцип фальсифицируемости (Карл Поппер):''' Проверка (test) обученной модели на новых, отложенных данных. Согласно Попперу, научная теория должна допускать возможность опровержения. В машинном обучении это реализуется через процедуру [[Скользящий контроль|кросс-валидации]]: если модель показывает плохую обобщающую способность на независимом тесте (происходит [[Переобучение|переобучение]]), гипотеза (текущие веса модели) отвергается.
+
-
Таким образом, современные алгоритмы машинного обучения выступают вычислительными инструментами, которые масштабируют философский принцип эмпирической индукции на массивы данных, объём которых недоступен для ручного анализа человеком.
+
=== Регуляризация ===
 +
Для борьбы с переобучением применяется '''[[Регуляризация|регуляризация]]'''. К эмпирическому риску добавляется штрафное слагаемое <tex>\mathcal{R}(w)</tex>, ограничивающее эффективную сложность модели:
 +
:<tex>Q_{\text{reg}}(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i) + \tau \mathcal{R}(w) \to \min_{w}</tex>,
 +
где <tex>\tau</tex> — коэффициент регуляризации. Наиболее популярны <tex>L_2</tex>-норма (сокращение весов) и <tex>L_1</tex>-норма (отбор признаков).
 +
 
 +
== Основные типы функций потерь ==
 +
Выбор <tex>\mathcal{L}</tex> зависит от типа прикладной задачи.
 +
 
 +
В задачах '''[[Регрессионный анализ|регрессии]]''':
 +
* Квадратичная ошибка (MSE): <tex>\mathcal{L}(w, x_i) = (a(x_i, w) - y_i)^2</tex>.
 +
* Абсолютная ошибка (MAE, для [[Робастное обучение|робастности]] к выбросам): <tex>\mathcal{L}(w, x_i) = |a(x_i, w) - y_i|</tex>.
 +
 
 +
В задачах '''[[Классификация|бинарной классификации]]''' (где <tex>y \in \{-1, +1\}</tex>) функция потерь зависит от отступа <tex>M_i(w) = a(x_i, w)y_i</tex>:
 +
* Логистическая функция (в [[Логистическая регрессия|логистической регрессии]]): <tex>\mathcal{L}(M) = \ln(1 + e^{-M})</tex>.
 +
* Кусочно-линейная функция (в [[Метод опорных векторов|SVM]]): <tex>\mathcal{L}(M) = \max(0, 1 - M)</tex>.
 +
 
 +
== Методы оптимизации ==
 +
В современных задачах с большими данными прямое вычисление градиента эмпирического риска по всей выборке <tex>X^\ell</tex> вычислительно неэффективно. Применяется метод '''[[Стохастический градиентный спуск|стохастического градиента]]''' (SG). На каждой итерации <tex>t</tex> градиентный шаг делается на основе потери только на одном случайно выбранном объекте <tex>x_i</tex>:
 +
:<tex>w^{(t+1)} = w^{(t)} - h ( \nabla \mathcal{L}(a(x_i, w^{(t)}), y_i) + \tau \nabla \mathcal{R}(w^{(t)}) )</tex>.
== См. также ==
== См. также ==
-
* [[Обучение с учителем]]
+
* [[Теория Вапника-Червоненкиса]]
-
* [[Минимизация эмпирического риска]]
+
* [[Переобучение]]
* [[Переобучение]]
-
* [[Скользящий контроль]]
+
* [[Регуляризация (машинное обучение)]]
== Примечания ==
== Примечания ==
<references/>
<references/>
-
 
-
== Литература ==
 
-
* ''Бэкон Ф.'' Сочинения в двух томах. Т. 2. — М.: Мысль, 1978. (Включает «Новый Органон»).
 
-
* ''Воронцов К. В.'' Математические методы обучения по прецедентам (теория обучения машин). — МФТИ, 2012.
 
[[Категория:Машинное обучение]]
[[Категория:Машинное обучение]]
-
[[Категория:Философия искусственного интеллекта]]
+
[[Категория:Математические методы]]
 +
[[Категория:Теория вычислительного обучения]]

Текущая версия

СТАТЬЯ В РАЗРАБОТКЕ: Этот материал сейчас находится в процессе активного редактирования и доработки участником Polina Khadralinova.


Минимизация эмпирического риска (англ. Empirical Risk Minimization, ERM) — один из фундаментальных принципов в теории машинного обучения, определяющий метод построения алгоритмов обучения с учителем. Суть принципа заключается в выборе параметрической модели, которая минимизирует среднюю ошибку (функцию потерь) на заданной обучающей выборке.

Данный принцип является строгой математической формализацией эмпирической индукции Фрэнсиса Бэкона: на основе частных опытных данных (прецедентов) строится общее закономерное правило (модель), способное делать предсказания для новых объектов.

Содержание

Историческая справка

Идейным предшественником принципа ERM является метод наименьших квадратов, предложенный Карлом Фридрихом Гауссом (1795) и Адриеном Мари Лежандром (1805) для астрономических вычислений. Они первыми предложили искать параметры модели, минимизируя сумму квадратов отклонений на известных точках[1].

Строгое математическое и статистическое обоснование принципа минимизации эмпирического риска было разработано в 1960–1970-х годах в рамках статистической теории обучения (теории Вапника — Червоненкиса). В. Н. Вапник и А. Я. Червоненкис доказали теоремы о равномерной сходимости частот к вероятностям, определив условия, при которых минимизация ошибки на обучающей выборке гарантирует низкую ошибку на новых данных[1].

Ожидаемый и эмпирический риск

Пусть дано пространство объектов X и пространство ответов Y. Предполагается, что существует неизвестная совместная плотность распределения вероятностей p(x, y), из которой порождаются данные.

Имеется параметрическое семейство моделей:

A = \{ a(x, w) \mid w \in W \},

где W \subseteq \mathbb{R}^N — пространство параметров (весов).

Качество предсказания оценивается с помощью функции потерь (loss function) \mathcal{L}(a(x, w), y).

Истинный (ожидаемый) риск R(w) — это математическое ожидание функции потерь по всему распределению p(x, y):

R(w) = \mathbb{E}_{x,y \sim p(x, y)} [\mathcal{L}(a(x, w), y)].

Идеальная цель машинного обучения — найти параметры w, минимизирующие истинный риск. Однако на практике распределение p(x, y) неизвестно.

Вместо этого доступна конечная обучающая выборка:

X^{\ell} = \{ (x_1, y_1), \dots, (x_{\ell}, y_{\ell}) \}.

В соответствии с законом больших чисел, истинный риск заменяется его выборочной оценкой — эмпирическим риском:

Q(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i).

Принцип ERM утверждает, что оптимальные параметры модели w^* должны доставлять минимум функционалу эмпирического риска:

w^* = \arg \min_{w \in W} Q(w, X^{\ell}).

Условия состоятельности и переобучение

Главная проблема принципа ERM заключается в том, что при высокой сложности семейства моделей A (например, в глубоких нейронных сетях) и малом объёме выборки \ell, минимум эмпирического риска не гарантирует минимума истинного риска. Возникает эффект переобучения (overfitting), когда Q(w^*, X^{\ell}) \approx 0, но истинный риск R(w^*) оказывается огромным.

Согласно теории Вапника — Червоненкиса, с вероятностью 1 - \eta истинный риск ограничен сверху:

R(w) \le Q(w, X^{\ell}) + \sqrt{\frac{h (\ln(2\ell/h) + 1) - \ln(\eta/4)}{\ell}},

где hVC-размерность (мера сложности) семейства моделей. Для состоятельности принципа ERM необходимо, чтобы объем выборки значительно превосходил сложность модели (\ell \gg h).

Регуляризация

Для борьбы с переобучением применяется регуляризация. К эмпирическому риску добавляется штрафное слагаемое \mathcal{R}(w), ограничивающее эффективную сложность модели:

Q_{\text{reg}}(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i) + \tau \mathcal{R}(w) \to \min_{w},

где \tau — коэффициент регуляризации. Наиболее популярны L_2-норма (сокращение весов) и L_1-норма (отбор признаков).

Основные типы функций потерь

Выбор \mathcal{L} зависит от типа прикладной задачи.

В задачах регрессии:

  • Квадратичная ошибка (MSE): \mathcal{L}(w, x_i) = (a(x_i, w) - y_i)^2.
  • Абсолютная ошибка (MAE, для робастности к выбросам): \mathcal{L}(w, x_i) = |a(x_i, w) - y_i|.

В задачах бинарной классификации (где y \in \{-1, +1\}) функция потерь зависит от отступа M_i(w) = a(x_i, w)y_i:

Методы оптимизации

В современных задачах с большими данными прямое вычисление градиента эмпирического риска по всей выборке X^\ell вычислительно неэффективно. Применяется метод стохастического градиента (SG). На каждой итерации t градиентный шаг делается на основе потери только на одном случайно выбранном объекте x_i:

w^{(t+1)} = w^{(t)} - h ( \nabla \mathcal{L}(a(x_i, w^{(t)}), y_i) + \tau \nabla \mathcal{R}(w^{(t)}) ).

См. также

Примечания