Минимизация эмпирического риска

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 1: Строка 1:
-
{{well|Статья написана с использованием LLM '''ChatGPT''' и проверена участником [[Участник:Polina Khadralinova|Polina Khadralinova]] 00:11, 22 июня 2026 (MSD)}}
+
{{well|Статья написана с использованием LLM '''Gemini 3.1 Pro Preview''' и проверена участником Polina Khadralinova}}
-
'''Минимизация эмпирического риска''' (англ. ''Empirical Risk Minimization, ERM'') — один из фундаментальных принципов в [[Теория вычислительного обучения|теории машинного обучения]], определяющий метод построения [[Обучение с учителем|алгоритмов обучения с учителем]]. Суть принципа заключается в выборе параметрической модели, которая минимизирует среднюю ошибку (функцию потерь) на заданной [[Выборка|обучающей выборке]].
+
'''Принцип эмпирической индукции Фрэнсиса Бэкона''' в контексте [[Машинное обучение|машинного обучения]] — это философско-методологическая основа извлечения закономерностей из данных. Сформулированный в XVII веке принцип перехода от частных наблюдений (прецедентов) к общим правилам сегодня является фундаментальной парадигмой [[Обучение по прецедентам|обучения по прецедентам]], математически выраженной через [[Минимизация эмпирического риска|минимизацию эмпирического риска]] (ERM).
-
Данный принцип является строгой математической формализацией [[Эмпирическая индукция|эмпирической индукции]] Фрэнсиса Бэкона: на основе частных опытных данных (прецедентов) строится общее закономерное правило (модель), способное делать предсказания для новых объектов.
+
С гносеологической точки зрения машинное обучение рассматривается не просто как набор алгоритмов, а как современная математическая технология автоматизации научного метода познания, у истоков которого стоял Фрэнсис Бэкон.
-
== Историческая справка ==
+
== Исторический контекст ==
-
Идейным предшественником принципа ERM является [[Метод наименьших квадратов|метод наименьших квадратов]], предложенный Карлом Фридрихом Гауссом (1795) и Адриеном Мари Лежандром (1805) для астрономических вычислений. Они первыми предложили искать параметры модели, минимизируя сумму квадратов отклонений на известных точках<ref>Gauss C. F. Theoria motus corporum coelestium in sectionibus conicis solem ambientium. — 1809.</ref>.
+
Английский философ и политик Фрэнсис Бэкон (1561–1626) в своём фундаментальном труде «Новый Органон» (1620) подверг жёсткой критике формальную дедуктивную логику Аристотеля. Бэкон утверждал, что законы природы невозможно вывести из умозрительных, абстрактных аксиом; их необходимо «расшифровывать» исключительно из фактов опыта<ref>Бэкон Ф. Новый Органон, или Истинные указания для истолкования природы. — 1620.</ref>.
-
Строгое математическое и статистическое обоснование принципа минимизации эмпирического риска было разработано в 1960–1970-х годах в рамках статистической теории обучения (теории Вапника — Червоненкиса). В. Н. Вапник и А. Я. Червоненкис доказали теоремы о равномерной сходимости частот к вероятностям, определив условия, при которых минимизация ошибки на обучающей выборке гарантирует низкую ошибку на новых данных<ref>Вапник В. Н., Червоненкис А. Я. Теория распознавания образов. — М.: Наука, 1974.</ref>.
+
Для систематизации наблюдений Бэкон предложил использовать так называемые «Таблицы открытия» (таблицы присутствия, отсутствия и степеней). Исследователь должен был фиксировать условия, при которых исследуемое свойство проявляется, отсутствует или меняет свою интенсивность. Исторически эти таблицы можно считать первым прообразом современных [[Выборка|обучающих выборок]] (датасетов) с признаковым описанием.
-
== Ожидаемый и эмпирический риск ==
+
== Формализация идей Бэкона в машинном обучении ==
-
Пусть дано [[Пространство объектов|пространство объектов]] <math>X</math> и пространство ответов <math>Y</math>. Предполагается, что существует неизвестная совместная плотность распределения вероятностей <math>p(x, y)</math>, из которой порождаются данные.
+
Современная математическая постановка задачи машинного обучения является прямой алгоритмической реализацией бэконовской эмпирической индукции. «Таблица открытия» Бэкона задаётся в машинном обучении как множество прецедентов:
 +
:<tex>X^\ell = \{ x_i \mid i = 1, \dots, \ell \}</tex>,
 +
где <tex>\ell</tex> — количество доступных наблюдений (опытов).
-
Имеется параметрическое семейство моделей:
+
Свойства объектов, которые Бэкон призывал тщательно измерять и систематизировать, формализуются через измеряемые признаки (векторное представление):
-
:<math>A = \{ a(x, w) \mid w \in W \}</math>,
+
:<tex>f_j(x)</tex> — <tex>j</tex>-й признак объекта, где <tex>j = 1, \dots, n</tex>.
-
где <math>W \subseteq \mathbb{R}^N</math> — пространство параметров (весов).
+
-
Качество предсказания оценивается с помощью '''функции потерь''' (loss function) <math>\mathcal{L}(a(x, w), y)</math>.
+
Цель бэконовского исследования (поиск «формы» или истинного закона) сводится к предсказанию целевого свойства <tex>y_i</tex>. Алгоритм машинного обучения автоматизирует процесс индукции, подбирая параметрическую модель <tex>a(x, w)</tex>, которая наилучшим образом обобщает частные факты из <tex>X^\ell</tex> на всё пространство объектов <tex>X</tex>.
-
'''Истинный (ожидаемый) риск''' <math>R(w)</math> — это математическое ожидание функции потерь по всему распределению <math>p(x, y)</math>:
+
== Машинное обучение как автоматизация научного метода ==
-
:<math>R(w) = \mathbb{E}_{x,y \sim p(x, y)} [\mathcal{L}(a(x, w), y)]</math>.
+
-
Идеальная цель машинного обучения — найти параметры <math>w</math>, минимизирующие истинный риск. Однако на практике распределение <math>p(x, y)</math> неизвестно.
+
-
Вместо этого доступна конечная обучающая выборка:
+
Индуктивный метод Бэкона тесно связан с современными концепциями [[Эпистемология|эпистемологии]] и философии науки. В парадигме искусственного интеллекта классические шаги научного познания формализуются через строгие математические операции<ref>Воронцов К. В. Философия. Введение в ИИ (курс лекций). — 2026.</ref>:
-
:<math>X^{\ell} = \{ (x_1, y_1), \dots, (x_{\ell}, y_{\ell}) \}</math>.
+
-
В соответствии с [[Закон больших чисел|законом больших чисел]], истинный риск заменяется его выборочной оценкой — '''эмпирическим риском''':
+
# '''Наблюдения и измерения:''' Сбор сырых данных и формирование обучающей выборки <tex>X^\ell</tex>. Этот этап соответствует заполнению «Таблиц открытия».
-
:<math>Q(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i)</math>.
+
# '''Гипотеза (модель):''' Выбор параметрического семейства функций <tex>A = \{a(x, w) \mid w \in W\}</tex>. Модель выступает в роли научной теории, объясняющей данные.
 +
# '''Принцип верифицируемости (Фрэнсис Бэкон):''' Обучение модели (train) путём оптимизации её параметров. Система ищет подтверждение гипотезы на известных данных через [[Минимизация эмпирического риска|минимизацию функции потерь]] <tex>\mathcal{L}(w, x_i)</tex>.
 +
# '''Принцип фальсифицируемости (Карл Поппер):''' Проверка (test) обученной модели на новых, отложенных данных. Согласно Попперу, научная теория должна допускать возможность опровержения. В машинном обучении это реализуется через процедуру [[Скользящий контроль|кросс-валидации]]: если модель показывает плохую обобщающую способность на независимом тесте (происходит [[Переобучение|переобучение]]), гипотеза (текущие веса модели) отвергается.
-
Принцип ERM утверждает, что оптимальные параметры модели <math>w^*</math> должны доставлять минимум функционалу эмпирического риска:
+
Таким образом, современные алгоритмы машинного обучения выступают вычислительными инструментами, которые масштабируют философский принцип эмпирической индукции на массивы данных, объём которых недоступен для ручного анализа человеком.
-
:<math>w^* = \arg\min_{w \in W} Q(w, X^{\ell}) \to \min_w</math>.
+
-
 
+
-
== Условия состоятельности и переобучение ==
+
-
 
+
-
Главная проблема принципа ERM заключается в том, что при высокой сложности семейства моделей <math>A</math> (например, в глубоких нейронных сетях) и малом объёме выборки <math>\ell</math>, минимум эмпирического риска не гарантирует минимума истинного риска. Возникает эффект '''[[Переобучение|переобучения]]''' (overfitting), когда <math>Q(w^*, X^{\ell}) \approx 0</math>, но истинный риск <math>R(w^*)</math> оказывается огромным.
+
-
 
+
-
Согласно теории Вапника — Червоненкиса, с вероятностью <math>1 - \eta</math> истинный риск ограничен сверху:
+
-
:<math>R(w) \leqslant Q(w, X^{\ell}) + \sqrt{\frac{h (\ln(2\ell/h) + 1) - \ln(\eta/4)}{\ell}}</math>,
+
-
где <math>h</math> — [[Емкость (машинное обучение)|VC-размерность]] (мера сложности) семейства моделей. Для состоятельности принципа ERM необходимо, чтобы объем выборки значительно превосходил сложность модели (<math>\ell \gg h</math>).
+
-
 
+
-
=== Регуляризация ===
+
-
Для борьбы с переобучением применяется '''[[Регуляризация|регуляризация]]'''. К эмпирическому риску добавляется штрафное слагаемое <math>\mathcal{R}(w)</math>, ограничивающее эффективную сложность модели:
+
-
:<math>Q_{\text{reg}}(w, X^{\ell}) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i) + \tau \mathcal{R}(w) \to \min_{w}</math>,
+
-
где <math>\tau</math> — коэффициент регуляризации. Наиболее популярны <math>L_2</math>-норма (сокращение весов) и <math>L_1</math>-норма (отбор признаков).
+
-
 
+
-
== Основные типы функций потерь ==
+
-
 
+
-
Выбор <math>\mathcal{L}</math> зависит от типа прикладной задачи.
+
-
 
+
-
В задачах '''[[Регрессионный анализ|регрессии]]''':
+
-
* Квадратичная ошибка (MSE): <math>\mathcal{L}(w, x_i) = (a(x_i, w) - y_i)^2</math>.
+
-
* Абсолютная ошибка (MAE, для [[Робастное обучение|робастности]] к выбросам): <math>\mathcal{L}(w, x_i) = |a(x_i, w) - y_i|</math>.
+
-
 
+
-
В задачах '''[[Классификация|бинарной классификации]]''' (где <math>y \in \{-1, +1\}</math>) функция потерь зависит от отступа <math>M_i(w) = a(x_i, w)y_i</math>:
+
-
* Логистическая функция (в [[Логистическая регрессия|логистической регрессии]]): <math>\mathcal{L}(M) = \ln(1 + e^{-M})</math>.
+
-
* Кусочно-линейная функция (в [[Метод опорных векторов|SVM]]): <math>\mathcal{L}(M) = \max(0, 1 - M)</math>.
+
-
 
+
-
== Методы оптимизации ==
+
-
 
+
-
В современных задачах с большими данными прямое вычисление градиента эмпирического риска по всей выборке <math>X^\ell</math> вычислительно неэффективно. Применяется метод '''[[Стохастический градиентный спуск|стохастического градиента]]''' (SG). На каждой итерации <math>t</math> градиентный шаг делается на основе потери только на одном случайно выбранном объекте <math>x_i</math>:
+
-
:<math>w^{(t+1)} := w^{(t)} - h \left( \nabla \mathcal{L}(a(x_i, w^{(t)}), y_i) + \tau \nabla \mathcal{R}(w^{(t)}) \right)</math>.
+
-
Для ускорения сходимости используются эвристики, такие как метод накопления инерции (Momentum) или адаптивный шаг (Adam).
+
== См. также ==
== См. также ==
-
* [[Теория Вапника-Червоненкиса]]
+
* [[Обучение с учителем]]
 +
* [[Минимизация эмпирического риска]]
* [[Переобучение]]
* [[Переобучение]]
-
* [[Регуляризация (машинное обучение)]]
+
* [[Скользящий контроль]]
-
* [[Стохастический градиентный спуск]]
+
== Примечания ==
== Примечания ==
Строка 75: Строка 43:
== Литература ==
== Литература ==
-
* ''Hastie T., Tibshirani R., Friedman J.'' The Elements of Statistical Learning. — Springer, 2017.
+
* ''Бэкон Ф.'' Сочинения в двух томах. Т. 2. — М.: Мысль, 1978. (Включает «Новый Органон»).
-
* ''Воронцов К. В.'' Философия. Введение в ИИ (курс лекций). — 2026.
+
* ''Воронцов К. В.'' Математические методы обучения по прецедентам (теория обучения машин). — МФТИ, 2012.
-
* ''Мерков А. Б.'' Распознавание образов. Введение в методы статистического обучения. — М.: Едиториал УРСС, 2011.
+
[[Категория:Машинное обучение]]
[[Категория:Машинное обучение]]
-
[[Категория:Математические методы]]
+
[[Категория:Философия искусственного интеллекта]]
-
[[Категория:Теория вычислительного обучения]]
+

Версия 20:25, 21 июня 2026

Статья написана с использованием LLM Gemini 3.1 Pro Preview и проверена участником Polina Khadralinova


Принцип эмпирической индукции Фрэнсиса Бэкона в контексте машинного обучения — это философско-методологическая основа извлечения закономерностей из данных. Сформулированный в XVII веке принцип перехода от частных наблюдений (прецедентов) к общим правилам сегодня является фундаментальной парадигмой обучения по прецедентам, математически выраженной через минимизацию эмпирического риска (ERM).

С гносеологической точки зрения машинное обучение рассматривается не просто как набор алгоритмов, а как современная математическая технология автоматизации научного метода познания, у истоков которого стоял Фрэнсис Бэкон.

Содержание

Исторический контекст

Английский философ и политик Фрэнсис Бэкон (1561–1626) в своём фундаментальном труде «Новый Органон» (1620) подверг жёсткой критике формальную дедуктивную логику Аристотеля. Бэкон утверждал, что законы природы невозможно вывести из умозрительных, абстрактных аксиом; их необходимо «расшифровывать» исключительно из фактов опыта[1].

Для систематизации наблюдений Бэкон предложил использовать так называемые «Таблицы открытия» (таблицы присутствия, отсутствия и степеней). Исследователь должен был фиксировать условия, при которых исследуемое свойство проявляется, отсутствует или меняет свою интенсивность. Исторически эти таблицы можно считать первым прообразом современных обучающих выборок (датасетов) с признаковым описанием.

Формализация идей Бэкона в машинном обучении

Современная математическая постановка задачи машинного обучения является прямой алгоритмической реализацией бэконовской эмпирической индукции. «Таблица открытия» Бэкона задаётся в машинном обучении как множество прецедентов:

X^\ell = \{ x_i \mid i = 1, \dots, \ell \},

где \ell — количество доступных наблюдений (опытов).

Свойства объектов, которые Бэкон призывал тщательно измерять и систематизировать, формализуются через измеряемые признаки (векторное представление):

f_j(x)j-й признак объекта, где j = 1, \dots, n.

Цель бэконовского исследования (поиск «формы» или истинного закона) сводится к предсказанию целевого свойства y_i. Алгоритм машинного обучения автоматизирует процесс индукции, подбирая параметрическую модель a(x, w), которая наилучшим образом обобщает частные факты из X^\ell на всё пространство объектов X.

Машинное обучение как автоматизация научного метода

Индуктивный метод Бэкона тесно связан с современными концепциями эпистемологии и философии науки. В парадигме искусственного интеллекта классические шаги научного познания формализуются через строгие математические операции[1]:

  1. Наблюдения и измерения: Сбор сырых данных и формирование обучающей выборки X^\ell. Этот этап соответствует заполнению «Таблиц открытия».
  2. Гипотеза (модель): Выбор параметрического семейства функций A = \{a(x, w) \mid w \in W\}. Модель выступает в роли научной теории, объясняющей данные.
  3. Принцип верифицируемости (Фрэнсис Бэкон): Обучение модели (train) путём оптимизации её параметров. Система ищет подтверждение гипотезы на известных данных через минимизацию функции потерь \mathcal{L}(w, x_i).
  4. Принцип фальсифицируемости (Карл Поппер): Проверка (test) обученной модели на новых, отложенных данных. Согласно Попперу, научная теория должна допускать возможность опровержения. В машинном обучении это реализуется через процедуру кросс-валидации: если модель показывает плохую обобщающую способность на независимом тесте (происходит переобучение), гипотеза (текущие веса модели) отвергается.

Таким образом, современные алгоритмы машинного обучения выступают вычислительными инструментами, которые масштабируют философский принцип эмпирической индукции на массивы данных, объём которых недоступен для ручного анализа человеком.

См. также

Примечания


Литература

  • Бэкон Ф. Сочинения в двух томах. Т. 2. — М.: Мысль, 1978. (Включает «Новый Органон»).
  • Воронцов К. В. Математические методы обучения по прецедентам (теория обучения машин). — МФТИ, 2012.