Отступ
Материал из MachineLearning.
(Новая: {{Шаблон:Философия ИИ/Статья создана с помощью ИИ|модель=Gemini Pro|проверка=Укажите_ваше_имя}} == Отступ (Marg...) |
|||
| Строка 6: | Строка 6: | ||
=== 1. Математическая постановка и виды отступов === | === 1. Математическая постановка и виды отступов === | ||
| - | Рассмотрим задачу бинарной классификации. Пусть задана обучающая выборка < | + | Рассмотрим задачу бинарной классификации. Пусть задана обучающая выборка <tex>$\mathcal{X} = \{(x_1, y_1), \dots, (x_N, y_N)\}$</tex>, где <tex>x_i \in \mathbf{R}^D</tex> — вектор признаков объекта, а <tex>y_i \in \{-1, +1\}</tex> — его истинная метка класса. |
| - | Линейный классификатор задается вектором весов < | + | Линейный классификатор задается вектором весов <tex>w \in \mathbf{R}^D</tex> и смещением (порогом) <tex>b \in \mathbf{R}</tex>. Решающее правило имеет вид: |
| - | :< | + | :<tex>a(x) = \text{sign}(\langle w, x \rangle + b)</tex> |
| - | Для оценки качества предсказания на конкретном объекте < | + | Для оценки качества предсказания на конкретном объекте <tex>x_i</tex> вводятся два связанных понятия отступа: |
* '''Функциональный отступ (Functional Margin):''' | * '''Функциональный отступ (Functional Margin):''' | ||
| - | :< | + | :<tex>M_i = y_i (\langle w, x_i \rangle + b)</tex> |
| - | :: Знак < | + | :: Знак <tex>M_i</math> указывает на корректность классификации (если <tex>M_i > 0</tex>, ответ верный), а абсолютная величина <tex>|M_i|</tex> характеризует уверенность модели. Однако функциональный отступ можно сделать сколь угодно большим простым масштабированием параметров <tex>(w, b) \to (c \cdot w, c \cdot b)</tex> при <tex>c > 1</tex>, что не меняет саму разделяющую плоскость. |
* '''Геометрический отступ (Geometric Margin):''' | * '''Геометрический отступ (Geometric Margin):''' | ||
| - | :< | + | :<tex>\rho_i = \frac{y_i (\langle w, x_i \rangle + b)}{\|w\|} = \frac{M_i}{\|w\|}</tex> |
| - | :: Это евклидово расстояние от точки < | + | :: Это евклидово расстояние от точки <tex>x_i</tex> до разделяющей гиперплоскости <tex>\langle w, x \rangle + b = 0</tex>. Геометрический отступ инвариантен к масштабированию параметров и имеет строгий геометрический смысл. |
=== 2. Принцип максимального отступа (Hard Margin SVM) === | === 2. Принцип максимального отступа (Hard Margin SVM) === | ||
| - | Если выборка линейно разделима, существует бесконечное множество гиперплоскостей, безошибочно разделяющих классы. Метод опорных векторов (Vapnik, Cortes, 1995) постулирует выбор такой | + | Если выборка линейно разделима, существует бесконечное множество гиперплоскостей, безошибочно разделяющих классы. Метод опорных векторов (Vapnik, Cortes, 1995) постулирует выбор такой гиперплоскостей, которая максимизирует минимальный геометрический отступ по всей обучающей выборке. |
| - | Зафиксируем функциональный отступ для объектов, лежащих на границе разделяющей полосы, равным единице: < | + | Зафиксируем функциональный отступ для объектов, лежащих на границе разделяющей полосы, равным единице: <tex>\min_i M_i = 1</tex>. Тoгда ширина полосы между классами составит <tex>\frac{2}{\|w\|}</tex>. Задача максимизации полосы сводится к задаче квадратичного программирования: |
| - | :< | + | :<tex>\min_{w, b} \frac{1}{2} \|w\|^2</tex> |
при ограничениях: | при ограничениях: | ||
| - | :< | + | :<tex>y_i (\langle w, x_i \rangle + b) \geq 1, \quad \forall i \in \{1, \dots, N\}</tex> |
=== 3. Мягкий отступ (Soft Margin SVM) === | === 3. Мягкий отступ (Soft Margin SVM) === | ||
| - | На практике данные редко бывают линейно разделимыми из-за шума и выбросов. Для допуска ошибок классификации вводится концепция «мягкого отступа» с использованием неотрицательных слабинных переменных (slack variables) < | + | На практике данные редко бывают линейно разделимыми из-за шума и выбросов. Для допуска ошибок классификации вводится концепция «мягкого отступа» с использованием неотрицательных слабинных переменных (slack variables) <tex>\xi_i \geq 0</tex>. |
Оптимизационная задача модифицируется путем добавления штрафа за нарушение отступа: | Оптимизационная задача модифицируется путем добавления штрафа за нарушение отступа: | ||
| - | :< | + | :<tex>\min_{w, b, \xi} \left( \frac{1}{2} \|w\|^2 + C \sum_{i=1}^{N} \xi_i \right)</tex> |
при ограничениях: | при ограничениях: | ||
| - | :< | + | :<tex>y_i (\langle w, x_i \rangle + b) \geq 1 - \xi_i, \quad \xi_i \geq 0, \quad \forall i</tex> |
| - | где гиперпараметр < | + | где гиперпараметр <tex>C > 0</tex> контролирует баланс между |
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
Версия 21:04, 29 июня 2026
Шаблон:Философия ИИ/Статья создана с помощью ИИ
Содержание |
Отступ (Margin) в машинном обучении
Отступ (англ. margin) — фундаментальное понятие в теории статистического обучения, определяющее степень уверенности классификатора в правильности принимаемого решения. Концепция отступа лежит в основе таких алгоритмов, как метод опорных векторов (SVM), логистическая регрессия и бустинг. Максимизация отступа является ключевым механизмом повышения обобщающей способности моделей и снижения риска переобучения.
1. Математическая постановка и виды отступов
Рассмотрим задачу бинарной классификации. Пусть задана обучающая выборка , где
— вектор признаков объекта, а
— его истинная метка класса.
Линейный классификатор задается вектором весов и смещением (порогом)
. Решающее правило имеет вид:
Для оценки качества предсказания на конкретном объекте вводятся два связанных понятия отступа:
- Функциональный отступ (Functional Margin):
- Знак
, ответ верный), а абсолютная величина
характеризует уверенность модели. Однако функциональный отступ можно сделать сколь угодно большим простым масштабированием параметров
при
, что не меняет саму разделяющую плоскость.
- Знак
- Геометрический отступ (Geometric Margin):
- Это евклидово расстояние от точки
до разделяющей гиперплоскости
. Геометрический отступ инвариантен к масштабированию параметров и имеет строгий геометрический смысл.
- Это евклидово расстояние от точки
2. Принцип максимального отступа (Hard Margin SVM)
Если выборка линейно разделима, существует бесконечное множество гиперплоскостей, безошибочно разделяющих классы. Метод опорных векторов (Vapnik, Cortes, 1995) постулирует выбор такой гиперплоскостей, которая максимизирует минимальный геометрический отступ по всей обучающей выборке.
Зафиксируем функциональный отступ для объектов, лежащих на границе разделяющей полосы, равным единице: . Тoгда ширина полосы между классами составит
. Задача максимизации полосы сводится к задаче квадратичного программирования:
при ограничениях:
3. Мягкий отступ (Soft Margin SVM)
На практике данные редко бывают линейно разделимыми из-за шума и выбросов. Для допуска ошибок классификации вводится концепция «мягкого отступа» с использованием неотрицательных слабинных переменных (slack variables) .
Оптимизационная задача модифицируется путем добавления штрафа за нарушение отступа:
при ограничениях:
где гиперпараметр контролирует баланс между

