SVM для линейно неразделимой выборки (пример)
Материал из MachineLearning.
Строка 6: | Строка 6: | ||
== Постановка задачи линейной классификации == | == Постановка задачи линейной классификации == | ||
- | Основная статья: [[Линейный классификатор]] | + | *Основная статья: [[Линейный классификатор]] |
Задана выборка <tex>X=\{(x_i,y_i)\}_{i=1}^l</tex>, где <tex>x_i</tex>-признаковое описание i-го объекта, <tex>y_i</tex> - идентификатор класса, которому принадлежит i-ый объект. В случае двух классов считаем, что <tex>y_i\in\{-1,1\}</tex> (это позволяет пользоваться функцией sgn в описании классификатора). | Задана выборка <tex>X=\{(x_i,y_i)\}_{i=1}^l</tex>, где <tex>x_i</tex>-признаковое описание i-го объекта, <tex>y_i</tex> - идентификатор класса, которому принадлежит i-ый объект. В случае двух классов считаем, что <tex>y_i\in\{-1,1\}</tex> (это позволяет пользоваться функцией sgn в описании классификатора). | ||
Строка 15: | Строка 15: | ||
== Описание алгоритма == | == Описание алгоритма == | ||
- | + | === Линейно разделимая выборка === | |
Если выборка линейно разделима, то существует бесконечно много линейных классификаторов, не ошибающихся на ней. | Если выборка линейно разделима, то существует бесконечно много линейных классификаторов, не ошибающихся на ней. | ||
В алгоритме SVM минимизируется расстояние от опорной гиперплоскости до обоих классов. | В алгоритме SVM минимизируется расстояние от опорной гиперплоскости до обоих классов. | ||
Строка 24: | Строка 24: | ||
Нетрудно показать, что при такой нормировке ширина разделяющей полосы может быть представлена в виде: <tex>\frac{2}{||w||}</tex>. Максимизация этой величины равносильна минимизации нормы вектора нормали. Таким образом, параметры линейного классификатора определяются из задачи квадратичного программирования: <tex>\left{<w,w>\rightarrow min\\y_i(<w,x_i>-w_0)\ge1,\qquad i=1,...,l\\ \right.</tex> | Нетрудно показать, что при такой нормировке ширина разделяющей полосы может быть представлена в виде: <tex>\frac{2}{||w||}</tex>. Максимизация этой величины равносильна минимизации нормы вектора нормали. Таким образом, параметры линейного классификатора определяются из задачи квадратичного программирования: <tex>\left{<w,w>\rightarrow min\\y_i(<w,x_i>-w_0)\ge1,\qquad i=1,...,l\\ \right.</tex> | ||
+ | === Линейно неразделимая выборка === | ||
Для линейно неразделимой выборки данная оптимизационная задача не будет иметь решения. Не отказываясь от принципа максимальности зазора, можно видоизменить задачу следующим образом. Разрешим существование неправильно классифицированных объектов, но за каждвый такой объект будем штрафовать: | Для линейно неразделимой выборки данная оптимизационная задача не будет иметь решения. Не отказываясь от принципа максимальности зазора, можно видоизменить задачу следующим образом. Разрешим существование неправильно классифицированных объектов, но за каждвый такой объект будем штрафовать: | ||
Строка 29: | Строка 30: | ||
Используя аппарат функций Лагранжа, переходя к двойственной задаче, можно показать эквивалентность этой задачи и следующей. | Используя аппарат функций Лагранжа, переходя к двойственной задаче, можно показать эквивалентность этой задачи и следующей. | ||
+ | |||
+ | {{eqno|1}} | ||
+ | ::<tex>\left{-\sum\limits_{i=1}^l\lambda_i+\frac{1}{2}\sum\limits_{i=1}^l\sum\limits_{j=1}^l\lambda_i\lambda_jy_iy_j<x_i,x_j>\rightarrow \min\limits_\lambda \\ 0\le\lambda_i\le C\\ \sum\limits_{i=1}^l\lambda_iy_i=0\right. </tex> | ||
+ | |||
+ | При это выполняются соотношения <tex>w = \sum\limits_{i=1}^l\lambda_ix_iy_i,\qquad\eta_i+\lambda_i=C,\qquad \lambda_i(1-\xi_i)=0, \qquad \xi_i\eta_i=0</tex>. | ||
+ | |||
+ | Решив эту оптимизационную задачу, то есть, найдя вектор <tex>\lambda</tex>, можно классифицировать объекты следующим образом: | ||
+ | |||
+ | * <tex>\lambda_i=0, \eta_i=C, \xi_i=0.</tex> | ||
+ | : Эти параметры означают, что объект <tex>x_i</tex> классифицируется правильно(т.к. <tex>\xi_i=0</tex>). Но, что важнее - вектор опорной гиперплоскости не зависит от данного объекта. Данный объект можно исключить из выборки и SVM построит тот же самый алгоритм классификации - разделяющую гиперплоскость. Такие объекты называются ''периферийными''. | ||
+ | * <tex>0<\lambda_i<C, 0<\eta_i<C, \xi_i=0.</tex> | ||
+ | : Объект <tex>x_i</tex> классифицируется правильно и лежит точно на границе разделяющей полосы. Данные объекты называются опорными граничными. | ||
+ | * <tex>\lambda_i=C, \eta_i=0, \xi_i>0. </tex> | ||
+ | : Данный объект может находить как в граничной полосе со стороны своего класса, так и классифицироваться неправильно. Данные объекты называются опорными нарушителями. | ||
+ | |||
+ | Объекты последних двух типов и называются ''опорными векторами''. Разделяющая гиперплоскость зависит только от них, что является одним из главных преимуществ SVM. Можно ожидать, что этих векторов будет не очень много, и оставит только их в памяти, алгоритм классификации ничуть не изменится. | ||
+ | |||
+ | Заметим, что на практике оптимизационная задача решается не абсолютно точно. В следствии чего периферийные объекты (представляющие собой вырожденный случай распределения параметров) почти не встречаются. Для каждого объекта вычисляется <tex>\lambda_i</tex> не равное нулю, но для большинства объектов их значение мало "в среднем". Поэтому не составляет труда отсеять периферийные объекты. | ||
+ | |||
+ | Важно отметить также, что решение двойственной задачи квадратичного программирования единственно, т.к. функционал является выпуклым и множество ограничений является выпуклым. | ||
+ | |||
+ | Таким образом, решив задачу {{eqref|1}}, вычислим <tex>w = \sum\limits_{i=1}^l\lambda_ix_iy_i, \qquad w_0=med\{<w_i,x_i>-y_i:\lambda_i>0,\xi_i=0, i=1,...,l\}</tex>. Медиана здесь вычисляется именно из практических соображений неточного решения оптимизационной задачи. Теоретически все значения в множестве, по которому берется среднее, равны. | ||
+ | === Спрямляющее пространство и функции ядра === | ||
+ | == Вычислительный эксперимент == |
Версия 19:13, 21 апреля 2010
SVM (Support Vector Machine, машина опорных векторов) - алгоритм машинного обучения, предложенный В. Н. Вапником. Парадигмой машины опорных векторов можно считать выбор наиболее близких к границе классов объектов из обучающего набора, "опорных векторов", по которым и строится опорная гиперплоскость.
Изначально алгоритм позволял строить линейный классификатор с помощью минимизации ширины полосы раздела классов. Позднее были предложены методы обобщения алгоритма на случай линейно неразделимой выборки(например, введения штрафа за ошибки в функционал качества).
В данной статье приведен пример решения этой задачи для линейно неразделимой выборки с использованием функции ядра (в англоязычной литературе приём носит название kernel trick).
Содержание |
Постановка задачи линейной классификации
- Основная статья: Линейный классификатор
Задана выборка , где -признаковое описание i-го объекта, - идентификатор класса, которому принадлежит i-ый объект. В случае двух классов считаем, что (это позволяет пользоваться функцией sgn в описании классификатора).
Требуется построить классификатор вида , где - скалярное произведение, а - вектор и число, характеризующий данный классификатор. Можно говорить о том, что -веса признаков, - порог принятия решения.
Если для данной выборки существуют такие, что не ошибается на обучающей выборке, то она называется линейно разделимой. В противном случае, выборка называется линейно неразделимой.
Описание алгоритма
Линейно разделимая выборка
Если выборка линейно разделима, то существует бесконечно много линейных классификаторов, не ошибающихся на ней. В алгоритме SVM минимизируется расстояние от опорной гиперплоскости до обоих классов.
Отнормируем вектор нормали к разделяющей гиперплоскости и порог принятия решения так, чтобы выполнялось условие . Это всегда можно сделать, поскольку, во-первых, умножение на положительную константу не меняет классификатора, а, во-вторых, требование минимального расстояния от гиперплоскости до классов гарантирует нам, что плоскость находится на равном расстоянии от классов.
Нетрудно показать, что при такой нормировке ширина разделяющей полосы может быть представлена в виде: . Максимизация этой величины равносильна минимизации нормы вектора нормали. Таким образом, параметры линейного классификатора определяются из задачи квадратичного программирования:
Линейно неразделимая выборка
Для линейно неразделимой выборки данная оптимизационная задача не будет иметь решения. Не отказываясь от принципа максимальности зазора, можно видоизменить задачу следующим образом. Разрешим существование неправильно классифицированных объектов, но за каждвый такой объект будем штрафовать:
Используя аппарат функций Лагранжа, переходя к двойственной задаче, можно показать эквивалентность этой задачи и следующей.
При это выполняются соотношения .
Решив эту оптимизационную задачу, то есть, найдя вектор , можно классифицировать объекты следующим образом:
- Эти параметры означают, что объект классифицируется правильно(т.к. ). Но, что важнее - вектор опорной гиперплоскости не зависит от данного объекта. Данный объект можно исключить из выборки и SVM построит тот же самый алгоритм классификации - разделяющую гиперплоскость. Такие объекты называются периферийными.
- Объект классифицируется правильно и лежит точно на границе разделяющей полосы. Данные объекты называются опорными граничными.
- Данный объект может находить как в граничной полосе со стороны своего класса, так и классифицироваться неправильно. Данные объекты называются опорными нарушителями.
Объекты последних двух типов и называются опорными векторами. Разделяющая гиперплоскость зависит только от них, что является одним из главных преимуществ SVM. Можно ожидать, что этих векторов будет не очень много, и оставит только их в памяти, алгоритм классификации ничуть не изменится.
Заметим, что на практике оптимизационная задача решается не абсолютно точно. В следствии чего периферийные объекты (представляющие собой вырожденный случай распределения параметров) почти не встречаются. Для каждого объекта вычисляется не равное нулю, но для большинства объектов их значение мало "в среднем". Поэтому не составляет труда отсеять периферийные объекты.
Важно отметить также, что решение двойственной задачи квадратичного программирования единственно, т.к. функционал является выпуклым и множество ограничений является выпуклым.
Таким образом, решив задачу (1), вычислим . Медиана здесь вычисляется именно из практических соображений неточного решения оптимизационной задачи. Теоретически все значения в множестве, по которому берется среднее, равны.