Линейный классификатор
Материал из MachineLearning.
Линейный классификатор — алгоритм классификации, основанный на построении линейной разделяющей поверхности. В случае двух классов разделяющей поверхностью является гиперплоскость, которая делит пространство признаков на два полупространства.
Содержание |
Определение
Пусть объекты описываются n числовыми признаками , ; Тогда пространство признаковых описаний объектов есть . Пусть — конечное множество номеров (имён, меток) классов.
В случае двух классов, , линейным классификатором называется алгоритм классификации , имеющий вид
где — веса признаков, — порог принятия решения, — вектор весов, — скалярное произведение признакового описания объекта на вектор весов. Предполагается, что искусственно введён «константный» нулевой признак: .
В случае произвольного числа классов линейный классификатор определяется выражением
где каждому классу соотвествует свой вектор весов .
Задача настройки (обучения) классификатора заключается в том, чтобы по заданной обучающей выборке пар «объект, ответ» . построить алгоритм указанного вида, минимизирующий фунционал эмпирического риска:
Методы обучения линейных классификаторов различаются подходами к решению данной оптимизационной задачи.
Понятие отступа
В случае двух классов, , удобно определить для произвольного обучающего объекта величину отступа (margin):
Отступ отрицателен тогда и только тогда, когда алгоритм допускает ошибку на объекте . Чем меньше значение отступа, тем «более ошибочным» является значение скалярного произведения .
Это наблюдение позволяет обобщить фунционал эмпирического риска:
где — функция потерь, зависящая от отступа. Обычно используются непрерывные монотонно убывающие функции , что позволяет применять численные методы оптимизации для настройки весов линейного классификатора.
Методы обучения линейных классификаторов различаются, в первую очередь, выбором функции .
Методы обучения линейных классификаторов
- Линейный дискриминант Фишера
- Однослойный персептрон
- Метод опорных векторов
- Логистическая регрессия
- Метод ближайшего соседа реализует линейный классификатор, если в обучающей выборке оставить по одному объекту каждого класса.
Литература
- Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
- Вапник В. Н., Червоненкис А. Я. Теория распознавания образов. — М.: Наука, 1974. — 416 с. (подробнее)
- Вапник В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979. — 448 с. (подробнее)
- Дуда Р., Харт П. Распознавание образов и анализ сцен. — М.: Мир, 1976.
- Hastie, T., Tibshirani, R., Friedman, J. The Elements of Statistical Learning, 2nd edition. — Springer, 2009. — 533 p. (подробнее)