Бэггинг

Материал из MachineLearning.

Перейти к: навигация, поиск

Бэггинг (баггинг) - от англ. Bootstrap aggregating, это технология классификации, использующая композиции алгоритмов, каждый из которых обучается независимо. Результат классификации определяется путем голосования. Бэггинг позволяет снизить процент ошибки классификации в случае, когда высока дисперсия ошибки базового метода.

Содержание

Идея метода

Бэггинг – технология классификации, где в отличие от бустинга все элементарные классификаторы обучаются и работают параллельно (независимо друг от друга). Идея заключается в том, что классификаторы не исправляют ошибки друг друга, а компенсируют их при голосовании. Базовые классификаторы должны быть независимыми, это могут быть классификаторы основанные на разных группах методов или же обученные на независимых наборах данных. Во втором случае можно использовать один и тот же метод.

Бэггинг на подпространствах

Этот алгоритм применяется для классификации многомерных объектов. Рассматриваемый алгоритм помогает добиться качественной классификации в условиях, когда разделить объекты на группы на всем пространстве параметров не представляется возможным. Предлагается разделить пространство характеристик на подмножества объединенных по смыслу параметров. Классификация на каждом подпространстве производится отдельно, затем результаты учитываются в голосовании. В этом случае будет учтен вклад каждой смысловой группы и много повысится вероятность того, что итоговые результаты классификации окажутся более качественными нежели без деления на подпространства, так как параметры, по которым представители разных классов неотличимы, попадут, почти наверняка, не во все группы.

Постановка задачи

Существует матрица характеристик объекта X:\;x_1,...,x_n\;-\;m-мерные столбцы с характеристиками n объектов. Необходимо сопоставить каждому вектору параметров метку класса (т.е. существует некоторое отображение X->Y, где Y=(y_1...y_k),\;y_i- метки классов), на основании известных пар (x_i,\;y_j) для объектов обучающей выборки.

Алгоритм классификации в технологии бэггинг на подпространствах

  1. Необходимо разделить пространство параметров на подмножества, то есть каждый объект будет характеризоваться уже не одним m-мерным вектором параметров, а несколькими векторами x_{i,1}...x_{i,l}, причем сумма размерностей этих векторов не может превышать m, то есть подпространства не могут пересекаться. Для этого прибегают к экспертному мнению, эксперт выделяет смысловые подпространства на основании своего опыта.
  2. Производится независимое обучения каждого элементарного классификатора (каждого алгоритма, определенного на своем подпространстве).
  3. Производится классификация основной выборки на каждом из подпространств (также независимо).
  4. Принимается окончательное решение о принадлежности объекта одному из классов. Это можно сделать несколькими разными способами, подробнее описано ниже.

Методы принятия решений

Окончательное решение о принадлежности объекта классу может приниматься, например, одним из следующих методов:

  1. Консенсус: если все элементарные классификаторы присвоили объекту одну и ту же метку, то относим объект к выбранному классу.
  2. Простое большинство: консенсус достижим очень редко, поэтому чаще всего используют метод простого большинства. Здесь объекту присваивается метка того класса, который определило для него большинство элементарных классификаторов.
  3. Взвешивание классификаторов: если классификаторов четное количество, то голосов может получиться поровну, еще возможно, что для эксперты одна из групп параметров важна в большей степени, тогда прибегают к взвешиванию классификаторов. То есть при голосовании голос классификатора умножается на его вес.

Бэггинг на подпространствах с классификаторами на основе метода потенциальных функций

Бэггинг на подпространствах позволяет сглаживать негативное влияние на общее качество классификации неотделимости классов по некоторым параметрам. Метод потенциальных функций - это простой в реализации метрический метод классификации, который максимально эффективен только для компактных классов, однако, в отличие от, например, метода секущих плоскостей, работает с классами различных форм (не любых). Например:

Метод потенциальных функций успешно работает Метод потенциальных функций не работает
В первом случае метод оказывается эффективен, а во втором - нет.

Объединение метода Бравермана потенциальных функций и технологии Бэггинг позволяет работать с небольшими выборками многомерных объектов. Подход успешно справляется с неравномерным распределением объектов внутри классов, однако выбросы в данных (особенно при небольших выборках) оказывают очень большое влияние на результаты итоговой классификации.

См. также

Классификация
Бустинг
Метод потенциальных функций
Метрический классификатор

Личные инструменты