Байесовский классификатор
Материал из MachineLearning.
(Новая: == Введение == Байесовский подход основан на теореме, утверждающей, что если плотности распределения к...) |
(викификация) |
||
Строка 1: | Строка 1: | ||
== Введение == | == Введение == | ||
- | Байесовский подход основан на теореме, утверждающей, что | + | Байесовский подход к классификации основан на теореме, утверждающей, что если плотности распределения каждого из классов известны, то искомый алгоритм можно выписать в явном аналитическом виде. Более того, этот алгоритм оптимален, то есть обладает минимальной вероятностью ошибок. |
- | если плотности распределения каждого из классов известны, | + | |
- | то искомый алгоритм можно выписать в явном аналитическом виде. | + | |
- | Более того, этот алгоритм оптимален, | + | |
- | то есть обладает минимальной вероятностью ошибок. | + | |
- | На практике плотности распределения классов, как правило, не известны. | + | На практике плотности распределения классов, как правило, не известны. Их приходится оценивать (восстанавливать) по обучающей выборке. В результате байесовский алгоритм перестаёт быть оптимальным, так как восстановить плотность по выборке можно только с некоторой погрешностью. Чем короче выборка, |
- | Их приходится оценивать (восстанавливать) по обучающей выборке. | + | тем выше шансы подогнать распределение под конкретные данные и столкнуться с [[переобучение|эффектом переобучения]]. |
- | В результате байесовский алгоритм перестаёт быть оптимальным, | + | |
- | так как восстановить плотность по выборке можно только с некоторой погрешностью. | + | |
- | Чем короче выборка, | + | |
- | тем выше шансы подогнать распределение под конкретные данные | + | |
- | и столкнуться с [[переобучение|эффектом переобучения]]. | + | |
- | Байесовский подход к классификации является одним из старейших, | + | Байесовский подход к классификации является одним из старейших, но до сих пор сохраняет прочные позиции в теории распознавания. Он лежит в основе многих достаточно удачных алгоритмов классификации. |
- | но до сих пор сохраняет прочные позиции в теории распознавания. | + | |
- | Он лежит в основе многих достаточно удачных алгоритмов классификации. | + | |
== Основная формула == | == Основная формула == | ||
- | |||
Пусть <tex>X</tex> — множество описаний объектов, | Пусть <tex>X</tex> — множество описаний объектов, | ||
<tex>Y</tex> — множество номеров (или наименований) классов. | <tex>Y</tex> — множество номеров (или наименований) классов. | ||
Строка 37: | Строка 25: | ||
=== Построение классификатора при известных плотностях классов === | === Построение классификатора при известных плотностях классов === | ||
- | |||
'''Задача 1.''' | '''Задача 1.''' | ||
Пусть для каждого класса <tex>y \in Y</tex> известна | Пусть для каждого класса <tex>y \in Y</tex> известна | ||
Строка 65: | Строка 52: | ||
=== Восстановление плотностей классов по обучающей выборке === | === Восстановление плотностей классов по обучающей выборке === | ||
- | |||
'''Задача 2.''' | '''Задача 2.''' | ||
По заданной подвыборке объектов класса <tex>y</tex> | По заданной подвыборке объектов класса <tex>y</tex> | ||
Строка 85: | Строка 71: | ||
Таким образом, формула байесовского классификатора приводит к большому разнообразию байесовских алгоритмов, отличающихся только способом восстановления плотностей. | Таким образом, формула байесовского классификатора приводит к большому разнообразию байесовских алгоритмов, отличающихся только способом восстановления плотностей. | ||
- | |||
== Наивный байесовский классификатор == | == Наивный байесовский классификатор == | ||
- | |||
''Наивный байесовский классификатор'' (naїve Bayes) | ''Наивный байесовский классификатор'' (naїve Bayes) | ||
основан на той же формуле и дополнительном предположении, что | основан на той же формуле и дополнительном предположении, что | ||
Строка 120: | Строка 104: | ||
либо как элементарный строительный блок | либо как элементарный строительный блок | ||
в [[алгоритмическая композиция|алгоритмических композициях]]. | в [[алгоритмическая композиция|алгоритмических композициях]]. | ||
- | |||
- | |||
== Литература == | == Литература == | ||
- | |||
# ''Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д.'' Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989. | # ''Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д.'' Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989. | ||
# ''Вапник В. Н.'' Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979. | # ''Вапник В. Н.'' Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979. | ||
Строка 131: | Строка 112: | ||
== Ссылки == | == Ссылки == | ||
- | |||
* [[:Участник:Vokov|Воронцов К.В.]] [http://www.ccas.ru/voron/teaching.html#ML Математические методы обучения по прецедентам]. МФТИ (2004), ВМиК МГУ (2007). | * [[:Участник:Vokov|Воронцов К.В.]] [http://www.ccas.ru/voron/teaching.html#ML Математические методы обучения по прецедентам]. МФТИ (2004), ВМиК МГУ (2007). | ||
- | |||
[[Категория:Машинное обучение]] | [[Категория:Машинное обучение]] | ||
[[Категория:Энциклопедия анализа данных]] | [[Категория:Энциклопедия анализа данных]] |
Версия 18:01, 7 марта 2008
Содержание |
Введение
Байесовский подход к классификации основан на теореме, утверждающей, что если плотности распределения каждого из классов известны, то искомый алгоритм можно выписать в явном аналитическом виде. Более того, этот алгоритм оптимален, то есть обладает минимальной вероятностью ошибок.
На практике плотности распределения классов, как правило, не известны. Их приходится оценивать (восстанавливать) по обучающей выборке. В результате байесовский алгоритм перестаёт быть оптимальным, так как восстановить плотность по выборке можно только с некоторой погрешностью. Чем короче выборка, тем выше шансы подогнать распределение под конкретные данные и столкнуться с эффектом переобучения.
Байесовский подход к классификации является одним из старейших, но до сих пор сохраняет прочные позиции в теории распознавания. Он лежит в основе многих достаточно удачных алгоритмов классификации.
Основная формула
Пусть — множество описаний объектов, — множество номеров (или наименований) классов. На множестве пар «объект, класс» определена вероятностная мера . Имеется конечная обучающая выборка независимых наблюдений , полученных согласно вероятностной мере .
Задача классификации заключается в том, чтобы построить алгоритм , способный классифицировать произвольный объект .
В байесовской теории классификации эта задача разделяется на две.
Построение классификатора при известных плотностях классов
Задача 1. Пусть для каждого класса известна априорная вероятность того, что появится объект класса , и плотности распределения каждого из классов, называемые также функциями правдоподобия классов. Требуется построить алгоритм классификации , доставляющий минимальное значение функционалу среднего риска.
Средний риск опредеяется как математическое ожидание ошибки:
где — цена ошибки или штраф за отнесение объекта класса к какому-либо другому классу.
Теорема. Решением этой задачи является алгоритм
Если классы равнозначны, , то объект просто относится к классу с наибольшим значением плотности распределения в точке .
Восстановление плотностей классов по обучающей выборке
Задача 2. По заданной подвыборке объектов класса построить эмпирические оценки априорных вероятностей и функций правдоподобия .
В качестве оценки априорных вероятностей берут, как правило, долю объектов данного класса в обучающей выборке.
Восстановление плотностей (функций правдоподобия каждого из классов) является самой трудной задачей. Наиболее распространены три подхода: параметрический, непараметрический и расщепление смеси вероятностных распределений. Третий подход занимает промежуточное положение между первыми двумя, и в определённом смысле является наиболее общим.
- Параметрическое восстановление плотности при дополнительном предположении, что плотности нормальные (гауссовские), приводит к нормальному дискриминантному анализу и линейному дискриминанту Фишера.
- Непараметрическое восстановление плотности приводит, в частности, к методу парзеновского окна.
- Восстановление смеси плотностей может быть сделано с помощью EM-алгоритма. Дополнительное предположение, что плотности компонент смеси являются радиальными функциями, приводит к методу радиальных базисных функций. Обычно в качестве компонент смеси берут, опять-таки, гауссовские плотности.
Таким образом, формула байесовского классификатора приводит к большому разнообразию байесовских алгоритмов, отличающихся только способом восстановления плотностей.
Наивный байесовский классификатор
Наивный байесовский классификатор (naїve Bayes) основан на той же формуле и дополнительном предположении, что объекты описываются независимыми признаками: . Следовательно, функции правдоподобия классов представимы в виде , где — плотность распределения значений -го признака для класса .
Предположение о независимости существенно упрощает задачу, так как оценить одномерных плотностей гораздо легче, чем одну -мерную плотность. К сожалению, оно крайне редко выполняется на практике, отсюда и название метода.
Наивный байесовский классификатор может быть как параметрическим, так и непараметрическим, в зависимости от того, каким методом восстанавливаются одномерные плотности.
Основные его преимущества — простота реализации и низкие вычислительные затраты при обучении и классификации. В тех редких случаях, когда признаки действительно независимы (или почти независимы), наивный байесовский классификатор (почти) оптимален.
Основной его недостаток — относительно низкое качество классификации в большинстве реальных задач.
Чаще всего он используется либо как примитивный эталон для сравнения различных моделей алгоритмов, либо как элементарный строительный блок в алгоритмических композициях.
Литература
- Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
- Вапник В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979.
- Дуда Р., Харт П. Распознавание образов и анализ сцен. — М.: Мир, 1976.
- Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. — Springer, 2001. ISBN 0-387-95284-5.
Ссылки
- Воронцов К.В. Математические методы обучения по прецедентам. МФТИ (2004), ВМиК МГУ (2007).