Наивный байесовский классификатор
Материал из MachineLearning.
(Перенаправление на Байесовский классификатор#Наивный байесовский классификатор) |
|||
Строка 1: | Строка 1: | ||
- | + | {{Main|байесовский }} | |
+ | '''Наивный байесовский классификатор''' (naїve Bayes) — специальный частный случай [[байесовский классификатор|байесовского классификатора]], основанный на дополнительном предположении, что | ||
+ | объекты описываются <tex>n</tex> независимыми признаками: | ||
+ | <tex>x \equiv \bigl( \xi_1=f_1(x),\ldots, \xi_n=f_n(x) \bigr)</tex>. | ||
+ | {{S|В этом}} случае функции правдоподобия классов представимы в виде | ||
+ | <tex>p_y(x) = p_{y1}(\xi_1) \cdot \ldots \cdot p_{yn}(\xi_n)</tex>, | ||
+ | где | ||
+ | <tex>p_{yj}(\xi_j)</tex> — плотность распределения значений | ||
+ | <tex>j</tex>-го признака для класса <tex>y</tex>. | ||
+ | |||
+ | Предположение о независимости существенно упрощает задачу, | ||
+ | так как оценить <tex>n</tex> одномерных плотностей гораздо легче, чем | ||
+ | одну <tex>n</tex>-мерную плотность. | ||
+ | {{S|К сожалению}}, оно крайне редко выполняется на практике, отсюда и название метода. | ||
+ | |||
+ | ''Наивный байесовский классификатор'' может быть как параметрическим, так и непараметрическим, | ||
+ | в зависимости от того, каким методом [[Восстановление распределения вероятностейвосстанавливаются одномерные плотности]]. | ||
+ | |||
+ | Основные преимущества ''наивного байесовского классификатора'' — простота реализации | ||
+ | и низкие вычислительные затраты при обучении и классификации. | ||
+ | В тех редких случаях, когда | ||
+ | признаки действительно независимы (или почти независимы), | ||
+ | наивный байесовский классификатор (почти) оптимален. | ||
+ | |||
+ | Основной его недостаток — | ||
+ | относительно низкое качество классификации в большинстве реальных задач. | ||
+ | |||
+ | Чаще всего он используется либо как примитивный эталон | ||
+ | для сравнения различных моделей алгоритмов, | ||
+ | либо как элементарный строительный блок | ||
+ | в [[алгоритмическая композиция|алгоритмических композициях]]. | ||
+ | |||
+ | == Литература == | ||
+ | # ''Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д.'' Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989. | ||
+ | # ''Вапник В. Н., Червоненкис А. Я.'' Теория распознавания образов. — М.: Наука, 1974. | ||
+ | # ''Вапник В. Н.'' Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979. | ||
+ | # ''Дуда Р., Харт П.'' Распознавание образов и анализ сцен. — М.: Мир, 1976. | ||
+ | # ''Hastie T., Tibshirani R., Friedman J.'' The Elements of Statistical Learning. — Springer, 2001. ISBN 0-387-95284-5. | ||
+ | |||
+ | == Ссылки == | ||
+ | * [[:Участник:Vokov|Воронцов К.В.]] [http://www.ccas.ru/voron/teaching.html#ML Математические методы обучения по прецедентам]. МФТИ (2004), ВМиК МГУ (2007). | ||
+ | |||
+ | [[Категория:Байесовская теория классификации]] | ||
+ | [[Категория:Машинное обучение]] | ||
+ | [[Категория:Классификация]] | ||
+ | [[Категория:Энциклопедия анализа данных]] |
Версия 13:40, 30 апреля 2008
Наивный байесовский классификатор (naїve Bayes) — специальный частный случай байесовского классификатора, основанный на дополнительном предположении, что объекты описываются независимыми признаками: . В этом случае функции правдоподобия классов представимы в виде , где — плотность распределения значений -го признака для класса .
Предположение о независимости существенно упрощает задачу, так как оценить одномерных плотностей гораздо легче, чем одну -мерную плотность. К сожалению, оно крайне редко выполняется на практике, отсюда и название метода.
Наивный байесовский классификатор может быть как параметрическим, так и непараметрическим, в зависимости от того, каким методом Восстановление распределения вероятностейвосстанавливаются одномерные плотности.
Основные преимущества наивного байесовского классификатора — простота реализации и низкие вычислительные затраты при обучении и классификации. В тех редких случаях, когда признаки действительно независимы (или почти независимы), наивный байесовский классификатор (почти) оптимален.
Основной его недостаток — относительно низкое качество классификации в большинстве реальных задач.
Чаще всего он используется либо как примитивный эталон для сравнения различных моделей алгоритмов, либо как элементарный строительный блок в алгоритмических композициях.
Литература
- Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
- Вапник В. Н., Червоненкис А. Я. Теория распознавания образов. — М.: Наука, 1974.
- Вапник В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979.
- Дуда Р., Харт П. Распознавание образов и анализ сцен. — М.: Мир, 1976.
- Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. — Springer, 2001. ISBN 0-387-95284-5.
Ссылки
- Воронцов К.В. Математические методы обучения по прецедентам. МФТИ (2004), ВМиК МГУ (2007).