Наивный байесовский классификатор

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
 
(4 промежуточные версии не показаны)
Строка 1: Строка 1:
-
#REDIRECT [[Байесовский классификатор#Наивный байесовский классификатор]]
+
{{Main|Байесовский классификатор}}
 +
'''Наивный байесовский классификатор''' (naїve Bayes) — специальный частный случай [[байесовский классификатор|байесовского классификатора]], основанный на дополнительном предположении, что
 +
объекты <tex>x\in X</tex> описываются <tex>n</tex> статистически независимыми признаками:
 +
<center>
 +
<tex>x \equiv \bigl( \xi_1,\ldots,\xi_n\bigr) \equiv \bigl( f_1(x),\ldots,f_n(x) \bigr)</tex>.
 +
</center>
 +
 
 +
Предположение о независимости означает, что функции правдоподобия классов представимы в виде
 +
<center>
 +
<tex>p_y(x) = p_{y1}(\xi_1) \cdot \ldots \cdot p_{yn}(\xi_n)</tex>,
 +
</center>
 +
где
 +
<tex>p_{yj}(\xi_j)</tex> — плотность распределения значений
 +
<tex>j</tex>-го признака для класса <tex>y</tex>.
 +
 
 +
Предположение о независимости существенно упрощает задачу,
 +
так как оценить <tex>n</tex> одномерных плотностей гораздо легче, чем
 +
одну <tex>n</tex>-мерную плотность.
 +
{{S|К сожалению}}, оно крайне редко выполняется на практике, отсюда и название метода.
 +
 
 +
''Наивный байесовский классификатор'' может быть как параметрическим, так и непараметрическим,
 +
в зависимости от того, каким методом [[Восстановление распределения вероятностей|восстанавливаются одномерные плотности]].
 +
 
 +
Основные преимущества ''наивного байесовского классификатора'' — простота реализации
 +
и низкие вычислительные затраты при обучении и классификации.
 +
В тех редких случаях, когда
 +
признаки действительно независимы (или почти независимы),
 +
наивный байесовский классификатор (почти) оптимален.
 +
 
 +
Основной его недостаток —
 +
относительно низкое качество классификации в большинстве реальных задач.
 +
 
 +
Чаще всего он используется либо как примитивный эталон
 +
для сравнения различных моделей алгоритмов,
 +
либо как элементарный строительный блок
 +
в [[алгоритмическая композиция|алгоритмических композициях]].
 +
 
 +
== Параметрический наивный байесовский классификатор ==
 +
 
 +
== Непараметрический наивный байесовский классификатор ==
 +
 
 +
{{stub}}
 +
 
 +
== Литература ==
 +
# ''Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д.'' Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
 +
# ''Вапник В. Н., Червоненкис А. Я.'' Теория распознавания образов. — М.: Наука, 1974.
 +
# ''Вапник В. Н.'' Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979.
 +
# ''Дуда Р., Харт П.'' Распознавание образов и анализ сцен. — М.: Мир, 1976.
 +
# ''Hastie T., Tibshirani R., Friedman J.'' The Elements of Statistical Learning. — Springer, 2001. ISBN 0-387-95284-5.
 +
 
 +
== Ссылки ==
 +
* [[Машинное обучение (курс лекций, К.В.Воронцов)]]
 +
 
 +
[[Категория:Байесовская теория классификации]]

Текущая версия

Наивный байесовский классификатор (naїve Bayes) — специальный частный случай байесовского классификатора, основанный на дополнительном предположении, что объекты x\in X описываются n статистически независимыми признаками:

x \equiv \bigl( \xi_1,\ldots,\xi_n\bigr) \equiv \bigl( f_1(x),\ldots,f_n(x) \bigr).

Предположение о независимости означает, что функции правдоподобия классов представимы в виде

p_y(x) = p_{y1}(\xi_1) \cdot \ldots \cdot p_{yn}(\xi_n),

где p_{yj}(\xi_j) — плотность распределения значений j-го признака для класса y.

Предположение о независимости существенно упрощает задачу, так как оценить n одномерных плотностей гораздо легче, чем одну n-мерную плотность. К сожалению, оно крайне редко выполняется на практике, отсюда и название метода.

Наивный байесовский классификатор может быть как параметрическим, так и непараметрическим, в зависимости от того, каким методом восстанавливаются одномерные плотности.

Основные преимущества наивного байесовского классификатора — простота реализации и низкие вычислительные затраты при обучении и классификации. В тех редких случаях, когда признаки действительно независимы (или почти независимы), наивный байесовский классификатор (почти) оптимален.

Основной его недостаток — относительно низкое качество классификации в большинстве реальных задач.

Чаще всего он используется либо как примитивный эталон для сравнения различных моделей алгоритмов, либо как элементарный строительный блок в алгоритмических композициях.

Содержание

Параметрический наивный байесовский классификатор

Непараметрический наивный байесовский классификатор


Литература

  1. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
  2. Вапник В. Н., Червоненкис А. Я. Теория распознавания образов. — М.: Наука, 1974.
  3. Вапник В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979.
  4. Дуда Р., Харт П. Распознавание образов и анализ сцен. — М.: Мир, 1976.
  5. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. — Springer, 2001. ISBN 0-387-95284-5.

Ссылки

Личные инструменты