Коэффициент разнообразия
Материал из MachineLearning.
(переработка) |
(дополнение) |
||
(1 промежуточная версия не показана) | |||
Строка 23: | Строка 23: | ||
Очевидно, <tex>\Delta(F, X^L) \leq 2^L</tex>. | Очевидно, <tex>\Delta(F, X^L) \leq 2^L</tex>. | ||
+ | |||
Коэффициент разнообразия характеризует «богатство», «выразительные возможности» множества функций <tex>F</tex>. | Коэффициент разнообразия характеризует «богатство», «выразительные возможности» множества функций <tex>F</tex>. | ||
Строка 42: | Строка 43: | ||
В случае классификации на два класса коэффициент разнообразия множества классификаторов — это число всевозможных дихотомий выборки (способов разделить выборку на два класса), реализуемых всевозможными классификаторами <tex>a\in A</tex>. | В случае классификации на два класса коэффициент разнообразия множества классификаторов — это число всевозможных дихотомий выборки (способов разделить выборку на два класса), реализуемых всевозможными классификаторами <tex>a\in A</tex>. | ||
+ | |||
+ | == Применение == | ||
+ | |||
+ | Коэффициент разнообразия используется в оценках [[обобщающая способность|обобщающей способности]], зависящих от данных. | ||
==См. также== | ==См. также== |
Текущая версия
|
Коэффициент разнообразия (shattering coefficient) множества бинарных функций на выборке объектов — это мощность множества всевозможных -мерных бинарных векторов вида :
Иногда также говорят о мощности проекции множества функций на выборку [1].
В некоторых работах переводится на русский язык как коэффициент дробления [1]. Shatter в буквальном переводе — «разбивать на мелкие кусочки, вдребезги».
В исходных работах Вапника и Червоненкиса (на русском языке) вводилось эквивалентное понятие индекс системы событий[1][1]. Под «событием» понимается множество объектов , взаимно однозначно соотвествующее функции , а под «системой событий» понимается множество .
Очевидно, .
Коэффициент разнообразия характеризует «богатство», «выразительные возможности» множества функций .
Понятия, связанные с коэффициентом разнообразия
Максимальное значение коэффициента разнообразия, достигаемое на всевозможных выборках длины , называется функцией роста множества :
С функцией роста тесно связано понятие размерности Вапника–Червоненкиса (VC-dimension). В исходных работах она называлась ёмкостью множества .
Разнообразие семейства классификаторов
Пусть — конечное множество номеров (имён, меток) классов. Существует неизвестная целевая зависимость — отображение . Пусть — семейство классификаторов.
Коэффициент разнообразия множества классификаторов — это коэффициент разнообразия множества функций
В случае классификации на два класса коэффициент разнообразия множества классификаторов — это число всевозможных дихотомий выборки (способов разделить выборку на два класса), реализуемых всевозможными классификаторами .
Применение
Коэффициент разнообразия используется в оценках обобщающей способности, зависящих от данных.