Размерность Вапника-Червоненкиса
Материал из MachineLearning.
(Новая: {{Задание|DmitryKonstantinov|Константин Воронцов|8 января 2010}} == Определение == == Примеры вычисления размерности...) |
(дополнение, иллюстрации, литература) |
||
Строка 1: | Строка 1: | ||
{{Задание|DmitryKonstantinov|Константин Воронцов|8 января 2010}} | {{Задание|DmitryKonstantinov|Константин Воронцов|8 января 2010}} | ||
+ | '''Размерность Вапника-Червоненкиса''' (ёмкость, VC-dimension) — | ||
== Определение == | == Определение == | ||
- | == Примеры | + | Если существует число <tex>h</tex> такое, что [[Функция роста | функция роста]] <tex>\Delta A(h) = 2^h</tex> и <tex>\Delta A(h+1) < 2^{h+1}</tex>, то оно |
+ | называется '''ёмкостью''' или '''размерностью Вапника-Червоненкиса''' (VC-dimension) семейства алгоритмов <tex>A</tex>. Если такого числа <tex>h</tex> не существует, то говорят, что семейство <tex>A</tex> имеет бесконечную ёмкость. | ||
+ | |||
+ | Другая формулировка определения (через [[Разнообразие | разнообразие]]): Пусть задано множество объектов <tex>X</tex> и некоторое семейство функций (алгоритмов классификации, решающих правил) <tex>A</tex>, которые сопоставляют каждому объекту множества <tex>X</tex> один из двух заданных классов. Ёмкостью семейства <tex>A</tex> называется наибольшее число <tex>h</tex>, такое, что существует подмножество из <tex>h</tex> объектов в множестве <tex>X</tex>, которое функции из <tex>A</tex> могут разбить на два класса всеми возможными способами. Если же такие подмножества существуют для сколь угодно большого <tex>h</tex>, то ёмкость полагается равной бесконечности. | ||
+ | |||
+ | Если семейство алгоритмов имеет конечную размерность Вапника-Червоненкиса, то такое семейство называют классом Вапника-Червоненкиса. | ||
+ | == Примеры == | ||
+ | Как пример, рассмотрим задачу о разбиении точек на плоскости на два класса прямой линией — это так называемый линейный классификатор. Множество из любых трёх точек, не лежащих на одной прямой, может быть разделено прямой линией на два класса всеми возможными способами (2³ = 8 способами, на рисунке ниже показаны два из них), но множества из четырёх и более точек — уже нет. Поэтому размерность Вапника-Червоненкиса линейного классификатора на плоскости равна трём. | ||
+ | |||
+ | {| border="0" cellpadding="4" cellspacing="0" align="center" | ||
+ | | align="center" bgcolor=#ddffdd | [[Image:VC1.png]] | ||
+ | | align="center" bgcolor=#ddffdd | [[Image:VC2.png]] | ||
+ | <!--| align="center" bgcolor=#ddffdd | [[Image:VC3.png]] --> | ||
+ | | align="center" bgcolor=#ffdddd | [[Image:VC4.png]] | ||
+ | |- | ||
+ | | colspan="2" align="center" bgcolor=#ddffdd | '''Примеры разделения трёх<br />точек на два класса''' | ||
+ | | align="center" bgcolor=#ffdddd | '''Разделение невозможно<br />для этих четырёх точек''' | ||
+ | |} | ||
+ | |||
+ | В общем случае, размерность Вапника-Червоненкиса семейства линейных классификаторов в n-мерном пространстве равна n + 1. | ||
+ | |||
== Связь с размером обучающей выборки == | == Связь с размером обучающей выборки == | ||
- | == | + | == Литература == |
+ | #{{книга | ||
+ | |автор = Вапник В.Н., Червоненкис А.Я. | ||
+ | |заглавие = Теория распознавания образов | ||
+ | |год = 1974 | ||
+ | |место = М. | ||
+ | |издательство = Наука | ||
+ | }} | ||
+ | # A. Blumer, A. Ehrenfeucht, D. Haussler, and M. K. Warmuth. "Learnability and the Vapnik–Chervonenkis dimension." Journal of the ACM, 36(4):929–865, 1989. | ||
+ | |||
+ | [[Категория:Теория вычислительного обучения]] |
Версия 18:57, 3 января 2010
Данная статья является непроверенным учебным заданием.
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |
Размерность Вапника-Червоненкиса (ёмкость, VC-dimension) —
Содержание |
Определение
Если существует число такое, что функция роста и , то оно называется ёмкостью или размерностью Вапника-Червоненкиса (VC-dimension) семейства алгоритмов . Если такого числа не существует, то говорят, что семейство имеет бесконечную ёмкость.
Другая формулировка определения (через разнообразие): Пусть задано множество объектов и некоторое семейство функций (алгоритмов классификации, решающих правил) , которые сопоставляют каждому объекту множества один из двух заданных классов. Ёмкостью семейства называется наибольшее число , такое, что существует подмножество из объектов в множестве , которое функции из могут разбить на два класса всеми возможными способами. Если же такие подмножества существуют для сколь угодно большого , то ёмкость полагается равной бесконечности.
Если семейство алгоритмов имеет конечную размерность Вапника-Червоненкиса, то такое семейство называют классом Вапника-Червоненкиса.
Примеры
Как пример, рассмотрим задачу о разбиении точек на плоскости на два класса прямой линией — это так называемый линейный классификатор. Множество из любых трёх точек, не лежащих на одной прямой, может быть разделено прямой линией на два класса всеми возможными способами (2³ = 8 способами, на рисунке ниже показаны два из них), но множества из четырёх и более точек — уже нет. Поэтому размерность Вапника-Червоненкиса линейного классификатора на плоскости равна трём.
Примеры разделения трёх точек на два класса | Разделение невозможно для этих четырёх точек |
В общем случае, размерность Вапника-Червоненкиса семейства линейных классификаторов в n-мерном пространстве равна n + 1.
Связь с размером обучающей выборки
Литература
- Вапник В.Н., Червоненкис А.Я. Теория распознавания образов. — М.: Наука, 1974.
- A. Blumer, A. Ehrenfeucht, D. Haussler, and M. K. Warmuth. "Learnability and the Vapnik–Chervonenkis dimension." Journal of the ACM, 36(4):929–865, 1989.