Размерность Вапника-Червоненкиса

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: {{Задание|DmitryKonstantinov|Константин Воронцов|8 января 2010}} == Определение == == Примеры вычисления размерности...)
(дополнение, иллюстрации, литература)
Строка 1: Строка 1:
{{Задание|DmitryKonstantinov|Константин Воронцов|8 января 2010}}
{{Задание|DmitryKonstantinov|Константин Воронцов|8 января 2010}}
 +
'''Размерность Вапника-Червоненкиса''' (ёмкость, VC-dimension) —
== Определение ==
== Определение ==
-
== Примеры вычисления размерности ==
+
Если существует число <tex>h</tex> такое, что [[Функция роста | функция роста]] <tex>\Delta A(h) = 2^h</tex> и <tex>\Delta A(h+1) < 2^{h+1}</tex>, то оно
 +
называется '''ёмкостью''' или '''размерностью Вапника-Червоненкиса''' (VC-dimension) семейства алгоритмов <tex>A</tex>. Если такого числа <tex>h</tex> не существует, то говорят, что семейство <tex>A</tex> имеет бесконечную ёмкость.
 +
 
 +
Другая формулировка определения (через [[Разнообразие | разнообразие]]): Пусть задано множество объектов <tex>X</tex> и некоторое семейство функций (алгоритмов классификации, решающих правил) <tex>A</tex>, которые сопоставляют каждому объекту множества <tex>X</tex> один из двух заданных классов. Ёмкостью семейства <tex>A</tex> называется наибольшее число <tex>h</tex>, такое, что существует подмножество из <tex>h</tex> объектов в множестве <tex>X</tex>, которое функции из <tex>A</tex> могут разбить на два класса всеми возможными способами. Если же такие подмножества существуют для сколь угодно большого <tex>h</tex>, то ёмкость полагается равной бесконечности.
 +
 
 +
Если семейство алгоритмов имеет конечную размерность Вапника-Червоненкиса, то такое семейство называют классом Вапника-Червоненкиса.
 +
== Примеры ==
 +
Как пример, рассмотрим задачу о разбиении точек на плоскости на два класса прямой линией — это так называемый линейный классификатор. Множество из любых трёх точек, не лежащих на одной прямой, может быть разделено прямой линией на два класса всеми возможными способами (2³ = 8 способами, на рисунке ниже показаны два из них), но множества из четырёх и более точек — уже нет. Поэтому размерность Вапника-Червоненкиса линейного классификатора на плоскости равна трём.
 +
 
 +
{| border="0" cellpadding="4" cellspacing="0" align="center"
 +
| align="center" bgcolor=#ddffdd | [[Image:VC1.png]]
 +
| align="center" bgcolor=#ddffdd | [[Image:VC2.png]]
 +
<!--| align="center" bgcolor=#ddffdd | [[Image:VC3.png]] -->
 +
| align="center" bgcolor=#ffdddd | [[Image:VC4.png]]
 +
|-
 +
| colspan="2" align="center" bgcolor=#ddffdd | '''Примеры разделения трёх<br />точек на два класса'''
 +
| align="center" bgcolor=#ffdddd | '''Разделение невозможно<br />для этих четырёх точек'''
 +
|}
 +
 
 +
В общем случае, размерность Вапника-Червоненкиса семейства линейных классификаторов в n-мерном пространстве равна n + 1.
 +
 
== Связь с размером обучающей выборки ==
== Связь с размером обучающей выборки ==
-
== Ссылки ==
+
== Литература ==
 +
#{{книга
 +
|автор = Вапник В.Н., Червоненкис А.Я.
 +
|заглавие = Теория распознавания образов
 +
|год = 1974
 +
|место = М.
 +
|издательство = Наука
 +
}}
 +
# A. Blumer, A. Ehrenfeucht, D. Haussler, and M. K. Warmuth. "Learnability and the Vapnik–Chervonenkis dimension." Journal of the ACM, 36(4):929–865, 1989.
 +
 
 +
[[Категория:Теория вычислительного обучения]]

Версия 18:57, 3 января 2010

Данная статья является непроверенным учебным заданием.
Студент: Участник:DmitryKonstantinov
Преподаватель: Участник:Константин Воронцов
Срок: 8 января 2010

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.


Размерность Вапника-Червоненкиса (ёмкость, VC-dimension) —

Содержание

Определение

Если существует число h такое, что функция роста \Delta A(h) = 2^h и \Delta A(h+1) < 2^{h+1}, то оно называется ёмкостью или размерностью Вапника-Червоненкиса (VC-dimension) семейства алгоритмов A. Если такого числа h не существует, то говорят, что семейство A имеет бесконечную ёмкость.

Другая формулировка определения (через разнообразие): Пусть задано множество объектов X и некоторое семейство функций (алгоритмов классификации, решающих правил) A, которые сопоставляют каждому объекту множества X один из двух заданных классов. Ёмкостью семейства A называется наибольшее число h, такое, что существует подмножество из h объектов в множестве X, которое функции из A могут разбить на два класса всеми возможными способами. Если же такие подмножества существуют для сколь угодно большого h, то ёмкость полагается равной бесконечности.

Если семейство алгоритмов имеет конечную размерность Вапника-Червоненкиса, то такое семейство называют классом Вапника-Червоненкиса.

Примеры

Как пример, рассмотрим задачу о разбиении точек на плоскости на два класса прямой линией — это так называемый линейный классификатор. Множество из любых трёх точек, не лежащих на одной прямой, может быть разделено прямой линией на два класса всеми возможными способами (2³ = 8 способами, на рисунке ниже показаны два из них), но множества из четырёх и более точек — уже нет. Поэтому размерность Вапника-Червоненкиса линейного классификатора на плоскости равна трём.

Image:VC1.png Image:VC2.png Image:VC4.png
Примеры разделения трёх
точек на два класса
Разделение невозможно
для этих четырёх точек

В общем случае, размерность Вапника-Червоненкиса семейства линейных классификаторов в n-мерном пространстве равна n + 1.

Связь с размером обучающей выборки

Литература

  1. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов. — М.: Наука, 1974.
  2. A. Blumer, A. Ehrenfeucht, D. Haussler, and M. K. Warmuth. "Learnability and the Vapnik–Chervonenkis dimension." Journal of the ACM, 36(4):929–865, 1989.
Личные инструменты