Участник:Алексей Куренной/Песочница

Материал из MachineLearning.

Версия от 22:33, 11 декабря 2008; Алексей Куренной (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Определение

Пусть $X$ и $Y$ - множества произвольной природы. Будем называть $X$ множеством объектов, а $Y$ - множеством ответов. За $X^L$ обозначим L-элементную выборку из $X$ , т.е. подмножество $X$ , мощность которого равна $L$ .

Определение. Функцией роста семейства алгоритмов $A$ называется функция:

$\Delta^A(L) = \sup_{\small{X^L}}\,\Delta(A,X^L)$ , где $\Delta(A,X^L)$ - коэффициент разнообразия семейства $A$ на выборке $X^L$ .

Оценки функции роста

Поскольку $\Delta(A, X^L) \leq 2^L$ для любого семейства алгоритмов и любой выборки длины L, $\Delta^A(L) \leq 2^L$ . Более детально поведение функции роста описывается следующей теоремой:
Теорема. Для функции роста произвольного семейства алгоритмов есть ровно две возможности:

либо $\forall\,L\in\mathbb{N}\ \Delta^A(L) = 2^L$ (в этом случае говорят, что ёмкость семейства $A$ равна $\infty$ ),
либо $\exists\,L\in \mathbb{N}\::\: \Delta^A(l)\,\begin{cases} = 2^l, & l\,<\,L \\ <\,2^l, & l\geq\,L\end{cases}$ (тогда ёмкость семейства $A$ полагают равной $L - 1$ ).

Эту теорему можно доказать, опираясь на лемму Вапника - Червоненкиса:
Лемма. $\forall\,A,\,L,\,h = 0,\,1,\,\dots,\,L - 1$ выполнено:

для любой выборки $X^L\ [(\forall\,X^{h + 1}\subseteq X^L\ \Delta(A, X^{h + 1})\,<\,2^{h + 1})\Rightarrow\Delta(A, X^L)\leq\Phi^h_L = C^0_L + C^1_L + \dots + C^h_L]$ .

Доказательство леммы. Сначала докажем лемму для $h = 0$ и $h = L - 1$ . В случае $h = 0$ выполнение левой части импликации из условия леммы означает, что на произвольном элементе выборки $X^L$ все алгоритмы семейства ведут себя одинаково, но тогда $\Delta(A,X^L) = 1 = \Phi^0_L$ . Если же $h = L - 1$ , то лемма справедлива в силу оценки $\Delta^A(L) \leq 2^L = \Phi^L_L$ .

Теперь предположим, что лемма верна для некоторого $L$ и всех $h'\leq h$ , докажем, что тогда она выполняется для $L + 1$ и $h$ . Рассмотрим произвольное семейство алгоритмов. Пусть для некоторой выборки $X^{L + 1}$ справедливо $\forall\,X^{h + 1}\subseteq X^{L + 1}\ \Delta(A, X^{h + 1})\,<\,2^{h + 1}$ . Разобъем $X^{L + 1}$ на две части: $X^{L + 1} = X^L\,\cup\,\{x_{\tiny L + 1}\}$ . Будем обозначать за $\mathscr{A}(A, X^K)$ множество карт ошибок семейства алгоритмов $A$ на выборке $X^K:\ \mathscr{A}(A, X^K) = \{\,\tilde a(a,X^K)\::\:a\in A\,\}$ . Рассмотрим множества $\mathscr{A}_1 = \mathscr{A}(A, X^{L + 1})$ и $\mathscr{A}_2 = \mathscr{A}(A, X^L)$ . Сопоставим каждому элементу из $\mathscr{A}_1$ его сужение на $X^L$ . За $\mathscr{A}'$ обозначим совокупность тех карт из $\mathscr{A}_2$ , которые при указанном сопоставлении имеют два прообраза. Каждый из оставшихся элементов $\mathscr{A}_2$ обладает ровно одним прообразом, их совокупность обозначим за $\mathscr{A}''$ . Очевидно, $|\mathscr{A}_1| = 2|\mathscr{A}'| + |\mathscr{A}''| = \Delta(A, X^L) + |\mathscr{A}'|$ . Докажем, что для совокупности алгоритмов $A' = \{a\in A\ \mid\ \tilde a(a,X^L)\in\mathscr{A}'\}$ , $X^L$ и $h - 1$ выполнена левая часть импликации из формулировки леммы. Предположим, что это не так. Тогда $\exists\ X^h\subseteq X^L\::\:\Delta(A', X^h) = 2^h$ . В силу задания $A'$ отсюда следует, что