Гипотеза компактности

Материал из MachineLearning.

Статья написана с использованием LLM GPT-5.6 Sol и проверена участником Kirill Novoselov 00:38, 17 июля 2026 (MSD)

Содержание

1 Мотивация
2 Историческая справка
- 2.1 Возникновение гипотезы
- 2.2 Дальнейшая формализация
3 Основная формулировка
- 3.1 Формулировка через информативные признаки
- 3.2 Вероятностная мера компактности
4 Варианты гипотезы
5 Связь с топологической компактностью
- 5.1 Два различных понятия
- 5.2 Предельный случай: компактные разделённые носители
6 Алгоритмические следствия
7 Влияние на современные методы анализа данных
8 Границы применимости
9 См. также
10 Литература
11 Внешние ссылки

Гипотеза компактности (также гипотеза компактности Бравермана; в учебной традиции — гипотеза компактности школы Айзермана) — предположение о согласованности сходства объектов и сходства их целевых характеристик: объекты, близкие в удачно выбранном представлении, как правило, имеют близкие значения целевой переменной. В классификации это означает, что близкие объекты чаще принадлежат одному классу, чем разным классам.

Гипотеза была сформулирована Э. М. Браверманом в 1961 году в научной школе М. А. Айзермана. Она стала геометрической основой обучения по прецедентам, методов ближайших соседей, парзеновского окна, потенциальных функций, выбора признаков и кластеризации. Современные метрическое обучение, обучение вложений и графовые методы частичного обучения используют тот же общий принцип, но часто не ссылаются непосредственно на советскую терминологию.

Термин «компактность» здесь первоначально употреблялся в геометрическом и статистическом смысле — как локальная концентрация похожих объектов. Это понятие не тождественно топологической компактности. Однако при компактных попарно разделённых носителях классов оба смысла согласуются в строгом предельном режиме: каждый класс допускает конечные $\varepsilon$ -сети, а плотная обучающая выборка восстанавливает их с произвольно малой точностью.

Мотивация

Пусть наблюдается конечная обучающая выборка

$X^\ell=\{(x_i,y_i)\}_{i=1}^{\ell}, \qquad x_i\in\mathcal X,\quad y_i\in\mathcal Y,$

а требуется предсказывать неизвестное значение $y$ для нового объекта $x$ . По конечному набору прецедентов нельзя восстановить произвольную зависимость $y^*:\mathcal X\to\mathcal Y$ : существует бесконечно много правил, одинаково работающих на обучающих объектах и произвольно различающихся вне выборки. Следовательно, обобщение требует дополнительного индуктивного предположения.

Гипотеза компактности вводит такое предположение через функцию близости. Наблюдатель выбирает представление $\phi:\mathcal X\to\mathcal Z$ и функцию расстояния

$\rho_\phi(x,x')=\rho\bigl(\phi(x),\phi(x')\bigr).$

Выбор считается удачным, если малое расстояние между объектами информативно относительно целевой характеристики. Для классификации это позволяет переносить метку с известных объектов на их окрестности; для регрессии — усреднять ответы близких объектов; для обучения без учителя — искать локальные сгущения точек.

Существенно, что гипотеза относится не только к данным, но и к их описанию. Один и тот же набор объектов может быть компактным в информативном пространстве признаков и некомпактным в пространстве нерелевантных измерений. Поэтому выбор признаков, масштабирование координат и обучение метрики являются частью постановки, а не нейтральной предварительной обработкой.

Историческая справка

Возникновение гипотезы

В 1960 году Э. М. Браверман поступил в аспирантуру Института автоматики и телемеханики АН СССР; его научным руководителем был М. А. Айзерман. В 1961–1962 годах вокруг предложенного Браверманом геометрического подхода к распознаванию и гипотезы компактности проходили научные дискуссии. Поэтому выражение «по Айзерману» указывает прежде всего на научную школу, тогда как авторство исходной гипотезы принадлежит Браверману.

Первая журнальная публикация — статья «Опыты по обучению машины распознаванию зрительных образов» — поступила в редакцию 9 сентября 1961 года и вышла в 1962 году. Описанный алгоритм не использовал специальных сведений о распознаваемых изображениях и опирался на предположение, что реализации образов образуют компактные группы в подходящем пространстве.

В 1964 году М. А. Айзерман, Э. М. Браверман и Л. И. Розоноэр опубликовали теоретические основы метода потенциальных функций. В нём обучающие объекты создают убывающие с расстоянием «потенциалы», а решение определяется их суммой. Результаты были систематизированы в монографии «Метод потенциальных функций в теории обучения машин» 1970 года. Так гипотеза компактности превратилась из общего принципа в конструктивную программу построения алгоритмов.

Дальнейшая формализация

А. Г. Аркадьев и Э. М. Браверман развили геометрический подход в книгах по обучению распознаванию. Э. М. Браверман и И. Б. Мучник применили его к автоматической классификации и структурным методам обработки эмпирических данных.

В 1998 году Н. Г. Загоруйко дал формальное описание нескольких вариантов гипотезы — унимодального, полимодального, локального и проективного — и предложил гипотезу $\lambda$ -компактности, учитывающую локальную неоднородность плотности данных. В 1999 году Р. П. У. Дуин (R. P. W. Duin) предложил измеримую вероятностную характеристику компактности и связал её с ошибкой метода ближайшего соседа и сложностью задачи распознавания.

В 2018 году идеи Бравермана были переизложены в современном языке машинного обучения, включающем функции сходства, ядра и спрямляющие пространства. Эта работа подчёркивает историческую связь гипотезы компактности с обучением по прецедентам, но не означает, что все современные методы близости непосредственно произошли из одной школы.

Краткая хронология:

Год	Результат	Значение
1961	Э. М. Браверман формулирует гипотезу компактности	геометрическое обоснование переноса решения на похожие объекты
1962	публикуются эксперименты по обучению распознаванию зрительных образов	первая алгоритмическая проверка принципа
1964	Айзерман, Браверман и Розоноэр публикуют метод потенциальных функций	локальные функции близости превращаются в обучаемое решающее правило
1970	выходит монография о методе потенциальных функций	систематизация теории обучения машин в школе Айзермана
1998	Н. Г. Загоруйко вводит варианты компактности и $\lambda$ -компактность	формализация для классификации, таксономии и анализа данных
1999	Р. П. У. Дуин предлагает статистическую меру компактности	эмпирическая проверка гипотезы и оценка сложности задачи
2000-е — 2010-е	развиваются метрическое обучение, многообразия и глубокие вложения	близость становится обучаемой частью модели

Основная формулировка

Пусть $(\mathcal X,\rho)$ — пространство объектов с метрикой или более общей симметричной функцией различия, а $(\mathcal Y,d_\mathcal Y)$ — пространство целевых значений. Для классификации можно положить

$d_\mathcal Y(y,y')=[y\ne y'],$

где квадратные скобки обозначают индикатор условия.

В литературе по распознаванию алгоритмы, основанные на сравнении близости объектов, традиционно называют метрическими, даже если функция $\rho$ является лишь мерой различия и не удовлетворяет всем аксиомам метрики. В частности, для неё может не выполняться неравенство треугольника. Вероятностная формулировка гипотезы использует только порядок расстояний и остаётся осмысленной для такой функции различия. Утверждения о топологической компактности, напротив, требуют, чтобы $\rho$ была настоящей метрикой и задавала топологию пространства.

Гипотеза компактности утверждает, что малое значение $\rho(x,x')$ обычно сопровождается малым значением $d_\mathcal Y(y^*(x),y^*(x'))$ . Вероятностная версия этого утверждения имеет вид

$\Pr\{d_\mathcal Y(Y_1,Y_2)\leq\eta\mid \rho(X_1,X_2)\leq\varepsilon\}\geq 1-\alpha,$

где $\varepsilon>0$ задаёт масштаб близости объектов, $\eta\geq0$ — допустимое различие ответов, а $\alpha\in[0,1]$ — вероятность нарушения гипотезы. В классификации при $\eta=0$ это условие принимает вид

$\Pr\{Y_1=Y_2\mid \rho(X_1,X_2)\leq\varepsilon\}\geq 1-\alpha.$

Параметры $\varepsilon$ и $\alpha$ зависят от распределения данных и представления. Поэтому гипотеза компактности не является универсальной теоремой: она представляет семейство проверяемых предположений о конкретной задаче.

Формулировка через информативные признаки

Пусть $A$ — множество обучающих объектов, $q$ — новый объект, $X=(x_1,\ldots,x_n)$ — описывающие признаки, а $z$ — целевой признак. Обозначим утверждение о компактности множества $B$ в пространстве признаков $S$ через $C_B^S$ . В обозначениях Н. Г. Загоруйко гипотеза записывается схемой

$C_A^{X,z}\;\&\;C_{A\cup\{q\}}^X \quad\Longrightarrow\quad C_{A\cup\{q\}}^{X,z}.$

Иными словами, если обучающие объекты согласованы одновременно по описанию и цели, а новый объект близок к ним по описывающим признакам, то его целевое значение ожидается близким к целевым значениям этих объектов. Для классификации требуется также, чтобы компактные сгущения разных классов существенно не перекрывались.

Вероятностная мера компактности

Пусть $(X_1,Y_1)$ , $(X_2,Y_2)$ и $(X_3,Y_3)$ — независимые наблюдения. Р. П. У. Дуин определяет компактность размеченной задачи вероятностью

$c=\Pr\{\rho(X_1,X_2)<\rho(X_1,X_3)\mid Y_1=Y_2,\;Y_1\ne Y_3\}.$

В двухклассовой сбалансированной задаче значение $c>1/2$ означает, что случайный объект своего класса чаще оказывается ближе случайного объекта чужого класса. Для многоклассовых и несбалансированных задач порог следует калибровать с учётом априорных вероятностей и способа формирования троек.

Для выборки введём множество допустимых троек

$\mathcal T=\{(i,j,k):y_i=y_j,\;y_i\ne y_k,\;i\ne j\}.$

Естественная выборочная оценка, учитывающая совпадающие расстояния, имеет вид

$\widehat c=\frac{1}{|\mathcal T|}\sum_{(i,j,k)\in\mathcal T}\left([\rho(x_i,x_j)<\rho(x_i,x_k)]+\frac12[\rho(x_i,x_j)=\rho(x_i,x_k)]\right).$

В постановке Дуина $c$ связано с ожидаемой ошибкой классификатора, имеющего по одному случайному прототипу каждого из двух классов: чем больше $c$ , тем чаще правильный прототип оказывается ближайшим. Тем самым компактность характеризует не только перекрытие классов, но и сложность их геометрии.

Ещё одна выборочная характеристика — профиль компактности. Пусть $x_i^{(k)}$ — $k$ -й ближайший сосед объекта $x_i$ среди остальных элементов выборки, а $y_i^{(k)}$ — его метка. Тогда

$P(k)=\frac1\ell\sum_{i=1}^{\ell}[y_i=y_i^{(k)}], \qquad k=1,\ldots,\ell-1.$

Высокие значения $P(k)$ при малых $k$ показывают локальную однородность классов; быстрое падение профиля указывает на малый масштаб сгущений, шум или неудачную метрику.

Варианты гипотезы

Н. Г. Загоруйко различает несколько уровней геометрического предположения.

Унимодальная компактность предполагает, что каждый класс образует одно сгущение простой формы. Такая модель согласуется, например, с одним выпуклым множеством или одним унимодальным распределением на класс.

Полимодальная компактность допускает несколько сгущений одного класса. Класс тогда представляется объединением областей или смесью распределений. Этот вариант существенно шире: одинаковая метка может соответствовать нескольким типичным режимам объекта.

Локальная компактность требует лишь существования малой окрестности каждого типичного объекта, в которой почти все объекты имеют ту же метку. Глобальная форма класса при этом может быть невыпуклой, несвязной или неизвестной. Именно этот вариант лежит в основе правил ближайшего соседа и локального сглаживания.

Проективная компактность предполагает, что разделимость проявляется в проекциях на отдельные признаки или их малые подмножества. Она мотивирует последовательный выбор информативных признаков и покоординатные решающие правила.

$\lambda$ -компактность сравнивает расстояние между соседними точками с локальным масштабом их окружения. Для ребра длины $\alpha$ и минимальной длины соседнего ребра $\beta_{\min}$ вводится относительная характеристика

$\lambda=\frac{\alpha}{\beta_{\min}}.$

Большое $\lambda$ указывает не просто на длинное ребро, а на скачок относительно локальной плотности. В минимальном остовном дереве такие рёбра являются естественными кандидатами на границы кластеров. Поэтому $\lambda$ -компактность адаптируется к группам разной плотности лучше, чем единый абсолютный радиус.

Связь с топологической компактностью

Два различных понятия

Подмножество $K$ топологического пространства называется компактным, если из любого его открытого покрытия можно выбрать конечное подпокрытие. В метрическом пространстве это равносильно тому, что из любой последовательности точек $K$ можно выделить сходящуюся подпоследовательность с пределом в $K$ . В $\mathbb R^d$ , по теореме Гейне — Бореля, компактность равносильна замкнутости и ограниченности.

Эмпирическая гипотеза Бравермана утверждает согласованность расстояний и целевых значений. Топологическая компактность утверждает возможность конечного покрытия при любом масштабе. Ни одно из этих утверждений в общем случае не следует из другого:

любое конечное множество топологически компактно, даже если метки образуют конфигурацию XOR и ближайшие точки часто принадлежат разным классам;
класс может быть метрически хорошо отделён от остальных на наблюдаемом диапазоне, но иметь неограниченный и потому некомпактный носитель;
компактность класса не означает его выпуклости, связности, малого диаметра или простоты разделяющей границы.

Предельный случай: компактные разделённые носители

Пусть $(\mathcal X,\rho)$ — метрическое пространство, число классов $M$ конечно, а

$K_c=\operatorname{supp}\Pr(X\in\cdot\mid Y=c), \qquad c=1,\ldots,M,$

— носитель условного распределения класса $c$ .

Утверждение о разделённых компактах. Предположим, что все множества $K_c$ непусты, топологически компактны и попарно не пересекаются. Тогда межклассовый зазор

$\Delta=\min_{c\ne b}\operatorname{dist}(K_c,K_b),$

где

$\operatorname{dist}(A,B)=\inf\{\rho(a,b):a\in A,\;b\in B\},$

строго положителен. Для любого $0<\varepsilon<\Delta/2$ каждый класс имеет конечную $\varepsilon$ -сеть $Z_c\subset K_c$ , то есть

$K_c\subset\bigcup_{z\in Z_c}B_\varepsilon(z).$

Классификатор ближайшего прототипа, построенный по конечному множеству $Z=\bigcup_c Z_c$ , безошибочно классифицирует все точки $\bigcup_c K_c$ .

Это утверждение выражает точку соприкосновения двух смыслов компактности. Топологическая компактность заменяет бесконечный носитель конечным набором прототипов на любом фиксированном масштабе, а положительный зазор гарантирует локальное постоянство метки. Таким образом, конечная обучающая выборка может представлять весь класс с контролируемой точностью.

Пусть теперь объекты каждого класса выбираются независимо из распределения с носителем $K_c$ , а число наблюдений каждого класса стремится к бесконечности. Тогда почти наверное классовые подвыборки становятся $\varepsilon$ -сетями для любого $\varepsilon>0$ . Эквивалентно, их расстояние Хаусдорфа до $K_c$ стремится к нулю. Поэтому при достаточно большом объёме выборки правило ближайшего соседа восстанавливает разделение компактных носителей.

В ещё более сильном предельном режиме положим

$D=\max_c\operatorname{diam}(K_c), \qquad \operatorname{diam}(K)=\sup_{x,x'\in K}\rho(x,x').$

Если $D<\Delta$ , то любая пара объектов одного класса ближе любой пары с общим первым объектом из разных классов. Следовательно, вероятностная компактность Дуина достигает максимума:

$c=1.$

Итак, о «совпадении» с топологической компактностью корректно говорить только при дополнительных условиях разделённости, а для глобальной попарной формулировки — ещё и при условии $D<\Delta$ . Без этих условий термины обозначают разные свойства.

Алгоритмические следствия

Ближайшие соседи и локальное сглаживание

Пусть $x_u^{(1)},\ldots,x_u^{(\ell)}$ — обучающие объекты, упорядоченные по возрастанию расстояния до $u$ . Обобщённый метрический классификатор имеет вид

$a(u)=\arg\max_{c\in\mathcal Y}\sum_{i=1}^{\ell}[y_u^{(i)}=c]w(i,u),$

где вес $w(i,u)$ убывает с расстоянием. Выбор $w(i,u)=[i\leq k]$ даёт метод k ближайших соседей, а вес, заданный ядром расстояния, — парзеновское окно или потенциальный метод.

Локальная компактность объясняет эту конструкцию: если метка с большой вероятностью постоянна в малой окрестности $u$ , то ближайшие прецеденты являются наиболее релевантными. При нарушении гипотезы — неинформативной метрике, пересечении классов или высокой концентрации шумовых координат — правило теряет основание.

Метод потенциальных функций

В методе Айзермана, Бравермана и Розоноэра каждый обучающий объект создаёт потенциал, убывающий с расстоянием. Для многоклассовой задачи можно записать

$\Gamma_c(x)=\sum_{i:y_i=c}\gamma_i K\left(\frac{\rho(x,x_i)}{h_i}\right), \qquad a(x)=\arg\max_c\Gamma_c(x),$

где $K$ — потенциальная функция, $h_i$ — масштаб окрестности, а $\gamma_i\geq0$ — обучаемый заряд прецедента. Ошибочно классифицируемые объекты получают больший заряд. Метод реализует гипотезу компактности в мягкой форме: влияние прецедента не обрывается на фиксированном радиусе, а плавно уменьшается.

Если $K(x,x')$ является положительно определённым ядром, правило можно интерпретировать как линейный классификатор в неявном спрямляющем пространстве. Это связывает метод потенциальных функций с более поздними радиально-базисными сетями и ядерными методами, хотя критерии обучения у этих моделей различаются.

Кластеризация и выбор признаков

В кластеризации гипотеза принимает форму требования: внутрикластерные расстояния должны быть малы, а межкластерные — велики. Разные алгоритмы задают разные варианты компактности: сферические кластеры, смеси распределений, связные компоненты графа соседства или области высокой плотности.

При выборе признаков сравнивают компактность классов в различных подпространствах. Полезны признаки, после добавления которых уменьшаются внутриклассовые расстояния относительно межклассовых либо улучшается профиль компактности. Тем самым отбор признаков можно рассматривать как поиск представления, в котором гипотеза выполняется наиболее уверенно.

Влияние на современные методы анализа данных

Современное развитие идеи состоит в переходе от фиксированной экспертной метрики к обучаемому представлению. Модель одновременно строит отображение $\phi$ и добивается компактности классов в пространстве $\phi(\mathcal X)$ .

Направление	Современная математическая форма	Связь с гипотезой компактности
Ближайшие соседи	метка переносится от ближайших прецедентов	прямое использование локальной компактности; классические статистические гарантии независимо развивались в работах Т. Ковера и П. Харта
Обучение метрики	$\rho_M(x,x')=(x-x')^TM(x-x'),\;M\succeq0$	матрица $M$ обучается так, чтобы целевые соседи одного класса были близки, а объекты разных классов разделялись зазором
Глубокое метрическое обучение	$L=\sum[\rho(\phi(a),\phi(p))^2-\rho(\phi(a),\phi(n))^2+m]_+$	triplet loss непосредственно требует, чтобы положительный пример был ближе отрицательного; это обучаемый аналог вероятностной меры $c$
Ядерные методы и RBF-сети	решение строится из функций $K(x,x_i)$	мягкое суммирование локальных потенциалов; имеется прямая историческая линия от метода потенциальных функций
Графовое и частичное обучение	$f^TL_Gf=\frac12\sum_{i,j}w_{ij}(f_i-f_j)^2$	штраф требует близких предсказаний на рёбрах графа соседства и реализует гладкость целевой функции вдоль данных
Обучение на многообразии	данные предполагаются сосредоточенными около объекта малой внутренней размерности	геометрическая близость определяется вдоль многообразия; это родственное, но более структурное предположение
Кластерное предположение в частичном обучении	граница решения проводится через области малой плотности	плотные сгущения получают преимущественно одну метку; используются и неразмеченные объекты
Заполнение пропусков и локальная регрессия	неизвестное значение оценивается по близким полным наблюдениям	переносится не имя класса, а числовая целевая характеристика

В методе LMNN К. Вайнбергера и Л. Соула обучается расстояние Махаланобиса. Для заранее выбранных целевых соседей вводятся индикаторы $\eta_{ij}$ , и решается выпуклая задача

$\min_{M\succeq0,\,\xi\geq0}\sum_{i,j}\eta_{ij}\rho_M(x_i,x_j)+\mu\sum_{i,j,k}\eta_{ij}[y_i\ne y_k]\xi_{ijk},$

при ограничениях

$\rho_M(x_i,x_k)-\rho_M(x_i,x_j)\geq1-\xi_{ijk}.$

Так качественная фраза «свои ближе чужих» становится оптимизационным критерием с зазором.

В FaceNet нейронная сеть обучает евклидово вложение изображений лиц с помощью троек $(a,p,n)$ : изображение $p$ той же личности должно быть ближе к опорному $a$ , чем изображение $n$ другой личности. После обучения стандартные методы распознавания и кластеризации применяются непосредственно к вложениям. Это один из наиболее наглядных современных примеров реализации принципа компактности, хотя работа исторически опирается на литературу по метрическому обучению, а не на прямую ссылку Браверману.

В многообразной регуляризации М. Белкина, П. Нийоги и В. Синдхвани минимизируется функционал вида

$\frac1\ell\sum_{i=1}^{\ell}V(x_i,y_i,f)+\gamma_A\|f\|_K^2+\frac{\gamma_I}{(\ell+u)^2}f^TL_Gf.$

Последний член заставляет ответы быть близкими для точек, соединённых в графе соседства, и использует геометрию как размеченных, так и неразмеченных данных. В отличие от исходной гипотезы, здесь локальная гладкость задаётся явным регуляризатором и анализируется в воспроизводящем ядерном гильбертовом пространстве.

Границы применимости

Гипотеза компактности может нарушаться или становиться практически бесполезной в следующих случаях:

выбранные признаки не отражают различия, существенные для целевой переменной;
классы существенно перекрываются или метки содержат ошибки;
один класс состоит из далёких мод, а другой заполняет промежутки между ними;
нерелевантные координаты доминируют в расстоянии, особенно в пространствах высокой размерности;
локальная плотность сильно меняется, поэтому один глобальный радиус не подходит всем областям;
целевая функция имеет разрывы внутри областей высокой плотности;
обучающая выборка не покрывает редкие режимы распределения.

Конфигурация XOR показывает различие между разделимостью и глобальной компактностью: классы могут не пересекаться и иметь нулевую байесовскую ошибку, но случайный объект своего класса не обязан быть ближе случайного объекта другого класса. Поэтому низкая $\widehat c$ не доказывает неразрешимость задачи; она показывает, что простая глобальная метрика и локальный классификатор недостаточны.

На практике гипотезу следует проверять по контрольной выборке, профилю компактности, качеству ближайших соседей и устойчивости к изменению масштаба. Если она не выполняется, возможны построение новых признаков, обучение метрики, локально адаптивные расстояния, разбиение классов на моды или переход к неметрической модели.

См. также

Литература

Браверман Э. М. Опыты по обучению машины распознаванию зрительных образов // Автоматика и телемеханика. — 1962. — Т. 23, № 3. — С. 349–364.
Айзерман М. А., Браверман Э. М., Розоноэр Л. И. Теоретические основы метода потенциальных функций в задаче об обучении автоматов распознаванию образов // Автоматика и телемеханика. — 1964. — Т. 25, № 6. — С. 917–936.
Айзерман М. А., Браверман Э. М., Розоноэр Л. И. Метод потенциальных функций в теории обучения машин. — М.: Наука, 1970. — 384 с.
Аркадьев А. Г., Браверман Э. М. Обучение машины распознаванию образов. — М.: Наука, 1964. — 110 с.
Аркадьев А. Г., Браверман Э. М. Обучение машины классификации объектов. — М.: Наука, 1971. — 192 с.
Браверман Э. М., Мучник И. Б. Структурные методы обработки эмпирических данных. — М.: Наука, 1983. — 464 с.
Загоруйко Н. Г. Гипотезы компактности и λ-компактности в методах анализа данных // Сибирский журнал индустриальной математики. — 1998. — Т. 1, № 1. — С. 114–126.
Duin R. P. W. Compactness and Complexity of Pattern Recognition Problems // Proceedings of the International Symposium on Pattern Recognition “In Memoriam Pierre Devijver”. — Brussels: Royal Military Academy, 1999. — P. 124–128.
Cover T. M., Hart P. E. Nearest Neighbor Pattern Classification // IEEE Transactions on Information Theory. — 1967. — Vol. 13, No. 1. — P. 21–27.
Belkin M., Niyogi P., Sindhwani V. Manifold Regularization: A Geometric Framework for Learning from Labeled and Unlabeled Examples // Journal of Machine Learning Research. — 2006. — Vol. 7. — P. 2399–2434.
Weinberger K. Q., Saul L. K. Distance Metric Learning for Large Margin Nearest Neighbor Classification // Journal of Machine Learning Research. — 2009. — Vol. 10. — P. 207–244.
Schroff F., Kalenichenko D., Philbin J. FaceNet: A Unified Embedding for Face Recognition and Clustering // Proceedings of CVPR. — 2015. — P. 815–823.
Mottl V., Seredin O., Dvoenko S., Kulikowski C. Compactness Hypothesis, Potential Functions, and Rectifying Linear Space in Machine Learning // Braverman Readings in Machine Learning. Key Ideas from Inception to Current State. — Cham: Springer, 2018. — P. 52–102.

Внешние ссылки

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%93%D0%B8%D0%BF%D0%BE%D1%82%D0%B5%D0%B7%D0%B0_%D0%BA%D0%BE%D0%BC%D0%BF%D0%B0%D0%BA%D1%82%D0%BD%D0%BE%D1%81%D1%82%D0%B8»

Категории: Метрические алгоритмы классификации | Машинное обучение