Самостоятельное обучение

Материал из MachineLearning.

(Перенаправлено с Self supervised learning)
Перейти к: навигация, поиск
Статья написана с использованием LLM Gemini 3.1 Pro и проверена участником Vsevolod Peretiatko 01:18, 19 июня 2026 (MSD)


Самостоятельное обучение (англ. Self-Supervised Learning, SSL; в русскоязычной академической литературе также применяется термин самоконтролируемое обучение) — парадигма машинного обучения, в которой обучающие сигналы (целевые метки) извлекаются автоматически из самой структуры неразмеченных входных данных путем формирования и решения детерминированных вспомогательных задач (англ. pretext tasks).

В общепринятой таксономии методов анализа данных самостоятельное обучение занимает промежуточное положение между обучением без учителя и обучением с учителем. С одной стороны, методы SSL не требуют привлечения человека-разметчика или экспертных оценок, что преодолевает ключевое ограничение классического обучения с учителем — высокую стоимость и плохую масштабируемость ручной разметки. С другой стороны, в отличие от классического обучения без учителя (такого как кластеризация или снижение размерности), вычислительный граф, архитектуры моделей и функции потерь заимствуются из аппарата непрерывной оптимизации, характерного для задач обучения с учителем.

Основная цель самостоятельного обучения заключается в построении универсальных, информационно богатых и устойчивых скрытых представлений (англ. representations, эмбеддингов), отражающих фундаментальные геометрические, топологические или семантические свойства объектов. Полученный в результате предобучения (англ. pre-training) кодировщик используется в качестве базовой модели (англ. foundation model) для последующего решения широкого спектра целевых прикладных задач (англ. downstream tasks) посредством тонкой настройки (fine-tuning) или линейного зондирования (linear probing).

Содержание

Математическая постановка задачи

Формализация входного пространства и аугментаций

Пусть задана выборка неразмеченных объектов X = \{x_i\}_{i=1}^N, где каждый объект x_i \in \mathcal{X} представляет собой элемент некоторого исходного пространства (например, пространства цифровых изображений, текстовых последовательностей или топологических графов), распределенный в соответствии с неизвестной истинной плотностью распределения p(\mathbf{x}).

Определим параметрическое семейство стохастических преобразований (аугментаций) \mathcal{T} = \{T_\omega \mid \omega \sim \Omega\}, отображающих пространство \mathcal{X} в себя и сохраняющих семантическое инвариантное ядро объекта. Для каждого исходного объекта x_i путем независимой генерации случайных параметров \omega_1, \omega_2 \sim \Omega формируются различные модифицированные версии — «виды» (англ. views): \tilde{x}_i^{(1)} = T_{\omega_1}(x_i), \quad \tilde{x}_i^{(2)} = T_{\omega_2}(x_i)

Компоненты архитектуры совместного встраивания

Математическая архитектура современных SSL-моделей (в частности, архитектур совместного встраивания) представляется в виде композиции двух дифференцируемых отображений:

  1. Кодировщик (энкодер) f_\theta: \mathcal{X} \to \mathbb{R}^d, параметризованный вектором весов \theta, переводящий входной объект в низкоразмерный вектор скрытого представления (эмбеддинг): h_i^{(1)} = f_\theta(\tilde{x}_i^{(1)}).
  2. Проектор g_\phi: \mathbb{R}^d \to \mathbb{R}^k, параметризованный вектором весов \phi, отображающий скрытое представление в инвариантное подпространство меньшей или равной размерности, где вычисляется суррогатная целевая функция: z_i^{(1)} = g_\phi(h_i^{(1)}).

Использование проектора необходимо для предотвращения потери значимой информации в основном представлении h_i из-за чрезмерного сжатия данных под специфику вспомогательной задачи.

Оптимизационный функционал суррогатного риска

Задача самостоятельного обучения формулируется как минимизация эмпирического риска для суррогатной функции потерь \mathcal{L}_{\text{pretext}} на всем множестве доступных неразмеченных данных: \min_{\theta, \phi} \frac{1}{N} \sum_{i=1}^N \mathbb{E}_{\omega_1, \omega_2} \left[ \mathcal{L}_{\text{pretext}} \left( g_\phi(f_\theta(T_{\omega_1}(x_i))), \, g_\phi(f_\theta(T_{\omega_2}(x_i))), \, \mathcal{C}_i \right) \right] где \mathcal{C}_i обозначает контекстное множество, которое в зависимости от парадигмы обучения может включать в себя представления других объектов выборки (негативные примеры) либо внутренние ограничения на геометрию признакового пространства.

Геометрические метрики Ванга — Изолы

Рис. 1. Геометрическая интерпретация метрик Ванга — Изолы на единичной гиперсфере: минимизация расстояния между позитивными парами (Alignment) и равномерное распределение всех представлений случайных объектов выборки (Uniformity) для предотвращения скрытого коллапса.
Рис. 1. Геометрическая интерпретация метрик Ванга — Изолы на единичной гиперсфере: минимизация расстояния между позитивными парами (Alignment) и равномерное распределение всех представлений случайных объектов выборки (Uniformity) для предотвращения скрытого коллапса.

Для глубокого анализа геометрии пространства представлений контрастивного обучения оптимизируемый функционал декомпозируют на две составляющие (метрики Ванга — Изолы)[1]:

  • Выравнивание (Alignment): Требует, чтобы представления позитивных пар (аугментаций одного объекта) находились близко друг к другу:
\mathcal{L}_{\text{align}}(\theta, \phi) = \mathbb{E}_{(x, x^+) \sim p_{\text{pos}}} \left[ \|g_\phi(f_\theta(x)) - g_\phi(f_\theta(x^+))\|^2 \right]
  • Равномерность (Uniformity): Требует, чтобы представления случайных не связанных между собой объектов были равномерно распределены по единичной гиперсфере, максимизируя энтропию распределения представлений и сохраняя как можно больше информации:
\mathcal{L}_{\text{uniform}}(\theta, \phi) = \log \mathbb{E}_{x, y \sim p(\mathbf{x})} \left[ \exp\left(-2\|g_\phi(f_\theta(x)) - g_\phi(f_\theta(y))\|^2\right) \right]

Информационно-теоретические основы

Гипотеза многообразия и информационное узкое место

Теоретическое обоснование эффективности самостоятельного обучения, в частности методов совместного встраивания (англ. joint-embedding methods), опирается на принципы теории информации и гипотезу многообразия информации (Multi-View Information Bottleneck). Успешность выделения устойчивых признаков кодировщиком f_\theta объясняется максимизацией взаимной информации между различными зашумленными версиями одного и того же истинного объекта при одновременном отсечении несущественного шума конкретной аугментации.

Пусть X^{(1)} и X^{(2)} — случайные величины, соответствующие двум различным аугментациям одного скрытого объекта. Их взаимная информация определяется через энтропию как: I(X^{(1)}; X^{(2)}) = \mathbb{E}_{p(x^{(1)}, x^{(2)})} \left[ \log \frac{p(x^{(1)}, x^{(2)})}{p(x^{(1)})p(x^{(2)})} \right]

Согласно принципу информационного узкого места для нескольких видов (Multi-View Information Bottleneck), идеальное представление Z должно максимизировать информацию о зависимой переменной (втором виде) и минимизировать информацию об исходном объекте, избыточную для предсказания второго вида: \max I(Z; X^{(2)}) при условии I(Z; X^{(1)}) \le R

Вариационные нижние оценки и функционал InfoNCE

Поскольку прямое вычисление плотностей распределения p(x^{(1)}, x^{(2)}) в пространствах высокой размерности вычислительно не реализуемо, для максимизации взаимной информации применяется подход, основанный на вариационных нижних оценках (англ. variational lower bounds). Наиболее распространенной математической формой такой оценки является функционал InfoNCE (Information Noise-Contrastive Estimation)[1], представляющий собой многоклассовую контрастивную функцию потерь.

Пусть в рамках одного мини-батча размера B для фиксированного положительного примера z_i^{(2)} = g_\phi(f_\theta(T_{\omega_2}(x_i))) (представления второй аугментации того же объекта) задано контекстное множество из 2B - 2 негативных примеров (представлений всех остальных аугментаций других объектов из текущего мини-батча). Тогда функция потерь InfoNCE для якорного объекта z_i^{(1)} имеет вид: \mathcal{L}_{\text{InfoNCE}}^{(i)} = - \log \frac{\exp\left(\frac{s(z_i^{(1)}, z_i^{(2)})}{\tau}\right)}{\exp\left(\frac{s(z_i^{(1)}, z_i^{(2)})}{\tau}\right) + \sum_{j \neq i} \exp\left(\frac{s(z_i^{(1)}, z_j^{(1)})}{\tau}\right) + \sum_{j \neq i} \exp\left(\frac{s(z_i^{(1)}, z_j^{(2)})}{\tau}\right)} где:

  • s(z_a, z_b) = \frac{z_a^T z_b}{\|z_a\| \|z_b\|} — косинусная мера сходства векторов в нормированном евклидовом пространстве;
  • \tau \in \mathbb{R}^+ — скалярный параметр температуры.

Градиентная динамика и влияние размера батча

Изменение \tau управляет градиентной динамикой: малые значения температуры заставляют лосс функционировать как жесткий селектор сложных негативных примеров (Hard Negative Miner), наказывая модель за малейшее сближение векторов разных классов.

Математически доказывается, что минимизация суммарной функции потерь по мини-батчу \mathcal{L}_{\text{InfoNCE}} = \frac{1}{B}\sum_{i=1}^B \mathcal{L}_{\text{InfoNCE}}^{(i)} эквивалентна максимизации нижней границы взаимной информации между скрытыми представлениями: I(Z^{(1)}; Z^{(2)}) \ge \log(B) - \mathcal{L}_{\text{InfoNCE}}

Таким образом, увеличение размера мини-батча B при оптимизации функционала InfoNCE гарантирует более строгую и точную аппроксимацию истинной взаимной информации, что непосредственно транслируется в повышение обобщающей способности кодировщика.

Классические эвристические задачи (Pretext Tasks) и контекстное обучение

Пространственный и семантический контекст в компьютерном зрении

Исторически первыми успешными методами самостоятельного обучения в компьютерном зрении стали эвристические задачи (англ. pretext tasks)[1], основанные на пространственном и семантическом контексте изображений. Их суть заключалась в намеренном сокрытии или искажении части входных данных с последующим обучением нейронной сети восстанавливать исходное состояние.

К числу фундаментальных классических подходов относятся:

  • Предсказание взаимного расположения (Relative Position) и пазлы (Jigsaw Puzzles): Модель получает фрагменты одного изображения и должна предсказать их правильное пространственное расположение относительно друг друга[1]. Для решения этой задачи многослойный перцептрон поверх сверточных признаков вынужден выучивать формы объектов, границы и их семантические связи (например, что голова кошки находится над туловищем).
  • Предсказание угла поворота (Rotation Prediction): Входное изображение случайно поворачивается на один из кратных углов (0°, 90°, 180°, 270°). Сеть обучается классифицировать угол поворота как задачу многоклассовой классификации[1]. Успешность метода обусловлена тем, что для определения правильной ориентации модель должна распознать объекты на изображении и понимать их естественное положение в реальном мире.
  • Колоризация (Colorization): Перевод изображения из одноканального спектра (оттенки серого) в цветовое пространство CIE LAB[1]. Сеть получает L-канал (яркость) и предсказывает a и b каналы (цветность). Это требует глубокого понимания текстур и объектной семантики (небо синее, листва зеленая).
Рис. 2. Базовые классические вспомогательные задачи (Pretext Tasks) в компьютерном зрении: разбиение на пазлы (Jigsaw Puzzles), предсказание угла поворота (Rotation Prediction) и колоризация в цветовом пространстве LAB.
Рис. 2. Базовые классические вспомогательные задачи (Pretext Tasks) в компьютерном зрении: разбиение на пазлы (Jigsaw Puzzles), предсказание угла поворота (Rotation Prediction) и колоризация в цветовом пространстве LAB.

Дистрибутивная семантика в обработке естественного языка (NLP)

В обработке естественного языка (NLP) классическим примером контекстного обучения является архитектура Word2Vec[1]. Модели Continuous Bag-of-Words (CBOW) и Skip-gram формируют плотные векторные представления слов (эмбеддинги) на основе локального контекста слова в окне фиксированного размера, опираясь на дистрибутивную семантику («слово характеризуется своим окружением»).

Недостатки подходов: проблема «коротких путей» (Shortcuts)

Несмотря на концептуальную простоту, эвристические задачи обладали существенным недостатком: нейросети часто находили «короткие пути» (англ. shortcuts), опираясь на низкоуровневые артефакты (например, хроматические аберрации объектива на краях пазлов или текстурные паттерны), вместо изучения обобщаемой высокоуровневой семантики.

Современные парадигмы предобучения для изображений

Преодоление ограничений эвристических задач привело к доминированию архитектур совместного встраивания (Joint-Embedding Architectures). Их цель — сделать скрытые представления различных аугментаций одного объекта инвариантными. Эта парадигма математически разделяется на контрастивные и неконтрастивные методы.

Контрастивное обучение (Contrastive Learning)

Методы этого семейства явно «отталкивают» представления разных изображений (негативные примеры) в метрическом пространстве, одновременно «притягивая» аугментации одного изображения.

  • MoCo (Momentum Contrast): Решает проблему вычислительной сложности экстремально больших мини-батчей путем введения динамического словаря негативных примеров (очереди) и «импульсного кодировщика» (англ. momentum encoder)[1]. Веса импульсного кодировщика \theta_k обновляются не градиентным спуском, а как экспоненциальное скользящее среднее (EMA) весов основного обучаемого кодировщика \theta_q:
\theta_k \leftarrow m \theta_k + (1 - m) \theta_q
где m \in [0, 1) — коэффициент импульса (обычно 0.999), что обеспечивает стабильность репрезентаций негативных признаков в словаре на протяжении эпох.
  • SimCLR: Доказал, что контрастивное обучение эффективно работает без банка памяти, если использовать большие мини-батчи (до 8192 изображений) и агрессивные композиции аугментаций (особенно критичным оказалось сочетание случайного кадрирования и искажения цвета)[1].
Рис. 3. Архитектурное сравнение систем совместного встраивания: контрастивный подход SimCLR (явное отталкивание от негативного пула батча с лоссом InfoNCE) и неконтрастивный подход BYOL (использование асимметричного предиктора, блокировки градиента stop-gradient и EMA-обновления весов target-сети для защиты от коллапса).
Рис. 3. Архитектурное сравнение систем совместного встраивания: контрастивный подход SimCLR (явное отталкивание от негативного пула батча с лоссом InfoNCE) и неконтрастивный подход BYOL (использование асимметричного предиктора, блокировки градиента stop-gradient и EMA-обновления весов target-сети для защиты от коллапса).

Неконтрастивные методы (Negative-Free Methods)

Зависимость от сложных словарей негативных примеров привела к созданию методов, работающих исключительно с позитивными парами. Их главная фундаментальная проблема — риск коллапса представлений (англ. representation collapse), когда кодировщик вырождается в тривиальное решение, выдавая константный вектор для любых входов.

  • BYOL (Bootstrap Your Own Latent): Предотвращает коллапс за счет архитектурной и градиентной асимметрии. Модель состоит из online-сети и target-сети (обновляемой через EMA)[1]. В online-сеть добавляется дополнительный модуль-предиктор, а на градиенты от target-сети ставится жесткая блокировка (stop-gradient). Online-сеть обучается предсказывать выход target-сети, что не позволяет градиентам сойтись к константе.
  • Barlow Twins: Решает проблему коллапса с позиций теории информации. Вместо измерения косинусного расстояния между эмбеддингами, метод вычисляет кросс-корреляционную матрицу \mathcal{C} признаков двух аугментаций и штрафует сеть за отличие этой матрицы от единичной \mathcal{I}:
\mathcal{L}_{\text{BT}} = \sum_i (1 - \mathcal{C}_{ii})^2 + \lambda \sum_i \sum_{j \neq i} \mathcal{C}_{ij}^2
Диагональные элементы (первое слагаемое) делают признаки инвариантными к аугментациям, а внедиагональные (второе слагаемое) минимизируют информационную избыточность, декоррелируя нейроны[1].

Маскированное моделирование: от BERT к Vision Transformers (ViT)

Появление архитектуры Трансформер привело к доминированию парадигмы маскированного моделирования (англ. Masked Modeling), которая стала стандартом в NLP и активно вытесняет контрастивные подходы в задачах компьютерного зрения.

Masked Language Modeling (MLM) в BERT

Классический BERT обучается путем случайного маскирования части токенов во входной последовательности (стандартно 15%)[1]. Модель предсказывает оригинальные токены (задача классификации словаря) на основе глубокого двунаправленного контекста. В отличие от авторегрессионных моделей (семейство GPT), предсказывающих следующее слово строго слева направо, MLM позволяет трансформеру учитывать полный контекст с обеих сторон. Оптимизируемая функция — кросс-энтропия между предсказанным распределением вероятностей и one-hot вектором истинного токена.

Перенос в зрение и проблема дискретизации: BEiT

Адаптация MLM для изображений долгое время оставалась сложной задачей из-за непрерывной природы пикселей (они не образуют дискретный семантический словарь, как слова) и высокой пространственной избыточности визуальных данных (пропущенный пиксель легко интерполируется из соседних).

  • BEiT (Bidirectional Encoder representation from Image Transformers): Решил проблему непрерывности путем предварительной токенизации изображения с помощью дискретного вариационного автокодировщика (dVAE)[1]. Изображение разбивается на патчи, каждый из которых кодируется в дискретный «визуальный токен». Трансформер обучается предсказывать токены замаскированных патчей строго по аналогии с NLP.

Асимметричные маскированные автокодировщики (MAE)

  • Masked Autoencoders (MAE): Упростил парадигму, отказавшись от визуальных токенов в пользу прямого предсказания сырых пикселей, и решил проблему избыточности. Ключевые архитектурные находки MAE[1]:
  1. Экстремально высокая доля маскирования: скрывается до 75–80% патчей изображения. Это заставляет модель не просто сглаживать соседние пиксели, а выучивать сложную геометрию объектов, глобальный контекст и семантику сцены.
  2. Строгая асимметрия архитектуры: тяжелый Трансформер-кодировщик обрабатывает только видимые (не замаскированные) патчи, что радикально (в 3–4 раза) снижает вычислительные затраты. Легкий декодер получает эмбеддинги видимых патчей и добавляет обучаемые токены масок (mask tokens), восстанавливая исходные значения пикселей с минимизацией среднеквадратичной ошибки (MSE):
\mathcal{L}_{\text{MAE}} = \frac{1}{|M|} \sum_{i \in M} \| y_i - \hat{y}_i \|^2
где M — множество индексов замаскированных патчей, y_i — значения пикселей оригинального патча, \hat{y}_i — предсказание декодера.
Рис. 4. Функциональный конвейер Masked Autoencoder (MAE): из входного изображения удаляется до 75-80% патчей, тяжелый ViT-кодировщик извлекает признаки только из видимой части, а легкий ViT-декодер реконструирует исходные пиксели на основе скрытых векторов и маска-токенов.
Рис. 4. Функциональный конвейер Masked Autoencoder (MAE): из входного изображения удаляется до 75-80% патчей, тяжелый ViT-кодировщик извлекает признаки только из видимой части, а легкий ViT-декодер реконструирует исходные пиксели на основе скрытых векторов и маска-токенов.

Динамика оптимизации и проблема коллапса размерности

Фундаментальной математической проблемой в методах совместного встраивания является коллапс представлений (англ. representation collapse). Теоретический анализ выделяет два различных режима этого явления:

Режимы вырождения представлений

  1. Полный коллапс (Complete Collapse): Кодировщик f_\theta находит тривиальное глобальное решение, отображая абсолютно все входные объекты в одну и ту же константную точку пространства \mathbf{c} \in \mathbb{R}^d. Эмпирический риск падает до нуля (разница между аугментациями исчезает), но признаки теряют любую дискриминативную силу.
  2. Коллапс размерности или коллапс ранга (Dimensional/Rank Collapse): Более скрытая форма вырождения. Векторы представлений не сливаются в одну точку, но располагаются в низкоразмерном подпространстве исходного пространства \mathbb{R}^d. Математически это означает, что матрица ковариации признаков становится вырожденной (ее ранг r \ll d). В результате информационная емкость вектора используется крайне неэффективно.

Механизмы стабилизации и предотвращения коллапса

В контрастивном обучении (SimCLR, MoCo) полный коллапс предотвращается явно: знаменатель в формуле InfoNCE с негативными примерами генерирует градиенты, расталкивающие точки в пространстве. В неконтрастивных алгоритмах используются иные архитектурные и математические механизмы:

  • Асимметрия и блокировка градиента (Stop-gradient): В методе SimSiam[1] показано, что введение несимметричного модуля-предиктора и блокировка градиентов в одной из ветвей сети работает как форма альтернирующей оптимизации (подобно EM-алгоритму). Модель поочередно оптимизирует представления и подстраивает проектор, что не позволяет градиентам мгновенно сойтись к константе.
  • Явная регуляризация ковариации (Explicit Regularization): Методы вроде VICReg[1] и Barlow Twins напрямую модифицируют функцию потерь, вводя штрафы на вырождение дисперсии (Variance) каждого отдельного признака (нейрона) и минимизируя ковариацию (Covariance) между различными признаками, принудительно поддерживая матрицу ковариации близкой к полноранговой.
  • Неявная регуляризация SGD и Batch Normalization: Стохастический градиентный спуск (SGD) в сочетании с нормализацией по мини-батчу работает как неявный декоррелятор. Центрирование данных по батчу не позволяет всем векторам сместиться в одну точку, а стохастический шум препятствует преждевременному схлопыванию подпространств.

SSL в задачах на графах (Graph Representation Learning)

Парадигма самостоятельного обучения критически важна для данных со сложной топологической структуру (молекулярные графы, социальные сети, сети цитирований), где разметка узлов или графов целиком требует дорогостоящей экспертизы. Задача заключается в получении плотных эмбеддингов с использованием графовых нейронных сетей (GNN).

Аугментации на топологии графа

В отличие от непрерывных изображений, графы требуют дискретных возмущений структуры. Типичные преобразования включают:

  • Удаление ребер (Edge dropping): Случайное обнуление элементов матрицы смежности A.
  • Маскирование признаков узлов (Node feature masking): Сокрытие или добавление шума в матрицу признаков узлов X.
  • Выделение подграфов (Subgraph sampling): Извлечение локального контекста узла с помощью случайных блужданий (Random Walks).
Рис. 5. Дискретные стохастические преобразования неевклидовых данных в графовом SSL: случайное удаление ребер из топологической матрицы смежности, маскирование признаковых матриц узлов и локальное сэмплирование подграфов методами случайных блужданий.
Рис. 5. Дискретные стохастические преобразования неевклидовых данных в графовом SSL: случайное удаление ребер из топологической матрицы смежности, маскирование признаковых матриц узлов и локальное сэмплирование подграфов методами случайных блужданий.

Эволюция графовых SSL-моделей

  • Контрастивные методы (DGI, GraphCL): Исторически первым подходом стал алгоритм Deep Graph Infomax (DGI)[1]. Он обучает дискриминатор максимизировать взаимную информацию между локальным представлением узла h_i и глобальным вектором всего графа \mathbf{s}, отличая истинные пары от искаженных (полученных из графа с перемешанными узлами). Более поздний GraphCL перенес логику SimCLR на графы, применяя различные графовые аугментации и оптимизируя InfoNCE.
  • Неконтрастивные графовые методы (BGRL): Метод Bootstrapped Graph Representation Learning[1] адаптировал парадигму BYOL для графов. Поскольку генерация и обработка негативных графов-примеров вычислительно избыточна, BGRL использует две GNN (онлайн и целевую, обновляемую через экспоненциальное скользящее среднее) и обучается только на позитивных парах, что делает его крайне масштабируемым.
  • Графовое маскированное моделирование (GraphMAE): GraphMAE[1] маскирует признаки узлов и использует GNN-декодер для их восстановления. Для предотвращения тривиального копирования соседей метод использует функцию потерь, основанную на косинусном расстоянии (Scaled Cosine Error), а не стандартную MSE.

Методология применения и downstream-валидация

Самостоятельное обучение не является самоцелью. Архитектуры SSL (кодировщики) выступают в роли универсальных экстракторов признаков. Downstream-валидация (валидация на целевых/прикладных задачах) — это стандартизированный процесс оценки того, насколько хорошо полученные в ходе предобучения признаки (эмбеддинги) могут быть перенесены на реальные практические задачи (англ. downstream tasks), такие как классификация медицинских снимков, сегментация объектов или анализ тональности текста, особенно в условиях дефицита размеченных данных.

Для объективного измерения качества выученных представлений используются следующие стандартные протоколы:

Протоколы оценки качества представлений

  1. Линейное зондирование (Linear Probing): Является «золотым стандартом» оценки чистой семантической информативности эмбеддингов. После завершения предобучения веса кодировщика f_\theta полностью «замораживаются» (градиенты через них не пропускаются). Поверх полученных признаков \mathbf{z} = f_\theta(x) обучается простая линейная модель (обычно Логистическая регрессия). Если такой примитивный классификатор показывает высокое качество, это доказывает, что SSL-кодировщик успешно «распутал» (disentangled) сложные нелинейные зависимости в сырых данных и перевел их в линейно разделимое геометрическое пространство.
  2. Метод k-ближайших соседей (k-NN Evaluation): Еще более строгая метрика, популяризованная моделью DINO[1]. Оценка целевой задачи производится алгоритмом k-NN по косинусному расстоянию между эмбеддингами замороженной модели вообще без какого-либо дополнительного обучения. Эта метрика прямо оценивает структуру метрического пространства: объекты одного семантического класса должны кластеризоваться близко друг к другу.
  3. Тонкая настройка (End-to-End Fine-tuning): В то время как Linear Probing оценивает теорию, тонкая настройка применяется для достижения максимального качества (State-of-the-Art) на практике. Веса предобученной модели используются как идеальная точка инициализации, после чего вся сеть (включая кодировщик) дообучается на размеченной выборке целевой задачи с использованием небольшого шага обучения (learning rate).
  4. Оценка в условиях Few-Shot / Semi-Supervised Learning: Главная ценность SSL раскрывается в условиях экстремального дефицита разметки. Валидация проводится на искусственно ограниченных наборах данных, где доступно лишь 1\% или 10\% размеченной целевой выборки. Предобученные модели, обладающие сильными априорными знаниями о структуре данных, в таких сценариях драматически превосходят архитектуры, обучаемые с нуля (from scratch).

См. также

  • Обучение без учителя — классическая парадигма машинного обучения, нацеленная на поиск скрытых структурных закономерностей, кластеризацию и снижение размерности данных без использования суррогатных целевых функций.
  • Контрастивное обучение — доминирующий подкласс методов самостоятельного обучения, основанный на максимизации взаимного сходства позитивных пар (аугментаций) объектов и одновременном отталкивании негативных примеров в метрическом пространстве.
  • Тонкая настройка — метод переноса знаний (transfer learning), заключающийся в дообучении всех весов предобученной базовой модели под конкретную прикладную (downstream) задачу на ограниченной размеченной выборке.
  • Взаимная информация — фундаментальная теоретико-информационная метрика, максимизация вариационных нижних оценок которой (таких как InfoNCE) составляет математическую основу большинства SSL-архитектур совместного встраивания.
  • Архитектура Трансформер — глубокая нейросетевая архитектура, основанная на механизме сквозного внутреннего внимания (self-attention), ставшая технологическим базисом для парадигмы маскированного моделирования.
  • Vision Transformer (ViT) — адаптация классической архитектуры трансформера для задач компьютерного зрения, обрабатывающая двумерное изображение как последовательность дискретных пространственных патчей.
  • Графовые нейронные сети (GNN) — класс нейросетевых архитектур для обработки данных с неевклидовой топологической структурой, активно использующий контрастивные и генеративные подходы SSL для получения устойчивых эмбеддингов узлов и графов.

Примечания

Литература

  • Gui J., Chen T., Zhang J., Cao Q., Sun Z., Luo H., Tao D. A Survey on Self-Supervised Learning: Algorithms, Applications, and Future Trends // IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI). — 2024. — Т. 46. — № 1. — С. 422–444.
  • Liu X., Zhang F., Hou Z., Mian L., Wang Z., Zhang J., Tang J. Self-Supervised Learning: Generative or Contrastive // IEEE Transactions on Knowledge and Data Engineering (TKDE). — 2021. — Т. 35. — № 1. — С. 857–876.
  • Jing L., Tian Y. Self-Supervised Visual Feature Learning with Deep Neural Networks: A Survey // IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI). — 2021. — Т. 43. — № 11. — С. 4037–4058.
  • Liu Y., Jin M., Pan S., Zhou C., Zheng Y., Xia F., Yu P. S. Graph Self-Supervised Learning: A Survey // IEEE Transactions on Knowledge and Data Engineering (TKDE). — 2023. — Т. 35. — № 6. — С. 5879–5900.
Личные инструменты