Публикация:SCAN: Learning to Classify Images Without Labels

Материал из MachineLearning.

Версия от 15:28, 25 июня 2026; Renal Gazizullin (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Статья написана с использованием LLM Gemini 3.1 Pro и проверена участником Renal Gazizullin 18:10, 25 июня 2026 (MSD)

Статья будет дополнена изображениями, после возобновления качественной работы сайта

Van Gansbeke W., Vandenhende S., Georgoulis S., Proesmans M., Van Gool L. SCAN: Learning to Classify Images without Labels // ECCV. — 2020.

@inproceedings{vangansbeke2020scan,
  title={Scan: Learning to classify images without labels},
  author={Van Gansbeke, Wouter and Vandenhende, Simon and Georgoulis, Stamatios and Proesmans, Marc and Van Gool, Luc},
  booktitle={European Conference on Computer Vision},
  pages={268--285},
  year={2020},
  organization={Springer}
}

Аннотация

Статья описывает алгоритм SCAN (Semantic Clustering by Adopting Nearest neighbors), предлагающий двухэтапный подход к задаче необучаемой классификации изображений. Метод изолирует процесс извлечения признаков от этапа кластеризации, что позволяет избежать группировки данных на основе низкоуровневых визуальных эвристик (цвет, текстура) в пользу семантически значимых признаков.

Введение и мотивация

Классические подходы к сквозному (end-to-end) обучению кластеризации часто сталкиваются с проблемой вырождения признаков, когда сверточные нейронные сети группируют объекты на основе низкоуровневых признаков (таких как цветовые гистограммы, текстуры или общие фоны), а не их реального семантического содержания. Кроме того, одновременная оптимизация репрезентаций и распределения по кластерам порождает нестабильность обучения и склонность к тривиальным решениям. Авторы SCAN констатируют, что разделение этих двух процессов позволяет использовать сильные стороны современных методов контрастивного самообучения (self-supervised learning) для формирования робастных семантических пространств, в которых геометрическая близость векторов соответствует категориальной близости объектов.

Архитектура и метод SCAN

Алгоритм SCAN реализует последовательный трехстадийный конвейер:

Предварительное обучение эмбеддингов признаков посредством решения вспомогательной контрастивной задачи (pretext task).
Семантическая кластеризация путем максимизации согласия предсказаний для близких соседей в признаковом пространстве.
Саморазметка (self-labeling) модели на основе высокоуверенных предсказаний для уточнения решающих границ кластеров.

Pretext Task (Обучение признаков)

На первом этапе исходные изображения пропускаются через кодировщик признаков (архитектура ResNet-50), обучаемый без разметки с помощью алгоритмов контрастивного самообучения, таких как SimCLR^[1] или MoCo^[1]. Целевая функция нацелена на максимизацию сходства между различными случайными аугментациями одного и того же изображения (позитивные пары) и минимизацию сходства с другими изображениями батча (негативные пары). В результате формируется репрезентативное пространство, инвариантное к пространственным и цветовым искажениям, где взаимное расположение векторов определяется высокоуровневой семантикой.

SCAN (Semantic Clustering by Adopting Nearest neighbors)

Для каждого изображения $x_i$ из обучающей выборки $\mathcal{D}$ фиксируется его вектор признаков. На основе косинусного расстояния в признаковом пространстве для каждого объекта вычисляется множество из $K$ его ближайших соседей, обозначаемое как $\mathcal{N}_{x_i}$ .

Поверх замороженного кодировщика инициализируется классификационная голова, параметризованная весами $\theta$ . Данная подсеть преобразует изображение $x$ в дискретное распределение вероятностей по кластерам: $\Phi_{\theta}(x) \in [0, 1]^C$ , где $C$ — заданное число целевых классов. Идея SCAN заключается в том, что изображение и его ближайшие соседи должны иметь схожие вероятностные распределения по кластерам. Функция потерь кластеризации формулируется как максимизация скалярного произведения векторов предсказаний для пар близких объектов:

$\mathcal{L}_{SCAN} = - \frac{1}{|\mathcal{D}|} \sum_{x \in \mathcal{D}} \sum_{k \in \mathcal{N}_x} \log \langle \Phi_{\theta}(x), \Phi_{\theta}(k) \rangle$

Для предотвращения вырожденного решения, при котором модель присваивает все объекты выборки одному и тому же кластеру, вводится регуляризационный член, максимизирующий энтропию усредненного по мини-батчу распределения предсказаний:

$\mathcal{L}_{entropy} = \sum_{c=1}^C p_c \log p_c$

Где $p_c$ определяется как средняя вероятность отнесения объектов текущего мини-батча $\mathcal{B}$ к кластеру $c$ :

$p_c = \frac{1}{|\mathcal{B}|} \sum_{x \in \mathcal{B}} \Phi_{\theta}(x)_c$

Итоговый функционал потерь на этапе кластеризации представляет собой линейную комбинацию:

$\mathcal{L}_{total} = \mathcal{L}_{SCAN} + \lambda \mathcal{L}_{entropy}$

где $\lambda$ — гиперпараметр, регулирующий вклад энтропийного штрафа (в оригинальной работе $\lambda = 1$ ).

Self-Labeling (Саморазметка)

Этап семантической кластеризации позволяет сгруппировать основную массу данных, однако на границах кластеров могут оставаться неоднозначности, вызванные локальным шумом в графе ближайших соседей. Для очистки границ применяется шаг саморазметки.

Объекты, для которых уверенность предсказания превосходит жестко заданный порог $\tau$ , размечаются псевдометками (one-hot векторы $y_i$ ). Далее вся сеть дообучается на подмножестве уверенных примеров с использованием стандартной функции кросс-энтропии:

$\mathcal{L}_{self} = - \frac{1}{N} \sum_{i=1}^N \sum_{c=1}^C y_{ic} \log \Phi_{\theta}(x_i)_c$

Эксперименты и результаты

Эффективность алгоритма SCAN была подтверждена экспериментами на стандартных наборах данных для компьютерного зрения: CIFAR-10, CIFAR-100 (с использованием 20 суперклассов) и STL-10. Качество кластеризации измерялось с помощью метрик Accuracy (ACC), Normalized Mutual Information (NMI) и Adjusted Rand Index (ARI).

Изображение:SCAN results.jpg

На датасете CIFAR-10 метод SCAN достиг точности (ACC) 88.3%, на STL-10 — 76.7% (80.9% с последующей саморазметкой), превзойдя существовавшие на тот момент end-to-end подходы, такие как IIC^[1] (показавший 61.7% на CIFAR-10).

Примечания

Литература

Van Gansbeke W., Vandenhende S., Georgoulis S., Proesmans M., Van Gool L. SCAN: Learning to Classify Images without Labels // ECCV. — 2020. — С. 268-285.
Chen T. et al. A simple framework for contrastive learning of visual representations // ICML. — 2020. — С. 1597-1607.
He K. et al. Momentum contrast for unsupervised visual representation learning // CVPR. — 2020. — С. 9729-9738.
Ji X., Vedaldi A., Henriques J. Invariant Information Clustering for Unsupervised Image Classification and Segmentation // ICCV. — 2019. — С. 9865-9874.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9F%D1%83%D0%B1%D0%BB%D0%B8%D0%BA%D0%B0%D1%86%D0%B8%D1%8F:SCAN:_Learning_to_Classify_Images_Without_Labels»

Категории: Отчёты | Машинное обучение (публикации) | Компьютерное зрение