Публикация:SCAN: Learning to Classify Images Without Labels
Материал из MachineLearning.
| | Статья написана с использованием LLM Gemini 3.1 Pro и проверена участником Renal Gazizullin 18:10, 25 июня 2026 (MSD) |
| | Статья будет дополнена изображениями, после возобновления качественной работы сайта |
Van Gansbeke W., Vandenhende S., Georgoulis S., Proesmans M., Van Gool L. SCAN: Learning to Classify Images without Labels // ECCV. — 2020.
@inproceedings{vangansbeke2020scan,
title={Scan: Learning to classify images without labels},
author={Van Gansbeke, Wouter and Vandenhende, Simon and Georgoulis, Stamatios and Proesmans, Marc and Van Gool, Luc},
booktitle={European Conference on Computer Vision},
pages={268--285},
year={2020},
organization={Springer}
}
Содержание |
Аннотация
Статья описывает алгоритм SCAN (Semantic Clustering by Adopting Nearest neighbors), предлагающий двухэтапный подход к задаче необучаемой классификации изображений. Метод изолирует процесс извлечения признаков от этапа кластеризации, что позволяет избежать группировки данных на основе низкоуровневых визуальных эвристик (цвет, текстура) в пользу семантически значимых признаков.
Введение и мотивация
Классические подходы к сквозному (end-to-end) обучению кластеризации часто сталкиваются с проблемой вырождения признаков, когда сверточные нейронные сети группируют объекты на основе низкоуровневых признаков (таких как цветовые гистограммы, текстуры или общие фоны), а не их реального семантического содержания. Кроме того, одновременная оптимизация репрезентаций и распределения по кластерам порождает нестабильность обучения и склонность к тривиальным решениям. Авторы SCAN констатируют, что разделение этих двух процессов позволяет использовать сильные стороны современных методов контрастивного самообучения (self-supervised learning) для формирования робастных семантических пространств, в которых геометрическая близость векторов соответствует категориальной близости объектов.
Архитектура и метод SCAN
Алгоритм SCAN реализует последовательный трехстадийный конвейер:
- Предварительное обучение эмбеддингов признаков посредством решения вспомогательной контрастивной задачи (pretext task).
- Семантическая кластеризация путем максимизации согласия предсказаний для близких соседей в признаковом пространстве.
- Саморазметка (self-labeling) модели на основе высокоуверенных предсказаний для уточнения решающих границ кластеров.
Pretext Task (Обучение признаков)
На первом этапе исходные изображения пропускаются через кодировщик признаков (архитектура ResNet-50), обучаемый без разметки с помощью алгоритмов контрастивного самообучения, таких как SimCLR[1] или MoCo[1]. Целевая функция нацелена на максимизацию сходства между различными случайными аугментациями одного и того же изображения (позитивные пары) и минимизацию сходства с другими изображениями батча (негативные пары). В результате формируется репрезентативное пространство, инвариантное к пространственным и цветовым искажениям, где взаимное расположение векторов определяется высокоуровневой семантикой.
SCAN (Semantic Clustering by Adopting Nearest neighbors)
Для каждого изображения из обучающей выборки
фиксируется его вектор признаков. На основе косинусного расстояния в признаковом пространстве для каждого объекта вычисляется множество из
его ближайших соседей, обозначаемое как
.
Поверх замороженного кодировщика инициализируется классификационная голова, параметризованная весами . Данная подсеть преобразует изображение
в дискретное распределение вероятностей по кластерам:
, где
— заданное число целевых классов. Идея SCAN заключается в том, что изображение и его ближайшие соседи должны иметь схожие вероятностные распределения по кластерам. Функция потерь кластеризации формулируется как максимизация скалярного произведения векторов предсказаний для пар близких объектов:
Для предотвращения вырожденного решения, при котором модель присваивает все объекты выборки одному и тому же кластеру, вводится регуляризационный член, максимизирующий энтропию усредненного по мини-батчу распределения предсказаний:
Где определяется как средняя вероятность отнесения объектов текущего мини-батча
к кластеру
:
Итоговый функционал потерь на этапе кластеризации представляет собой линейную комбинацию:
где — гиперпараметр, регулирующий вклад энтропийного штрафа (в оригинальной работе
).
Self-Labeling (Саморазметка)
Этап семантической кластеризации позволяет сгруппировать основную массу данных, однако на границах кластеров могут оставаться неоднозначности, вызванные локальным шумом в графе ближайших соседей. Для очистки границ применяется шаг саморазметки.
Объекты, для которых уверенность предсказания превосходит жестко заданный порог , размечаются псевдометками (one-hot векторы
). Далее вся сеть дообучается на подмножестве уверенных примеров с использованием стандартной функции кросс-энтропии:
Эксперименты и результаты
Эффективность алгоритма SCAN была подтверждена экспериментами на стандартных наборах данных для компьютерного зрения: CIFAR-10, CIFAR-100 (с использованием 20 суперклассов) и STL-10. Качество кластеризации измерялось с помощью метрик Accuracy (ACC), Normalized Mutual Information (NMI) и Adjusted Rand Index (ARI).
На датасете CIFAR-10 метод SCAN достиг точности (ACC) 88.3%, на STL-10 — 76.7% (80.9% с последующей саморазметкой), превзойдя существовавшие на тот момент end-to-end подходы, такие как IIC[1] (показавший 61.7% на CIFAR-10).
Примечания
Литература
- Van Gansbeke W., Vandenhende S., Georgoulis S., Proesmans M., Van Gool L. SCAN: Learning to Classify Images without Labels // ECCV. — 2020. — С. 268-285.
- Chen T. et al. A simple framework for contrastive learning of visual representations // ICML. — 2020. — С. 1597-1607.
- He K. et al. Momentum contrast for unsupervised visual representation learning // CVPR. — 2020. — С. 9729-9738.
- Ji X., Vedaldi A., Henriques J. Invariant Information Clustering for Unsupervised Image Classification and Segmentation // ICCV. — 2019. — С. 9865-9874.

