SLIM

Материал из MachineLearning.

Версия от 21:32, 4 июля 2026; Nikita Saveliuk (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Статья написана с использованием LLM Claude Opus 4.8 и проверена участником Nikita Saveliuk 01:32, 5 июля 2026 (MSD)

Содержание

1 Историческая справка
2 Постановка задачи
3 Метод
4 Связь с другими методами
5 Свойства
- 5.1 Преимущества
- 5.2 Ограничения
6 Применение
7 См. также
8 Ссылки
9 Литература

SLIM (от англ. Sparse Linear Methods) — метод коллаборативной фильтрации для задачи top-N рекомендаций, в котором оценка предпочтения вычисляется как линейная агрегация прошлых взаимодействий пользователя с обучаемой разреженной матрицей коэффициентов «объект–объект». Метод предложен Ся Нин и Джорджем Карипишем в 2011 году и занимает промежуточное положение между соседскими (item-based) методами и обучаемыми моделями: подобно item-kNN он опирается на связи между объектами, но веса этих связей не задаются готовой мерой сходства, а обучаются оптимизацией с $L_1$ - и $L_2$ -регуляризацией.

В отличие от матричной факторизации (SVD), которая описывает пользователей и объекты плотными векторами скрытых факторов малого ранга, SLIM восстанавливает матрицу взаимодействий разреженной матрицей связей между объектами. Это разные структурные предпосылки: факторизация ищет низкоранговое приближение, SLIM — разреженную, но по существу полноранговую модель. Именно разреженность делает метод одновременно точным на top-N и экономным по памяти и времени предсказания.

SLIM выделяется тем, что при концептуальной простоте (одна линейная модель) устойчиво превосходит как соседские методы, так и ряд более сложных моделей на задачах top-N по неявной обратной связи. Метод породил целое семейство линейных моделей-автокодировщиков (EASE и последующие) и в 2020 году получил премию ICDM за наибольшее влияние за десять лет.

Историческая справка

Соседские методы коллаборативной фильтрации, в частности item-based подход (Sarwar et al., 2001), к началу 2010-х были широко распространены благодаря простоте и интерпретируемости: рекомендации строились по заранее вычисленным мерам сходства объектов (косинус, корреляция Пирсона). Их слабость — сходства фиксированы и не оптимизируются под целевую задачу.

Параллельно в статистике развивались методы разреженного обучения — LASSO (Tibshirani, 1996) и эластичная сеть (Zou, Hastie, 2005), сочетающая $L_1$ - и $L_2$ -штрафы. SLIM, представленный Нин и Карипишем на конференции ICDM 2011, объединил обе линии: матрицу «объект–объект» стали не вычислять по формуле сходства, а обучать как решение регуляризованной задачи наименьших квадратов с разреживающим $L_1$ -штрафом. Работа получила премию ICDM «за наибольшее влияние за 10 лет» (2020) и стала отправной точкой для линейных моделей EASE (Steck, 2019) и их расширений, которые нередко соперничают с глубокими рекомендательными сетями.

Постановка задачи

Пусть имеется $m$ пользователей и $n$ объектов. Взаимодействия задаются матрицей $A \in \mathbb{R}^{m \times n}$ , строка $a_u$ которой описывает историю пользователя $u$ : элемент $a_{ui}$ равен единице (или значению неявной обратной связи), если пользователь взаимодействовал с объектом $i$ , и нулю иначе. Матрица $A$ сильно разрежена.

Задача top-N рекомендаций — для каждого пользователя оценить привлекательность объектов, с которыми он ещё не взаимодействовал, и выдать $N$ объектов с наибольшими оценками. Это отличается от предсказания рейтинга (где приближается конкретная оценка): здесь важен порядок объектов, а не абсолютное значение. SLIM решает эту задачу, обучая модель восстанавливать наблюдённые взаимодействия и обобщать их на ненаблюдённые.

Метод

Модель: линейная агрегация с матрицей W

SLIM предсказывает оценку как взвешенную сумму прошлых взаимодействий пользователя. Оценка пользователя $u$ объекту $i$ равна:

$\tilde{r}_{ui} = a_u^{\top} w_i$ ,

где $a_u$ — вектор истории пользователя (строка $A$ ), а $w_i$ — $i$ -й столбец обучаемой матрицы коэффициентов $W \in \mathbb{R}^{n \times n}$ . Элемент $w_{ji}$ задаёт вклад объекта $j$ в оценку объекта $i$ — обучаемый аналог сходства объектов. В матричной форме все предсказания записываются компактно:

$\tilde{A} = A W$ ,

Модель линейна и полностью определяется матрицей $W$ . В отличие от item-kNN, где веса — фиксированные меры сходства, здесь они настраиваются так, чтобы $A W$ наилучшим образом воспроизводила $A$ .

Оптимизационная задача

Матрица $W$ ищется минимизацией ошибки восстановления с эластично-сетевой регуляризацией и двумя структурными ограничениями:

$\min_{W}\ \frac{1}{2}\, \| A - A W \|_{F}^{2} + \frac{\beta}{2}\, \| W \|_{F}^{2} + \lambda\, \| W \|_{1}$ ,

при ограничениях $W \ge 0$ и $\mathrm{diag}(W) = 0$ .

Здесь $\| \cdot \|_F$ — норма Фробениуса, $\| W \|_{1}$ — сумма модулей всех элементов, $\beta$ и $\lambda$ — коэффициенты $L_2$ - и $L_1$ -штрафов. Слагаемое ошибки требует, чтобы линейная модель воспроизводила наблюдённые взаимодействия; сочетание $L_2$ - и $L_1$ -штрафов — это эластичная сеть: $L_1$ обнуляет большинство коэффициентов (разреженность), $L_2$ сглаживает оставшиеся и стабилизирует решение при коллинеарных столбцах.

Роль ограничений: нулевая диагональ и неотрицательность

Ограничение $\mathrm{diag}(W) = 0$ принципиально. Без него оптимум тривиален: положив $W = I$ , получаем $A W = A$ и нулевую ошибку восстановления, но такая модель предсказывает объект по нему самому и не даёт никаких рекомендаций. Обнуление диагонали запрещает объекту участвовать в собственной оценке и заставляет модель выражать каждый объект через другие объекты — что и порождает способность к обобщению.

Ограничение неотрицательности $W \ge 0$ отражает содержательное допущение: связи между объектами положительны (совместное потребление свидетельствует о похожести, а не об отталкивании). Оно повышает интерпретируемость и, как правило, качество, хотя в некоторых расширениях снимается.

Поколоночная декомпозиция и обучение

Ключевое для масштабируемости свойство: целевая функция и ограничения разделяются по столбцам $W$ . Поскольку $\| A - A W \|_F^{2} = \sum_{j=1}^{n} \| a_j - A w_j \|_{2}^{2}$ , где $a_j$ — $j$ -й столбец $A$ , задача распадается на $n$ независимых подзадач эластичной сети — по одной на каждый объект:

$\min_{w_j}\ \frac{1}{2}\, \| a_j - A w_j \|_{2}^{2} + \frac{\beta}{2}\, \| w_j \|_{2}^{2} + \lambda\, \| w_j \|_{1}$ ,

при ограничениях $w_j \ge 0$ и $w_{jj} = 0$ .

Каждая подзадача — регрессия столбца $a_j$ на остальные столбцы $A$ с эластично-сетевым штрафом; она решается координатным спуском. Независимость подзадач делает обучение тривиально распараллеливаемым по объектам, а $L_1$ -разреженность оставляет в каждом столбце лишь немного ненулевых коэффициентов, что резко ускоряет и обучение, и предсказание.

Связь с другими методами

SLIM и матричная факторизация. Оба метода приближают $A$ , но из противоположных структурных предпосылок. Факторизация (SVD) представляет $A \approx P Q^{\top}$ плотными факторами малого ранга — сжимает информацию в низкоразмерное пространство. SLIM представляет $\tilde{A} = A W$ разреженной матрицей $W$ , ранг которой не ограничен: модель не проецирует в латентное пространство, а напрямую выучивает разреженные связи между объектами. Отсюда практическое различие: факторные модели лучше улавливают глобальную латентную структуру, SLIM — локальные попарные связи объектов, часто выигрывая именно на top-N по неявной обратной связи.

SLIM и item-kNN. SLIM можно рассматривать как item-kNN, в котором матрица сходства не задана заранее, а обучена под целевую задачу; нулевая диагональ соответствует исключению самого объекта из соседей, разреженность — ограничению числа соседей.

Связь с EASE. Если убрать $L_1$ -штраф и неотрицательность, оставив только $L_2$ и нулевую диагональ, задача становится квадратичной и допускает замкнутое решение через обращение регуляризованной матрицы Грама $A^{\top} A + \beta I$ . Это модель EASE (Steck, 2019) — плотный, но аналитически вычислимый предел SLIM, показывающий, что именно $L_1$ -штраф отвечает за разреженность, а не за саму идею линейной item-item модели.

Свойства

Преимущества

Высокое качество top-N рекомендаций, нередко превосходящее соседские и ряд факторных и глубоких моделей.
Разреженность $W$ обеспечивает быстрое предсказание и компактное хранение модели.
Обучение распадается на независимые задачи по столбцам и легко распараллеливается.
Обучаемые веса связей интерпретируемее готовых мер сходства и настроены под целевую задачу.

Ограничения

Размер $W$ квадратичен по числу объектов, что затрудняет обучение при очень больших каталогах.
Проблема холодного старта: для новых объектов без взаимодействий столбец $W$ не обучается.
Модель линейна и не улавливает сложные нелинейные взаимодействия признаков.
Требуется подбор двух коэффициентов регуляризации, влияющих на разреженность и качество.

Применение

SLIM применяется в top-N рекомендациях по неявной обратной связи — рекомендации товаров, контента, музыки, где важен ранжированный список, а не предсказание конкретной оценки. Благодаря разреженности и быстрому предсказанию он удобен как сильный базовый метод и как компонент ансамблей. Его линейные наследники (EASE и последующие) используются как современные производительные бейзлайны в исследованиях рекомендательных систем.

См. также

Ссылки

Литература

Ning X., Karypis G. SLIM: Sparse Linear Methods for Top-N Recommender Systems // Proceedings of the 11th IEEE International Conference on Data Mining (ICDM). — 2011. — С. 497–506.

Sarwar B., Karypis G., Konstan J., Riedl J. Item-Based Collaborative Filtering Recommendation Algorithms // Proceedings of the 10th International Conference on World Wide Web (WWW). — 2001. — С. 285–295.

Zou H., Hastie T. Regularization and Variable Selection via the Elastic Net // Journal of the Royal Statistical Society: Series B. — 2005. — Т. 67. — № 2. — С. 301–320.

Steck H. Embarrassingly Shallow Autoencoders for Sparse Data // Proceedings of the World Wide Web Conference (WWW). — 2019. — С. 3251–3257.

Источник — «http://machinelearning.ru/wiki/index.php?title=SLIM»