Neural Collaborative Filtering
Материал из MachineLearning.
| | Статья написана с использованием LLM Claude Opus 4.8 и проверена участником Nikita Saveliuk 01:39, 5 июля 2026 (MSD) |
|
Neural Collaborative Filtering (NCF, нейросетевая коллаборативная фильтрация) — подход к коллаборативной фильтрации, в котором взаимодействие пользователя и объекта моделируется нейронной сетью над их векторными представлениями, а не фиксированным скалярным произведением, как в матричной факторизации. Подход предложен Сяннанем Хэ и соавторами в 2017 году и обобщает матричную факторизацию: вместо предопределённой билинейной формы сеть обучает произвольную функцию, отображающую пару эмбеддингов в оценку предпочтения.
Идея опирается на два наблюдения. Во-первых, скалярное произведение факторов — это лишь один, линейный способ объединить представления пользователя и объекта, и он может не улавливать сложные нелинейные зависимости. Во-вторых, к 2017 году глубокие сети уже доминировали в зрении и обработке языка, но в рекомендательных системах применялись мало. NCF заполняет этот пробел, заменяя скалярное произведение обучаемой нейросетевой «функцией взаимодействия». Флагманская модель семейства — NeuMF — объединяет линейную (обобщённая факторизация) и нелинейную (многослойный перцептрон) ветви.
Важно, что последующая переоценка (Rendle et al., 2020) существенно скорректировала выводы исходной работы: при аккуратном подборе гиперпараметров простое скалярное произведение оказывается не хуже, а часто лучше нейросетевой похожести. Поэтому NCF стоит понимать не как безусловно превосходящий факторизацию метод, а как обобщающую рамку, чья практическая польза зависит от задачи и настройки. Ниже разобраны и конструкция NCF, и эта важная оговорка.
Историческая справка
К середине 2010-х матричная факторизация была доминирующим методом коллаборативной фильтрации: пользователи и объекты проецировались в общее пространство скрытых факторов, а предпочтение оценивалось скалярным произведением их векторов (Koren et al., 2009). Одновременно глубокое обучение добилось прорывов в других областях, что породило интерес к применению нейросетей в рекомендациях.
Работа Хэ и соавторов на конференции WWW 2017 предложила общую нейросетевую рамку для коллаборативной фильтрации по неявной обратной связи и три её воплощения: обобщённую матричную факторизацию (GMF), многослойный перцептрон (MLP) и их объединение — Neural Matrix Factorization (NeuMF). Авторы сообщили, что нейросетевые модели превосходят факторизацию, и работа стала одной из самых цитируемых в области, запустив волну «нейросетевых» рекомендательных архитектур.
В 2020 году Рендле и соавторы (Google) воспроизвели эксперименты NCF и пришли к противоположному выводу: тщательно настроенная матричная факторизация со скалярным произведением превосходит обученную нейросетевую похожесть на тех же данных. Эта работа стала важным уроком о роли честного подбора гиперпараметров и о том, что усложнение модели не гарантирует выигрыша.
Постановка задачи
Рассматривается неявная обратная связь: взаимодействия пользователей с объектами заданы бинарной матрицей , где
, если зафиксировано взаимодействие пользователя
с объектом
(просмотр, клик, покупка), и
иначе. Существенно, что нуль означает не отрицательную оценку, а лишь отсутствие наблюдения.
NCF трактует задачу как бинарную классификацию: предсказывается вероятность взаимодействия , по которой объекты ранжируются для формирования top-N рекомендаций. Каждому пользователю и объекту сопоставляется обучаемый вектор (эмбеддинг): единичный вектор идентификатора (one-hot) проецируется в плотное представление
для пользователя и
для объекта. Задача обучения — подобрать эмбеддинги и параметры функции взаимодействия так, чтобы
отражала наблюдённые взаимодействия и обобщалась на ненаблюдённые пары.
Метод
Общая схема NCF
Единая рамка NCF состоит из трёх частей. Слой эмбеддингов превращает разреженные one-hot-векторы пользователя и объекта в плотные представления и
. Слои нейросетевой коллаборативной фильтрации отображают пару
в скалярную оценку через обучаемую функцию взаимодействия. Выходной слой с сигмоидой приводит оценку к вероятности
. Конкретный выбор функции взаимодействия и определяет три модели ниже.
Обобщённая матричная факторизация (GMF)
GMF заменяет скалярное произведение поэлементным произведением эмбеддингов с последующим обучаемым взвешиванием:
,
где — поэлементное произведение векторов,
— вектор весов выходного слоя,
— активация. Смысл конструкции виден из частного случая: если положить
тождественной, а
— вектором из единиц, то
, и GMF в точности воспроизводит матричную факторизацию. Тем самым GMF — строгое обобщение MF: обучаемые
и нелинейная
позволяют по-разному взвешивать измерения скрытого пространства.
Многослойный перцептрон (MLP)
Ветвь MLP объединяет эмбеддинги конкатенацией и пропускает через стек полносвязных слоёв с нелинейностями, обучая функцию взаимодействия «с нуля». Обозначив конкатенацию как , слои задаются рекуррентно:
,
,
где и
— веса и смещения
-го слоя,
— активация (обычно ReLU),
— сигмоида. В отличие от GMF, где взаимодействие остаётся мультипликативно-линейным, MLP способен приближать нелинейные зависимости между представлениями — ценой большего числа параметров и более трудного обучения.
Neural Matrix Factorization (NeuMF)
NeuMF объединяет обе ветви, чтобы совместить линейное моделирование GMF и нелинейное MLP. Ключевая деталь: ветви используют раздельные эмбеддинги, что позволяет каждой обучить оптимальное для себя представление. Обозначив выход GMF-ветви как , а выход последнего слоя MLP-ветви как
, финальное предсказание получают конкатенацией и выходным слоем:
,
где — конкатенация векторов. Поскольку целевая функция невыпукла, качество NeuMF заметно повышает инициализация предобученными по отдельности GMF и MLP.
Функция потерь и негативное сэмплирование
Так как задача сформулирована как бинарная классификация, NCF обучается минимизацией логистической функции потерь (бинарной кросс-энтропии):
,
где — множество наблюдённых (положительных) взаимодействий, а
— множество отрицательных примеров, которые сэмплируются из ненаблюдённых пар (обычно несколько отрицательных на каждый положительный). Негативное сэмплирование необходимо, поскольку явных отрицательных примеров при неявной обратной связи нет, а использовать все ненаблюдённые пары вычислительно неподъёмно. Такой пойнтвайз-подход с логистической потерей отличает NCF от факторизации, обучаемой на квадратичной ошибке рейтингов.
Связь с матричной факторизацией и переоценка метода
MF как частный случай. Как показано выше, матричная факторизация — частный случай GMF (тождественная активация и единичный вектор весов). В этом смысле NCF не отвергает факторизацию, а расширяет пространство функций взаимодействия, добавляя обучаемые веса и нелинейности.
Переоценка (Rendle et al., 2020). Исходная работа NCF утверждала, что нейросетевая похожесть превосходит скалярное произведение. Рендле и соавторы воспроизвели эксперименты на тех же данных и показали обратное: при честном подборе гиперпараметров простое скалярное произведение (то есть корректно настроенная MF) существенно превосходит обученные MLP-похожести по всем метрикам и размерностям, и лишь предобученный NeuMF оказывается сравнимым. Более того, хотя MLP по теореме об универсальной аппроксимации способен приблизить любую функцию, на практике ему трудно выучить даже само скалярное произведение из данных, а стоимость его применения выше. Практический вывод авторов: скалярное произведение стоит рассматривать как сильную настройку по умолчанию, а MLP как «комбинатор» эмбеддингов применять с осторожностью. Это один из ключевых уроков современной коллаборативной фильтрации: усложнение архитектуры не заменяет аккуратной настройки и честного сравнения с сильными базовыми методами.
Свойства
Преимущества
- Единая рамка обобщает матричную факторизацию и допускает нелинейные функции взаимодействия.
- Пойнтвайз-формулировка с логистической потерей и негативным сэмплированием естественна для неявной обратной связи и top-N.
- Раздельные эмбеддинги ветвей NeuMF и предобучение повышают выразительность и качество.
- Эмбеддинги совместимы с другими нейросетевыми компонентами (признаки, контекст, последовательности).
Ограничения
- При честной настройке нейросетевая похожесть часто не превосходит хорошо настроенное скалярное произведение (Rendle et al., 2020).
- Больше параметров и гиперпараметров, дороже обучение и предсказание.
- Невыпуклая оптимизация чувствительна к инициализации; NeuMF практически требует предобучения ветвей.
- Проблема холодного старта сохраняется: для новых пользователей и объектов эмбеддинги не обучены.
Применение
NCF и его наследники применяются в рекомендациях по неявной обратной связи — товаров, контента, музыки, видео — там, где важен ранжированный список объектов. Модель служит основой для расширений, вводящих контекст, признаки и последовательности взаимодействий, и как компонент более крупных нейросетевых рекомендательных систем. При этом, с учётом переоценки метода, хорошо настроенная матричная факторизация остаётся обязательным сильным базовым методом для сравнения.
См. также
- Коллаборативная фильтрация
- SVD в рекомендательных системах
- Рекомендательные системы
- Нейросетевое встраивание
- Многослойный персептрон
Ссылки
- He et al. Neural Collaborative Filtering (WWW 2017)
- Rendle et al. Neural Collaborative Filtering vs. Matrix Factorization Revisited (RecSys 2020)
- Референсная реализация NCF
Литература
- He X., Liao L., Zhang H., Nie L., Hu X., Chua T.-S. Neural Collaborative Filtering // Proceedings of the 26th International Conference on World Wide Web (WWW). — 2017. — С. 173–182.
- Rendle S., Krichene W., Zhang L., Anderson J. Neural Collaborative Filtering vs. Matrix Factorization Revisited // Proceedings of the 14th ACM Conference on Recommender Systems (RecSys). — 2020. — С. 240–248.
- Koren Y., Bell R., Volinsky C. Matrix Factorization Techniques for Recommender Systems // Computer (IEEE). — 2009. — Т. 42. — № 8. — С. 30–37.

