Neural Collaborative Filtering

Материал из MachineLearning.

Статья написана с использованием LLM Claude Opus 4.8 и проверена участником Nikita Saveliuk 01:39, 5 июля 2026 (MSD)

Содержание

1 Историческая справка
2 Постановка задачи
3 Метод
4 Связь с матричной факторизацией и переоценка метода
5 Свойства
- 5.1 Преимущества
- 5.2 Ограничения
6 Применение
7 См. также
8 Ссылки
9 Литература

Neural Collaborative Filtering (NCF, нейросетевая коллаборативная фильтрация) — подход к коллаборативной фильтрации, в котором взаимодействие пользователя и объекта моделируется нейронной сетью над их векторными представлениями, а не фиксированным скалярным произведением, как в матричной факторизации. Подход предложен Сяннанем Хэ и соавторами в 2017 году и обобщает матричную факторизацию: вместо предопределённой билинейной формы сеть обучает произвольную функцию, отображающую пару эмбеддингов в оценку предпочтения.

Идея опирается на два наблюдения. Во-первых, скалярное произведение факторов — это лишь один, линейный способ объединить представления пользователя и объекта, и он может не улавливать сложные нелинейные зависимости. Во-вторых, к 2017 году глубокие сети уже доминировали в зрении и обработке языка, но в рекомендательных системах применялись мало. NCF заполняет этот пробел, заменяя скалярное произведение обучаемой нейросетевой «функцией взаимодействия». Флагманская модель семейства — NeuMF — объединяет линейную (обобщённая факторизация) и нелинейную (многослойный перцептрон) ветви.

Важно, что последующая переоценка (Rendle et al., 2020) существенно скорректировала выводы исходной работы: при аккуратном подборе гиперпараметров простое скалярное произведение оказывается не хуже, а часто лучше нейросетевой похожести. Поэтому NCF стоит понимать не как безусловно превосходящий факторизацию метод, а как обобщающую рамку, чья практическая польза зависит от задачи и настройки. Ниже разобраны и конструкция NCF, и эта важная оговорка.

Историческая справка

К середине 2010-х матричная факторизация была доминирующим методом коллаборативной фильтрации: пользователи и объекты проецировались в общее пространство скрытых факторов, а предпочтение оценивалось скалярным произведением их векторов (Koren et al., 2009). Одновременно глубокое обучение добилось прорывов в других областях, что породило интерес к применению нейросетей в рекомендациях.

Работа Хэ и соавторов на конференции WWW 2017 предложила общую нейросетевую рамку для коллаборативной фильтрации по неявной обратной связи и три её воплощения: обобщённую матричную факторизацию (GMF), многослойный перцептрон (MLP) и их объединение — Neural Matrix Factorization (NeuMF). Авторы сообщили, что нейросетевые модели превосходят факторизацию, и работа стала одной из самых цитируемых в области, запустив волну «нейросетевых» рекомендательных архитектур.

В 2020 году Рендле и соавторы (Google) воспроизвели эксперименты NCF и пришли к противоположному выводу: тщательно настроенная матричная факторизация со скалярным произведением превосходит обученную нейросетевую похожесть на тех же данных. Эта работа стала важным уроком о роли честного подбора гиперпараметров и о том, что усложнение модели не гарантирует выигрыша.

Постановка задачи

Рассматривается неявная обратная связь: взаимодействия пользователей с объектами заданы бинарной матрицей $Y$ , где $y_{ui} = 1$ , если зафиксировано взаимодействие пользователя $u$ с объектом $i$ (просмотр, клик, покупка), и $y_{ui} = 0$ иначе. Существенно, что нуль означает не отрицательную оценку, а лишь отсутствие наблюдения.

NCF трактует задачу как бинарную классификацию: предсказывается вероятность взаимодействия $\hat{y}_{ui} \in (0, 1)$ , по которой объекты ранжируются для формирования top-N рекомендаций. Каждому пользователю и объекту сопоставляется обучаемый вектор (эмбеддинг): единичный вектор идентификатора (one-hot) проецируется в плотное представление $p_u \in \mathbb{R}^{k}$ для пользователя и $q_i \in \mathbb{R}^{k}$ для объекта. Задача обучения — подобрать эмбеддинги и параметры функции взаимодействия так, чтобы $\hat{y}_{ui}$ отражала наблюдённые взаимодействия и обобщалась на ненаблюдённые пары.

Метод

Общая схема NCF

Единая рамка NCF состоит из трёх частей. Слой эмбеддингов превращает разреженные one-hot-векторы пользователя и объекта в плотные представления $p_u$ и $q_i$ . Слои нейросетевой коллаборативной фильтрации отображают пару $(p_u, q_i)$ в скалярную оценку через обучаемую функцию взаимодействия. Выходной слой с сигмоидой приводит оценку к вероятности $\hat{y}_{ui}$ . Конкретный выбор функции взаимодействия и определяет три модели ниже.

Обобщённая матричная факторизация (GMF)

GMF заменяет скалярное произведение поэлементным произведением эмбеддингов с последующим обучаемым взвешиванием:

$\hat{y}_{ui} = a_{\mathrm{out}}\bigl( h^{\top} ( p_u \odot q_i ) \bigr)$ ,

где $\odot$ — поэлементное произведение векторов, $h$ — вектор весов выходного слоя, $a_{\mathrm{out}}$ — активация. Смысл конструкции виден из частного случая: если положить $a_{\mathrm{out}}$ тождественной, а $h$ — вектором из единиц, то $h^{\top}(p_u \odot q_i) = p_u^{\top} q_i$ , и GMF в точности воспроизводит матричную факторизацию. Тем самым GMF — строгое обобщение MF: обучаемые $h$ и нелинейная $a_{\mathrm{out}}$ позволяют по-разному взвешивать измерения скрытого пространства.

Многослойный перцептрон (MLP)

Ветвь MLP объединяет эмбеддинги конкатенацией и пропускает через стек полносвязных слоёв с нелинейностями, обучая функцию взаимодействия «с нуля». Обозначив конкатенацию как $z_1 = [\, p_u ;\, q_i \,]$ , слои задаются рекуррентно:

$z_\ell = a_\ell\bigl( W_\ell^{\top} z_{\ell-1} + b_\ell \bigr), \quad \ell = 2, \ldots, L$ ,

$\hat{y}_{ui} = \sigma\bigl( h^{\top} z_L \bigr)$ ,

где $W_\ell$ и $b_\ell$ — веса и смещения $\ell$ -го слоя, $a_\ell$ — активация (обычно ReLU), $\sigma$ — сигмоида. В отличие от GMF, где взаимодействие остаётся мультипликативно-линейным, MLP способен приближать нелинейные зависимости между представлениями — ценой большего числа параметров и более трудного обучения.

Neural Matrix Factorization (NeuMF)

NeuMF объединяет обе ветви, чтобы совместить линейное моделирование GMF и нелинейное MLP. Ключевая деталь: ветви используют раздельные эмбеддинги, что позволяет каждой обучить оптимальное для себя представление. Обозначив выход GMF-ветви как $\phi^{\mathrm{GMF}} = p_u^{G} \odot q_i^{G}$ , а выход последнего слоя MLP-ветви как $\phi^{\mathrm{MLP}}$ , финальное предсказание получают конкатенацией и выходным слоем:

$\hat{y}_{ui} = \sigma\bigl( h^{\top} [\, \phi^{\mathrm{GMF}} ;\, \phi^{\mathrm{MLP}} \,] \bigr)$ ,

где $[\, \cdot\, ;\, \cdot\, ]$ — конкатенация векторов. Поскольку целевая функция невыпукла, качество NeuMF заметно повышает инициализация предобученными по отдельности GMF и MLP.

Функция потерь и негативное сэмплирование

Так как задача сформулирована как бинарная классификация, NCF обучается минимизацией логистической функции потерь (бинарной кросс-энтропии):

$\mathcal{L} = -\sum_{(u,i) \in \mathcal{Y} \cup \mathcal{Y}^{-}} \bigl[\, y_{ui} \log \hat{y}_{ui} + (1 - y_{ui}) \log(1 - \hat{y}_{ui}) \,\bigr]$ ,

где $\mathcal{Y}$ — множество наблюдённых (положительных) взаимодействий, а $\mathcal{Y}^{-}$ — множество отрицательных примеров, которые сэмплируются из ненаблюдённых пар (обычно несколько отрицательных на каждый положительный). Негативное сэмплирование необходимо, поскольку явных отрицательных примеров при неявной обратной связи нет, а использовать все ненаблюдённые пары вычислительно неподъёмно. Такой пойнтвайз-подход с логистической потерей отличает NCF от факторизации, обучаемой на квадратичной ошибке рейтингов.

Связь с матричной факторизацией и переоценка метода

MF как частный случай. Как показано выше, матричная факторизация — частный случай GMF (тождественная активация и единичный вектор весов). В этом смысле NCF не отвергает факторизацию, а расширяет пространство функций взаимодействия, добавляя обучаемые веса и нелинейности.

Переоценка (Rendle et al., 2020). Исходная работа NCF утверждала, что нейросетевая похожесть превосходит скалярное произведение. Рендле и соавторы воспроизвели эксперименты на тех же данных и показали обратное: при честном подборе гиперпараметров простое скалярное произведение (то есть корректно настроенная MF) существенно превосходит обученные MLP-похожести по всем метрикам и размерностям, и лишь предобученный NeuMF оказывается сравнимым. Более того, хотя MLP по теореме об универсальной аппроксимации способен приблизить любую функцию, на практике ему трудно выучить даже само скалярное произведение из данных, а стоимость его применения выше. Практический вывод авторов: скалярное произведение стоит рассматривать как сильную настройку по умолчанию, а MLP как «комбинатор» эмбеддингов применять с осторожностью. Это один из ключевых уроков современной коллаборативной фильтрации: усложнение архитектуры не заменяет аккуратной настройки и честного сравнения с сильными базовыми методами.

Свойства

Преимущества

Единая рамка обобщает матричную факторизацию и допускает нелинейные функции взаимодействия.
Пойнтвайз-формулировка с логистической потерей и негативным сэмплированием естественна для неявной обратной связи и top-N.
Раздельные эмбеддинги ветвей NeuMF и предобучение повышают выразительность и качество.
Эмбеддинги совместимы с другими нейросетевыми компонентами (признаки, контекст, последовательности).

Ограничения

При честной настройке нейросетевая похожесть часто не превосходит хорошо настроенное скалярное произведение (Rendle et al., 2020).
Больше параметров и гиперпараметров, дороже обучение и предсказание.
Невыпуклая оптимизация чувствительна к инициализации; NeuMF практически требует предобучения ветвей.
Проблема холодного старта сохраняется: для новых пользователей и объектов эмбеддинги не обучены.

Применение

NCF и его наследники применяются в рекомендациях по неявной обратной связи — товаров, контента, музыки, видео — там, где важен ранжированный список объектов. Модель служит основой для расширений, вводящих контекст, признаки и последовательности взаимодействий, и как компонент более крупных нейросетевых рекомендательных систем. При этом, с учётом переоценки метода, хорошо настроенная матричная факторизация остаётся обязательным сильным базовым методом для сравнения.

См. также

Ссылки

Литература

He X., Liao L., Zhang H., Nie L., Hu X., Chua T.-S. Neural Collaborative Filtering // Proceedings of the 26th International Conference on World Wide Web (WWW). — 2017. — С. 173–182.

Rendle S., Krichene W., Zhang L., Anderson J. Neural Collaborative Filtering vs. Matrix Factorization Revisited // Proceedings of the 14th ACM Conference on Recommender Systems (RecSys). — 2020. — С. 240–248.

Koren Y., Bell R., Volinsky C. Matrix Factorization Techniques for Recommender Systems // Computer (IEEE). — 2009. — Т. 42. — № 8. — С. 30–37.

Источник — «http://machinelearning.ru/wiki/index.php?title=Neural_Collaborative_Filtering»