Neural Collaborative Filtering

Материал из MachineLearning.

Перейти к: навигация, поиск
Статья написана с использованием LLM Claude Opus 4.8 и проверена участником Nikita Saveliuk 01:39, 5 июля 2026 (MSD)


Содержание

Neural Collaborative Filtering (NCF, нейросетевая коллаборативная фильтрация) — подход к коллаборативной фильтрации, в котором взаимодействие пользователя и объекта моделируется нейронной сетью над их векторными представлениями, а не фиксированным скалярным произведением, как в матричной факторизации. Подход предложен Сяннанем Хэ и соавторами в 2017 году и обобщает матричную факторизацию: вместо предопределённой билинейной формы сеть обучает произвольную функцию, отображающую пару эмбеддингов в оценку предпочтения.

Идея опирается на два наблюдения. Во-первых, скалярное произведение факторов — это лишь один, линейный способ объединить представления пользователя и объекта, и он может не улавливать сложные нелинейные зависимости. Во-вторых, к 2017 году глубокие сети уже доминировали в зрении и обработке языка, но в рекомендательных системах применялись мало. NCF заполняет этот пробел, заменяя скалярное произведение обучаемой нейросетевой «функцией взаимодействия». Флагманская модель семейства — NeuMF — объединяет линейную (обобщённая факторизация) и нелинейную (многослойный перцептрон) ветви.

Важно, что последующая переоценка (Rendle et al., 2020) существенно скорректировала выводы исходной работы: при аккуратном подборе гиперпараметров простое скалярное произведение оказывается не хуже, а часто лучше нейросетевой похожести. Поэтому NCF стоит понимать не как безусловно превосходящий факторизацию метод, а как обобщающую рамку, чья практическая польза зависит от задачи и настройки. Ниже разобраны и конструкция NCF, и эта важная оговорка.

Историческая справка

К середине 2010-х матричная факторизация была доминирующим методом коллаборативной фильтрации: пользователи и объекты проецировались в общее пространство скрытых факторов, а предпочтение оценивалось скалярным произведением их векторов (Koren et al., 2009). Одновременно глубокое обучение добилось прорывов в других областях, что породило интерес к применению нейросетей в рекомендациях.

Работа Хэ и соавторов на конференции WWW 2017 предложила общую нейросетевую рамку для коллаборативной фильтрации по неявной обратной связи и три её воплощения: обобщённую матричную факторизацию (GMF), многослойный перцептрон (MLP) и их объединение — Neural Matrix Factorization (NeuMF). Авторы сообщили, что нейросетевые модели превосходят факторизацию, и работа стала одной из самых цитируемых в области, запустив волну «нейросетевых» рекомендательных архитектур.

В 2020 году Рендле и соавторы (Google) воспроизвели эксперименты NCF и пришли к противоположному выводу: тщательно настроенная матричная факторизация со скалярным произведением превосходит обученную нейросетевую похожесть на тех же данных. Эта работа стала важным уроком о роли честного подбора гиперпараметров и о том, что усложнение модели не гарантирует выигрыша.

Постановка задачи

Рассматривается неявная обратная связь: взаимодействия пользователей с объектами заданы бинарной матрицей Y, где y_{ui} = 1, если зафиксировано взаимодействие пользователя u с объектом i (просмотр, клик, покупка), и y_{ui} = 0 иначе. Существенно, что нуль означает не отрицательную оценку, а лишь отсутствие наблюдения.

NCF трактует задачу как бинарную классификацию: предсказывается вероятность взаимодействия \hat{y}_{ui} \in (0, 1), по которой объекты ранжируются для формирования top-N рекомендаций. Каждому пользователю и объекту сопоставляется обучаемый вектор (эмбеддинг): единичный вектор идентификатора (one-hot) проецируется в плотное представление p_u \in \mathbb{R}^{k} для пользователя и q_i \in \mathbb{R}^{k} для объекта. Задача обучения — подобрать эмбеддинги и параметры функции взаимодействия так, чтобы \hat{y}_{ui} отражала наблюдённые взаимодействия и обобщалась на ненаблюдённые пары.

Метод

Общая схема NCF

Единая рамка NCF состоит из трёх частей. Слой эмбеддингов превращает разреженные one-hot-векторы пользователя и объекта в плотные представления p_u и q_i. Слои нейросетевой коллаборативной фильтрации отображают пару (p_u, q_i) в скалярную оценку через обучаемую функцию взаимодействия. Выходной слой с сигмоидой приводит оценку к вероятности \hat{y}_{ui}. Конкретный выбор функции взаимодействия и определяет три модели ниже.

Обобщённая матричная факторизация (GMF)

GMF заменяет скалярное произведение поэлементным произведением эмбеддингов с последующим обучаемым взвешиванием:

\hat{y}_{ui} = a_{\mathrm{out}}\bigl( h^{\top} ( p_u \odot q_i ) \bigr),

где \odot — поэлементное произведение векторов, h — вектор весов выходного слоя, a_{\mathrm{out}} — активация. Смысл конструкции виден из частного случая: если положить a_{\mathrm{out}} тождественной, а h — вектором из единиц, то h^{\top}(p_u \odot q_i) = p_u^{\top} q_i, и GMF в точности воспроизводит матричную факторизацию. Тем самым GMF — строгое обобщение MF: обучаемые h и нелинейная a_{\mathrm{out}} позволяют по-разному взвешивать измерения скрытого пространства.

Многослойный перцептрон (MLP)

Ветвь MLP объединяет эмбеддинги конкатенацией и пропускает через стек полносвязных слоёв с нелинейностями, обучая функцию взаимодействия «с нуля». Обозначив конкатенацию как z_1 = [\, p_u ;\, q_i \,], слои задаются рекуррентно:

z_\ell = a_\ell\bigl( W_\ell^{\top} z_{\ell-1} + b_\ell \bigr), \quad \ell = 2, \ldots, L,
\hat{y}_{ui} = \sigma\bigl( h^{\top} z_L \bigr),

где W_\ell и b_\ell — веса и смещения \ell-го слоя, a_\ell — активация (обычно ReLU), \sigma — сигмоида. В отличие от GMF, где взаимодействие остаётся мультипликативно-линейным, MLP способен приближать нелинейные зависимости между представлениями — ценой большего числа параметров и более трудного обучения.

Neural Matrix Factorization (NeuMF)

NeuMF объединяет обе ветви, чтобы совместить линейное моделирование GMF и нелинейное MLP. Ключевая деталь: ветви используют раздельные эмбеддинги, что позволяет каждой обучить оптимальное для себя представление. Обозначив выход GMF-ветви как \phi^{\mathrm{GMF}} = p_u^{G} \odot q_i^{G}, а выход последнего слоя MLP-ветви как \phi^{\mathrm{MLP}}, финальное предсказание получают конкатенацией и выходным слоем:

\hat{y}_{ui} = \sigma\bigl( h^{\top} [\, \phi^{\mathrm{GMF}} ;\, \phi^{\mathrm{MLP}} \,] \bigr),

где [\, \cdot\, ;\, \cdot\, ] — конкатенация векторов. Поскольку целевая функция невыпукла, качество NeuMF заметно повышает инициализация предобученными по отдельности GMF и MLP.

Функция потерь и негативное сэмплирование

Так как задача сформулирована как бинарная классификация, NCF обучается минимизацией логистической функции потерь (бинарной кросс-энтропии):

\mathcal{L} = -\sum_{(u,i) \in \mathcal{Y} \cup \mathcal{Y}^{-}} \bigl[\, y_{ui} \log \hat{y}_{ui} + (1 - y_{ui}) \log(1 - \hat{y}_{ui}) \,\bigr],

где \mathcal{Y} — множество наблюдённых (положительных) взаимодействий, а \mathcal{Y}^{-} — множество отрицательных примеров, которые сэмплируются из ненаблюдённых пар (обычно несколько отрицательных на каждый положительный). Негативное сэмплирование необходимо, поскольку явных отрицательных примеров при неявной обратной связи нет, а использовать все ненаблюдённые пары вычислительно неподъёмно. Такой пойнтвайз-подход с логистической потерей отличает NCF от факторизации, обучаемой на квадратичной ошибке рейтингов.

Связь с матричной факторизацией и переоценка метода

MF как частный случай. Как показано выше, матричная факторизация — частный случай GMF (тождественная активация и единичный вектор весов). В этом смысле NCF не отвергает факторизацию, а расширяет пространство функций взаимодействия, добавляя обучаемые веса и нелинейности.

Переоценка (Rendle et al., 2020). Исходная работа NCF утверждала, что нейросетевая похожесть превосходит скалярное произведение. Рендле и соавторы воспроизвели эксперименты на тех же данных и показали обратное: при честном подборе гиперпараметров простое скалярное произведение (то есть корректно настроенная MF) существенно превосходит обученные MLP-похожести по всем метрикам и размерностям, и лишь предобученный NeuMF оказывается сравнимым. Более того, хотя MLP по теореме об универсальной аппроксимации способен приблизить любую функцию, на практике ему трудно выучить даже само скалярное произведение из данных, а стоимость его применения выше. Практический вывод авторов: скалярное произведение стоит рассматривать как сильную настройку по умолчанию, а MLP как «комбинатор» эмбеддингов применять с осторожностью. Это один из ключевых уроков современной коллаборативной фильтрации: усложнение архитектуры не заменяет аккуратной настройки и честного сравнения с сильными базовыми методами.

Свойства

Преимущества

  • Единая рамка обобщает матричную факторизацию и допускает нелинейные функции взаимодействия.
  • Пойнтвайз-формулировка с логистической потерей и негативным сэмплированием естественна для неявной обратной связи и top-N.
  • Раздельные эмбеддинги ветвей NeuMF и предобучение повышают выразительность и качество.
  • Эмбеддинги совместимы с другими нейросетевыми компонентами (признаки, контекст, последовательности).

Ограничения

  • При честной настройке нейросетевая похожесть часто не превосходит хорошо настроенное скалярное произведение (Rendle et al., 2020).
  • Больше параметров и гиперпараметров, дороже обучение и предсказание.
  • Невыпуклая оптимизация чувствительна к инициализации; NeuMF практически требует предобучения ветвей.
  • Проблема холодного старта сохраняется: для новых пользователей и объектов эмбеддинги не обучены.

Применение

NCF и его наследники применяются в рекомендациях по неявной обратной связи — товаров, контента, музыки, видео — там, где важен ранжированный список объектов. Модель служит основой для расширений, вводящих контекст, признаки и последовательности взаимодействий, и как компонент более крупных нейросетевых рекомендательных систем. При этом, с учётом переоценки метода, хорошо настроенная матричная факторизация остаётся обязательным сильным базовым методом для сравнения.

См. также

Ссылки

Литература

  • Koren Y., Bell R., Volinsky C. Matrix Factorization Techniques for Recommender Systems // Computer (IEEE). — 2009. — Т. 42. — № 8. — С. 30–37.
Личные инструменты