Обсуждение:Моя первая научная статья (лекции и практика, В.В. Стрижов)/Группы 874, 821, 813, весна 2021

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск

Strijov (Обсуждение | вклад)
(Новая: ==Задача 65== * '''Название:''' Existence conditions for hidden feedback loops in recommender systems * '''Описание проблемы:''' В рекомендател...)
К следующему изменению →

Версия 14:08, 9 февраля 2021

Задача 65

  • Название: Existence conditions for hidden feedback loops in recommender systems
  • Описание проблемы: В рекомендательных системах известен эффект искусственного непреднамеренного ограничения выбора пользователя вследствие адаптации модели к его предпочтениям (echo chamber/filter bubble). Эффект является частным случаем петель скрытой обратной связи (hidden feedback loop). (см. - Analysis H.F.L.). Выражается в том, что путем рекомендации одних и тех же интересных пользователю объектов, алгоритм максимизирует качество своей работы. Проблема в а) недостаточном разнообразии б) насыщении / изменчивости интересов пользователя.
  • Задача: Понятно, что алгоритм не знает интересов пользователя и пользователь не всегда честен в выборе. При каких условиях, каких свойствах алгоритма обучения и нечестности (отклонении выбора пользователя от его интересов) будет наблюдаться указанный эффект? Уточнение. Рекомендательный алгоритм выдает пользователю объекты a_t на выбор. Пользователь выбирает один из них c_t из Бернулли от модели интереса mu(a_t) . На основе выбора пользователя алгоритм изменяет свое внутреннее состояние w_t и выдает следующий набор объектов пользователю. На бесконечном горизонте нужно максимизировать суммарное вознаграждение sum c_t. Найти условия существования неограниченного роста интереса пользователя к предлагаемым объектам в рекомендательной системе с алгоритмом Thomson Sampling (TS) MAB в условиях зашумленности выбора пользователя c_t. Без шума известно, что всегда неограниченный рост (в модели) [1].
  • Данные: создаются в рамках эксперимента (имитационная модель) по аналогии со статьей [1], внешние данные не требуются.
  • Литература
    1. Jiang, R., Chiappa, S., Lattimore, T., György, A. and Kohli, P., 2019, January. Degenerate feedback loops in recommender systems. In Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society (pp. 383-390).
    2. Khritankov, A. (2021). Hidden Feedback Loops in Machine Learning Systems: A Simulation Model and Preliminary Results. In International Conference on Software Quality (pp. 54-65). Springer, Cham.
    3. Khritankov A. (2021). Hidden feedback loop experiment demo. https://github.com/prog-autom/hidden-demo
  • Базовый алгоритм: Исходная математическая модель исследуемого явления описана в статье [1]. Метод экспериментального исследования - в статье [2]. Базовый исходный код доступен в [3]
  • Решение: Нужно вывести условия существования положительной обратной связи для алгоритма Thomson Sampling Multi-armed Bandit исходя из известных теоретических свойств этого алгоритма. Затем проверить их выполнение в имитационной модели. Для проверки выполняется серия экспериментов с исследованием диапазонов параметров и оценкой ошибки (variance) моделирования. Результаты сопоставляются с построенной ранее математической моделью эффекта. Есть реализация системы проведения эксперимента, которую можно доработать для данной задачи.
  • Новизна: Исследуемый эффект положительной обратной связи наблюдается в реальных и модельных системах и описан во многих публикациях как нежелательное явление. Есть его модель для ограниченного случая отсутствия шума в действиях пользователя, что не реализуется на практике. В предлагаемых условиях задача ранее не ставилась и не решалась для рекомендательных систем. Для задачи регрессии решение известно.
  • Авторы: Эксперт, консультант - Антон Хританков
Личные инструменты