Обсуждение:Моя первая научная статья (лекции и практика, В.В. Стрижов)/Группы 874, 821, 813, весна 2021
Материал из MachineLearning.
(Различия между версиями)
(→Задача 67) |
|||
Строка 34: | Строка 34: | ||
*# Множество T является подмножеством периода времени T'. | *# Множество T является подмножеством периода времени T'. | ||
*# Требуется спрогнозировать направление движения цены биржевого инструмента на следующий день после выхода новости. | *# Требуется спрогнозировать направление движения цены биржевого инструмента на следующий день после выхода новости. | ||
- | *Данные:''' | + | *'''Данные:''' |
** Финансовые данные: данные о котировках (с интервалом в один день) 1500 финансовых инструментов с сайта finance.yahoo.com; для каждой точки ряда известны дата, время, 5 цен (open, high, low, close, adjusted close), и объем. | ** Финансовые данные: данные о котировках (с интервалом в один день) 1500 финансовых инструментов с сайта finance.yahoo.com; для каждой точки ряда известны дата, время, 5 цен (open, high, low, close, adjusted close), и объем. | ||
** Текстовые данные: отчёты 8-K компаний, поданные в комиссию по ценным бумагам; новости каждой компании представлены отдельными файлом. | ** Текстовые данные: отчёты 8-K компаний, поданные в комиссию по ценным бумагам; новости каждой компании представлены отдельными файлом. |
Версия 22:55, 12 февраля 2021
Задача 65
- Название: Existence conditions for hidden feedback loops in recommender systems
- Описание проблемы: В рекомендательных системах известен эффект искусственного непреднамеренного ограничения выбора пользователя вследствие адаптации модели к его предпочтениям (echo chamber/filter bubble). Эффект является частным случаем петель скрытой обратной связи (hidden feedback loop). (см. - Analysis H.F.L.). Выражается в том, что путем рекомендации одних и тех же интересных пользователю объектов, алгоритм максимизирует качество своей работы. Проблема в а) недостаточном разнообразии б) насыщении / изменчивости интересов пользователя.
- Задача: Понятно, что алгоритм не знает интересов пользователя и пользователь не всегда честен в выборе. При каких условиях, каких свойствах алгоритма обучения и нечестности (отклонении выбора пользователя от его интересов) будет наблюдаться указанный эффект? Уточнение. Рекомендательный алгоритм выдает пользователю объекты a_t на выбор. Пользователь выбирает один из них c_t из Бернулли от модели интереса mu(a_t) . На основе выбора пользователя алгоритм изменяет свое внутреннее состояние w_t и выдает следующий набор объектов пользователю. На бесконечном горизонте нужно максимизировать суммарное вознаграждение sum c_t. Найти условия существования неограниченного роста интереса пользователя к предлагаемым объектам в рекомендательной системе с алгоритмом Thomson Sampling (TS) MAB в условиях зашумленности выбора пользователя c_t. Без шума известно, что всегда неограниченный рост (в модели) [1].
- Данные: создаются в рамках эксперимента (имитационная модель) по аналогии со статьей [1], внешние данные не требуются.
- Литература
- Jiang, R., Chiappa, S., Lattimore, T., György, A. and Kohli, P., 2019, January. Degenerate feedback loops in recommender systems. In Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society (pp. 383-390).
- Khritankov, A. (2021). Hidden Feedback Loops in Machine Learning Systems: A Simulation Model and Preliminary Results. In International Conference on Software Quality (pp. 54-65). Springer, Cham.
- Khritankov A. (2021). Hidden feedback loop experiment demo. https://github.com/prog-autom/hidden-demo
- Базовый алгоритм: Исходная математическая модель исследуемого явления описана в статье [1]. Метод экспериментального исследования - в статье [2]. Базовый исходный код доступен в [3]
- Решение: Нужно вывести условия существования положительной обратной связи для алгоритма Thomson Sampling Multi-armed Bandit исходя из известных теоретических свойств этого алгоритма. Затем проверить их выполнение в имитационной модели. Для проверки выполняется серия экспериментов с исследованием диапазонов параметров и оценкой ошибки (variance) моделирования. Результаты сопоставляются с построенной ранее математической моделью эффекта. Есть реализация системы проведения эксперимента, которую можно доработать для данной задачи.
- Новизна: Исследуемый эффект положительной обратной связи наблюдается в реальных и модельных системах и описан во многих публикациях как нежелательное явление. Есть его модель для ограниченного случая отсутствия шума в действиях пользователя, что не реализуется на практике. В предлагаемых условиях задача ранее не ставилась и не решалась для рекомендательных систем. Для задачи регрессии решение известно.
- Авторы: Эксперт, консультант - Антон Хританков
Задача 66
- Название: Выравнивание элементов изображений с помощью метрических моделей.
- Задача: Задан набор символов. Каждый символ представлен одним файлом - изображением. Размер изображений в пикселях может отличаться. Известно, что все изображения принадлежат одному классу, например, лица, буквы, цветы или машины. (Более сложный вариант - одному классу, который мы исследуем и шумовым классам.) Известно, что каждое изображение может быть и помощью выравнивающей трансформации совмещено с другим с точностью до шума, либо до некоторого усредненного изображения. (Это изображение может как присутствовать, так и отсутствовать в выборке). Эта выравнивающая трансформация задается в базовом случае нейросетью, а в предлагаемом - параметрическим преобразованием из некоторого заданного класса (первое - частный случай второго). Выравненное изображение сравнивается с исходным с помощью функции расстояния. Если расстояние между двумя изображениями статистически значимо, делается вывод о принадлежности изображений одному классу. Требуется 1) предложить адекватную модель выравнивающей трансформации, которая берет в расчет предположения о характере изображения (например, только вращение и пропорциональное масштабирование), 2) предложить функцию расстояния, 3) преложить способ нахождения усредненного изображения.
- Данные: Синтетические и реальные 1) картинки - лица и символы с трансформацией вращения и растяжения, 2) лица и автомобили с транфсормацией вращения 3D с проекцией в 2D. Синтетические изображения предлагается создавать вручную с помощью 1) фотографий листа бумаги, 2) фотографий поверхности рисунка на воздушном шарике.
- Литература
- опорная работы - выравнивание картинок с помощью 2D DTW,
- опорная работа - выравнивание картинок с помощью нейросетей,
- работы по выравниванию DTW в 2D,
- работы по параметрическому выравниванию.
- Базовой алгоритм: из работы 1.
- Решение: В прилагаемом файле pdf.
- Новизна: Вместо многомерного выравнивания изображений предлагается параметрическое выравнивание.
- Авторы: Алексей Гончаров, Вадим Стрижов
Задача 67
- Название: Прогнозирование направления движения цены биржевых инструментов по новостному потоку.
- Задача: Построить и исследовать модель прогнозирования направления движения цены.
- Дано:
- Множество новостей S и множество временных меток T, соответствующих времени публикации новостей из S.
- Временной ряд P, соответствующий значению цены биржевого инструмента, и временной ряд V, соответствующий объему продаж по данному инструменту, за период времени T'.
- Множество T является подмножеством периода времени T'.
- Требуется спрогнозировать направление движения цены биржевого инструмента на следующий день после выхода новости.
- Данные:
- Финансовые данные: данные о котировках (с интервалом в один день) 1500 финансовых инструментов с сайта finance.yahoo.com; для каждой точки ряда известны дата, время, 5 цен (open, high, low, close, adjusted close), и объем.
- Текстовые данные: отчёты 8-K компаний, поданные в комиссию по ценным бумагам; новости каждой компании представлены отдельными файлом.
- Литература:
- Usmanova K.R., Kudiyarov S.P., Martyshkin R.V., Zamkovoy A.A., Strijov V.V. Analysis of relationships between indicators in forecasting cargo transportation // Systems and Means of Informatics, 2018, 28(3).
- Kuznetsov M.P., Motrenko A.P., Kuznetsova M.V., Strijov V.V. Methods for intrinsic plagiarism detection and author diarization // Working Notes of CLEF, 2016, 1609 : 912-919.
- Айсина Роза Мунеровна, Тематическое моделирование финансовых потоков корпоративных клиентов банка по транзакционным данным, выпускная квалификационная работа.
- Lee, Heeyoung, et al. "On the Importance of Text Analysis for Stock Price Prediction." LREC. 2014.
- Базовой алгоритм: Метод, использованный в статье (4).
- Решение: Использование тематического моделирования (ARTM) и локальных аппроксимирующих моделей для перевода последовательности текстов, соответствующих различным временным меткам, в единое признаковое описание.
- Критерий качества: F1-score, ROC AUC, прибыльность используемой стратегии.
- Новизна: Прогнозирование распределения вероятностей движения акций.
- Авторы: В.В. Стрижов (эксперт), Валентин Ахияров (консультант)