Автоматизация научных исследований в машинном обучении (практика, В.В. Стрижов)/Группа 674, весна 2019

Материал из MachineLearning.

Перейти к: навигация, поиск
Видео докладов по курсу на канале Machine Learning на Youtube


Содержание


Моя первая научная публикация

Участвуют эксперты, индивидуальные консультанты и студенты кафедры Интеллектуальные системы ФУПМ МФТИ.

Роли

Студент третьего курса очень хочет научиться ставить задачи формально, находить нужную литературу, порождать новые и актуальные идеи и решения задач.

Консультант помогает студенту в пользовании инструментами, отвечает на вопросы по специальности, консультирует выполнение работ, оперативно реагирует на проблемы, проверяет (в среду) результаты, ставит оценки. Предполагается, что консультант сам пишет работу-спутник по этой теме. В конце работы могут быть объединены или выполнены и опубликованы параллельно. По возможности, рекомендуется организовать правки текста студента с целью улучшить стиль изложения таким образом, чтобы студент вносил правки самостоятельно. Возможно, при очной встрече или по скайпу.

Эксперт: поставщик задачи, владелец данных, либо тот, кто гарантирует новизну и актуальность работы.

Результаты

Автор Тема научной работы Ссылки Консультант Рецензент Доклады Буквы \Sigma
Гончаров Алексей (пример) Метрическая классификация временных рядов code,

paper, slides

Мария Попова Задаянчук Андрей BMF AILSBRCVTDSWH>
Фамилия Имя название ссылки консультант рецензент доклад буквы оценка

Расписание

Дата N Что делаем Результат для обсуждения Буква
Февраль 14 1 Организация работы, расписание, инструменты. Инструменты подготовлены к работе.
21 2 ДЗ-1. Выбор задачи Тема в ML и ссылка на работу в SF помещена напротив фамилии.
28 3 Составить список публикаций по выбранной задаче, найти данные. Написать аннотацию и введение с обзором собранной литературы. Аннотация (600 знаков), введение (1-2 страницы), список литературы в bib-файле. Abstract, Introduction, Literature
Март 7 4 Поставить задачу и сделать описание базового алгоритма, подготовить базовый вычислительный эксперимент. Постановка задачи (0.5-1 страница), описание базового алгоритма. Подготовить доклад 45 сек. B-talk, Statement
14 5 Поставить базовый вычислительный эксперимент. Провести первичный анализ работы алгоритма. Показ статьи. Базовый код, отчет о работе базового алгоритма (кратко). Basic code, Report, cHeck-1
21 6 Поставить вычислительный эксперимент на основе предлагаемого алгоритма с учетом предыдущих результатов. Код, визуализация полученных результатов, анализ ошибки, анализ качества. Code, Visualization
28 7 Описать алгоритм. Теоретическая и алгоритмическая часть статьи (второй / третий раздел). Подготовить промежуточный доклад со слайдами, 2-3 минуты. M-talk, Theory
Апрель 4 8 Завершение вычислительного эксперимента. Описание эксперимента с анализом ошибок. Error
11 9 Описание теоретической части и вычислительного эксперимента. Описание рисунков, выводы, заключение. Черновой вариант статьи с разделами «Вычислительный экперимент» и «Заключение». Document
18 10 Контрольная точка — показ статьи в целом, рецензия. Статья в варианте для рецензирования. сHeck-2, RevieW
25 11 Подготовка презентации. Доклады и обсуждение. Final show, Slides
Май 16 12 Доработка статьи. Статья подготовлена к подаче в журнал. Journal


Список проектов

Шаблон описания проекта — научной статьи

  • Название: Название, под которым статья подается в журнал.
  • Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
  • Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
  • Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
  • Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
  • Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
  • Авторы: эксперт, консультант.

Задача 17

  • Название: Прогнозирование намерений. Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга
  • Задача: При построении систем нейрокомпьютерного интерфейса (brain-computer interface) используются простые, устойчивые модели. Важным этапом построения такой модели является построение адекватного признакового пространства. Ранее такая задача решалась с помощью выделения признаков из частотных характеристик сигналов.
  • Данные: Наборы данных сигналов мозга ECoG/EEG.
  • Литература:
    1. Motrenko A.P., Strijov V.V. Multi-way feature selection for ECoG-based brain-computer Interface // Expert systems with applications. - 2018.
    2. Eliseyev A., Aksenova T. Stable and artifact-resistant decoding of 3D hand trajectories from ECoG signals using the generalized additive model //Journal of neural engineering. – 2014.
  • Базовый алгоритм: Сравнение предлагается производить с алгоритмом частных наименьших квадратов (partial least squares).
  • Решение: В данном работе предлагается учесть пространственную зависимость между сенсорами, которые считывают данные. Для этого необходимо локально смоделировать пространственный импульс/сигнал и построить прогностическую модель на основе локального описания.
  • Новизна: Предлагается существенно новый способ построения признакового описания в задаче декодирования сигналов. Бонус: анализ изменения структуры модели, адаптация структуры при изменении выборки.
  • Авторы: В.В. Стрижов, Tetiana Aksenova, консультант – Роман Исаченко

Задача 40

  • Название: Предсказание качества для процедуры выбора признаков.
  • Задача: Решение задачи выбора признаков сводится к перебору вершин бинарного куба. Данную процедуру невозможно произвести для выборки с большим числом признаком. Предлагается свести данную задачу к оптимизации в линейном пространстве.
  • Данные: Синтетические данные + простые выборки
  • Литература:
    1. Bertsimas D. et al. Best subset selection via a modern optimization lens //The annals of statistics. – 2016. – Т. 44. – №. 2. – С. 813-852.
    2. Luo R. et al. Neural architecture optimization //Advances in Neural Information Processing Systems. – 2018. – С. 7827-7838.
  • Базовый алгоритм: популярные методы выбора признаков.
  • Решение: В данном работе предлагается построить модель, которая по набору признаков прогнозирует качество на тестовой выборке. Для этого строится отображение бинарного куба в линейное пространство. После этого максимизируется качество модели в линейном пространстве. Для реконструкции решения задачи используется модель обратного отображенияв бинарный куб.
  • Новизна: Предлагается конструктивно новый подход к решению задачи выбора моделей.
  • Авторы: В.В. Стрижов, Tetiana Aksenova, консультант – Роман Исаченко

Задача 42

  • Название: Z-learning of linearly-solvable Markov Decision Processes
  • Задача: Adapt Z-learning from [1] to the case of Markov Decision Process discussed in [2] in the context of energy systems. Compare it with standard (in reinforcement learning) Q-learning.
  • Данные: We consider a Markov Process described via transition probability matrix. Given initial state vector (probability of being in a state at time zero), we generate data for the time evolution of the state vector. See [2] for an exemplary process describing evolution of an ensemble of energy consumers.
  • Литература:
    1. E. Todorov. Linearly-solvable Markov decision problems https://homes.cs.washington.edu/~todorov/papers/TodorovNIPS06.pdf
    2. Ensemble Control of Cycling Energy Loads: Markov Decision Approach. Michael Chertkov, Vladimir Y. Chernyak, Deepjyoti Deka. https://arxiv.org/abs/1701.04941
    3. Csaba Szepesvári. Algorithms for Reinforcement Learning. https://sites.ualberta.ca/~szepesva/papers/RLAlgsInMDPs.pdf
  • Базовой алгоритм: Principal comparison should be made with Q learning described in [3]
  • Решение: We suppose that plugging in algorithm from [1] directly into [2] gives faster and more reliable solution.
  • Новизна: In the area of power systems there is a huge demand on fast reinforcement learning algorithms, but there is still a lack of that (in particular the ones respect the physics/underlying graph)
  • Авторы: Yury Maximov (consultant, expert), Michael Chertkov (expert)

Задача 1

  • Название: Прогнозирование направления движения цены биржевых инструментов по новостному потоку.
  • Задача: Построить и исследовать модель прогнозирования направления движения цены. Задано множество новостей S и множество временных меток T, соответствующих времени публикации новостей из S. 2. Временной ряд P, соответствующий значению цены биржевого инструмента, и временной ряд V, соответствующий объему продаж по данному инструменту, за период времени T'. 3. Множество T является подмножеством периода времени T'. 4. Временные отрезки w=[w0, w1], l=[l0, l1], d=[d0, d1], где w0 < w1=l0 < l1=d0 < d1. Требуется спрогнозировать направление движения цены биржевого инструмента в момент времени t=d0 по новостям, вышедшим в период w.
  • Данные:
    1. Финансовые данные: данные о котировках (с интервалом в один тик) нескольких финансовых инструментов (GAZP, SBER, VTBR, LKOH) за 2 квартал 2017 года с сайта Finam.ru; для каждой точки ряда известны дата, время, цена и объем.
    2. Текстовые данные: экономические новости за 2 квартал 2017 года от компании Форексис; каждая новость является отдельным html файлом.
  • Литература:
    1. Usmanova K.R., Kudiyarov S.P., Martyshkin R.V., Zamkovoy A.A., Strijov V.V. Analysis of relationships between indicators in forecasting cargo transportation // Systems and Means of Informatics, 2018, 28(3).
    2. Kuznetsov M.P., Motrenko A.P., Kuznetsova M.V., Strijov V.V. Methods for intrinsic plagiarism detection and author diarization // Working Notes of CLEF, 2016, 1609 : 912-919.
    3. Айсина Роза Мунеровна, Тематическое моделирование финансовых потоков корпоративных клиентов банка по транзакционным данным, выпускная квалификационная работа.
    4. Lee, Heeyoung, et al. "On the Importance of Text Analysis for Stock Price Prediction." LREC. 2014.
  • Базовый алгоритм: Метод, использованный в статье (4).
  • Решение: Использование тематического моделирования (ARTM) и локальных аппроксимирующих моделей для перевода последовательности текстов, соответствующих различным временным меткам, в единое признаковое описание. Критерий качества: F1-score, ROC AUC, прибыльность используемой стратегии.
  • Новизна: Для обоснования связи временных рядов предлагается метод Сходящегося перекрестного отображения.
  • Авторы: Иван Запутляев (консультант), В.В. Стрижов, К.В. Воронцов (эксперты)

Задача 3

  • Название: Динамическое выравнивание многомерных временных рядов.
  • Задача: Характерным многомерным временным рядом является траектория точки в 3х-мерном пространстве. Две траектории необходимо выравнивать оптимальным образом друг относительно друга. Для этого используется расстояние DTW между двумя временными рядами. В классическом представлении DTW строится между одномерными временными рядами. Необходимо ввести различные модификации алгоритма для работы со временными рядами высокой размерности: траекториями, кортикограммами.
  • Данные: Данные описывают 6 классов временных рядов с акселерометра мобильного телефона. https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015MetricClassification/data/
  • Литература:
    1. Multidimensional DTW: https://pdfs.semanticscholar.org/76d3/5bd5a52453ebde80faaa1467d7effd74426f.pdf
  • Базовый алгоритм: Использование L_p расстояний между двумя измерениями временного ряда, их модификаций.
  • Решение: Исследование расстояний, устойчивых к изменению порядка координат, исследований расстояний неустойчивых к изменению порядка координат. Эксперименты с другими видами расстояний (косинусное, RBF, прочие).
  • Новизна: Нет полного обзора и исследования методов работы с многомерными временными рядами. Не исследована зависимость качества решения от подобранных расстояний между измерениями.
  • Авторы: Алексей Гончаров - консультант, эксперт, В.В. Стрижов - эксперт
Личные инструменты