Автоматизация научных исследований в машинном обучении (практика, В.В. Стрижов)/Группа 674, весна 2019
Материал из MachineLearning.
Видео докладов по курсу на канале Machine Learning на Youtube |
Содержание |
Моя первая научная публикация
Участвуют эксперты, индивидуальные консультанты и студенты кафедры Интеллектуальные системы ФУПМ МФТИ.
- Описание курса
- Результаты предыдущих курсов
- Видео докладов по курсу на канале Machine Learning на Youtube
- Короткая ссылка на эту страницу: http://bit.ly/2Esrdrk
Роли
Студент третьего курса очень хочет научиться ставить задачи формально, находить нужную литературу, порождать новые и актуальные идеи и решения задач.
Консультант помогает студенту в пользовании инструментами, отвечает на вопросы по специальности, консультирует выполнение работ, оперативно реагирует на проблемы, проверяет (в среду) результаты, ставит оценки. Предполагается, что консультант сам пишет работу-спутник по этой теме. В конце работы могут быть объединены или выполнены и опубликованы параллельно. По возможности, рекомендуется организовать правки текста студента с целью улучшить стиль изложения таким образом, чтобы студент вносил правки самостоятельно. Возможно, при очной встрече или по скайпу.
Эксперт: поставщик задачи, владелец данных, либо тот, кто гарантирует новизну и актуальность работы.
Результаты
Автор | Тема научной работы | Ссылки | Консультант | Рецензент | Доклады | Буквы | ||
---|---|---|---|---|---|---|---|---|
Гончаров Алексей (пример) | Метрическая классификация временных рядов | code, | Мария Попова | Задаянчук Андрей | BMF | AILSBRCVTDSWH> | ||
Фамилия Имя | название | ссылки | консультант | рецензент | доклад | буквы | оценка |
Расписание
Дата | N | Что делаем | Результат для обсуждения | Буква | |
Февраль | 14 | 1 | Организация работы, расписание, инструменты. | Инструменты подготовлены к работе. | |
21 | 2 | ДЗ-1. Выбор задачи | Тема в ML и ссылка на работу в SF помещена напротив фамилии. | ||
28 | 3 | Составить список публикаций по выбранной задаче, найти данные. Написать аннотацию и введение с обзором собранной литературы. | Аннотация (600 знаков), введение (1-2 страницы), список литературы в bib-файле. | Abstract, Introduction, Literature | |
Март | 7 | 4 | Поставить задачу и сделать описание базового алгоритма, подготовить базовый вычислительный эксперимент. | Постановка задачи (0.5-1 страница), описание базового алгоритма. Подготовить доклад 45 сек. | B-talk, Statement |
14 | 5 | Поставить базовый вычислительный эксперимент. Провести первичный анализ работы алгоритма. Показ статьи. | Базовый код, отчет о работе базового алгоритма (кратко). | Basic code, Report, cHeck-1 | |
21 | 6 | Поставить вычислительный эксперимент на основе предлагаемого алгоритма с учетом предыдущих результатов. | Код, визуализация полученных результатов, анализ ошибки, анализ качества. | Code, Visualization | |
28 | 7 | Описать алгоритм. | Теоретическая и алгоритмическая часть статьи (второй / третий раздел). Подготовить промежуточный доклад со слайдами, 2-3 минуты. | M-talk, Theory | |
Апрель | 4 | 8 | Завершение вычислительного эксперимента. | Описание эксперимента с анализом ошибок. | Error |
11 | 9 | Описание теоретической части и вычислительного эксперимента. Описание рисунков, выводы, заключение. | Черновой вариант статьи с разделами «Вычислительный экперимент» и «Заключение». | Document | |
18 | 10 | Контрольная точка — показ статьи в целом, рецензия. | Статья в варианте для рецензирования. | сHeck-2, RevieW | |
25 | 11 | Подготовка презентации. | Доклады и обсуждение. | Final show, Slides | |
Май | 16 | 12 | Доработка статьи. | Статья подготовлена к подаче в журнал. | Journal |
Список проектов
Шаблон описания проекта — научной статьи
- Название: Название, под которым статья подается в журнал.
- Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
- Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
- Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
- Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
- Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
- Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
- Авторы: эксперт, консультант.
Задача 17
- Название: Прогнозирование намерений. Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга
- Задача: При построении систем нейрокомпьютерного интерфейса (brain-computer interface) используются простые, устойчивые модели. Важным этапом построения такой модели является построение адекватного признакового пространства. Ранее такая задача решалась с помощью выделения признаков из частотных характеристик сигналов.
- Данные: Наборы данных сигналов мозга ECoG/EEG.
- Литература:
- Motrenko A.P., Strijov V.V. Multi-way feature selection for ECoG-based brain-computer Interface // Expert systems with applications. - 2018.
- Eliseyev A., Aksenova T. Stable and artifact-resistant decoding of 3D hand trajectories from ECoG signals using the generalized additive model //Journal of neural engineering. – 2014.
- Базовый алгоритм: Сравнение предлагается производить с алгоритмом частных наименьших квадратов (partial least squares).
- Решение: В данном работе предлагается учесть пространственную зависимость между сенсорами, которые считывают данные. Для этого необходимо локально смоделировать пространственный импульс/сигнал и построить прогностическую модель на основе локального описания.
- Новизна: Предлагается существенно новый способ построения признакового описания в задаче декодирования сигналов. Бонус: анализ изменения структуры модели, адаптация структуры при изменении выборки.
- Авторы: В.В. Стрижов, Tetiana Aksenova, консультант – Роман Исаченко
Задача 40
- Название: Предсказание качества для процедуры выбора признаков.
- Задача: Решение задачи выбора признаков сводится к перебору вершин бинарного куба. Данную процедуру невозможно произвести для выборки с большим числом признаком. Предлагается свести данную задачу к оптимизации в линейном пространстве.
- Данные: Синтетические данные + простые выборки
- Литература:
- Bertsimas D. et al. Best subset selection via a modern optimization lens //The annals of statistics. – 2016. – Т. 44. – №. 2. – С. 813-852.
- Luo R. et al. Neural architecture optimization //Advances in Neural Information Processing Systems. – 2018. – С. 7827-7838.
- Базовый алгоритм: популярные методы выбора признаков.
- Решение: В данном работе предлагается построить модель, которая по набору признаков прогнозирует качество на тестовой выборке. Для этого строится отображение бинарного куба в линейное пространство. После этого максимизируется качество модели в линейном пространстве. Для реконструкции решения задачи используется модель обратного отображенияв бинарный куб.
- Новизна: Предлагается конструктивно новый подход к решению задачи выбора моделей.
- Авторы: В.В. Стрижов, Tetiana Aksenova, консультант – Роман Исаченко
Задача 42
- Название: Z-learning of linearly-solvable Markov Decision Processes
- Задача: Adapt Z-learning from [1] to the case of Markov Decision Process discussed in [2] in the context of energy systems. Compare it with standard (in reinforcement learning) Q-learning.
- Данные: We consider a Markov Process described via transition probability matrix. Given initial state vector (probability of being in a state at time zero), we generate data for the time evolution of the state vector. See [2] for an exemplary process describing evolution of an ensemble of energy consumers.
- Литература:
- E. Todorov. Linearly-solvable Markov decision problems https://homes.cs.washington.edu/~todorov/papers/TodorovNIPS06.pdf
- Ensemble Control of Cycling Energy Loads: Markov Decision Approach. Michael Chertkov, Vladimir Y. Chernyak, Deepjyoti Deka. https://arxiv.org/abs/1701.04941
- Csaba Szepesvári. Algorithms for Reinforcement Learning. https://sites.ualberta.ca/~szepesva/papers/RLAlgsInMDPs.pdf
- Базовой алгоритм: Principal comparison should be made with Q learning described in [3]
- Решение: We suppose that plugging in algorithm from [1] directly into [2] gives faster and more reliable solution.
- Новизна: In the area of power systems there is a huge demand on fast reinforcement learning algorithms, but there is still a lack of that (in particular the ones respect the physics/underlying graph)
- Авторы: Yury Maximov (consultant, expert), Michael Chertkov (expert)
Задача 1
- Название: Прогнозирование направления движения цены биржевых инструментов по новостному потоку.
- Задача: Построить и исследовать модель прогнозирования направления движения цены. Задано множество новостей S и множество временных меток T, соответствующих времени публикации новостей из S. 2. Временной ряд P, соответствующий значению цены биржевого инструмента, и временной ряд V, соответствующий объему продаж по данному инструменту, за период времени T'. 3. Множество T является подмножеством периода времени T'. 4. Временные отрезки w=[w0, w1], l=[l0, l1], d=[d0, d1], где w0 < w1=l0 < l1=d0 < d1. Требуется спрогнозировать направление движения цены биржевого инструмента в момент времени t=d0 по новостям, вышедшим в период w.
- Данные:
- Финансовые данные: данные о котировках (с интервалом в один тик) нескольких финансовых инструментов (GAZP, SBER, VTBR, LKOH) за 2 квартал 2017 года с сайта Finam.ru; для каждой точки ряда известны дата, время, цена и объем.
- Текстовые данные: экономические новости за 2 квартал 2017 года от компании Форексис; каждая новость является отдельным html файлом.
- Литература:
- Usmanova K.R., Kudiyarov S.P., Martyshkin R.V., Zamkovoy A.A., Strijov V.V. Analysis of relationships between indicators in forecasting cargo transportation // Systems and Means of Informatics, 2018, 28(3).
- Kuznetsov M.P., Motrenko A.P., Kuznetsova M.V., Strijov V.V. Methods for intrinsic plagiarism detection and author diarization // Working Notes of CLEF, 2016, 1609 : 912-919.
- Айсина Роза Мунеровна, Тематическое моделирование финансовых потоков корпоративных клиентов банка по транзакционным данным, выпускная квалификационная работа.
- Lee, Heeyoung, et al. "On the Importance of Text Analysis for Stock Price Prediction." LREC. 2014.
- Базовый алгоритм: Метод, использованный в статье (4).
- Решение: Использование тематического моделирования (ARTM) и локальных аппроксимирующих моделей для перевода последовательности текстов, соответствующих различным временным меткам, в единое признаковое описание. Критерий качества: F1-score, ROC AUC, прибыльность используемой стратегии.
- Новизна: Для обоснования связи временных рядов предлагается метод Сходящегося перекрестного отображения.
- Авторы: Иван Запутляев (консультант), В.В. Стрижов, К.В. Воронцов (эксперты)