Автоматизация научных исследований в машинном обучении (практика, В.В. Стрижов)/Группа 674, весна 2019

Материал из MachineLearning.

Перейти к: навигация, поиск
Видео докладов по курсу на канале Machine Learning на Youtube




Моя первая научная публикация

Участвуют эксперты, индивидуальные консультанты и студенты кафедры Интеллектуальные системы ФУПМ МФТИ.

Роли

Студент третьего курса очень хочет научиться ставить задачи формально, находить нужную литературу, порождать новые и актуальные идеи и решения задач.

Консультант помогает студенту в пользовании инструментами, отвечает на вопросы по специальности, консультирует выполнение работ, оперативно реагирует на проблемы, проверяет (в среду) результаты, ставит оценки. Предполагается, что консультант сам пишет работу-спутник по этой теме. В конце работы могут быть объединены или выполнены и опубликованы параллельно. По возможности, рекомендуется организовать правки текста студента с целью улучшить стиль изложения таким образом, чтобы студент вносил правки самостоятельно. Возможно, при очной встрече или по скайпу.

Эксперт: поставщик задачи, владелец данных, либо тот, кто гарантирует новизну и актуальность работы.

Результаты

Автор Тема научной работы Ссылки Консультант Рецензент
Северилов Павел Задача поиска символов в текстах LinkReview

code paper slides video

Мурат Апишев
Григорьев Алексей Распознавание текста на основе скелетного представления толстых линий и сверточных сетей LinkReview

code, paper, slides video

Илья Жариков рецензия Вареник Наталия
Гришанов Алексей Автоматическая настройка параметров BigARTM под широкий класс задач LinkReview code, paperslides

video

Виктор Булатов рецензия Герасименко Николай
Юсупов Игорь Динамическое выравнивание многомерных временных рядов LinkReview code paper slides video Алексей Гончаров
Вареник Наталия Spherical CNN for QSAR prediction LinkReview, code, paper, slides video Мария Попова рецензия Григорьев Алексей
Безносиков Александр Z-learning of linearly-solvable Markov Decision Processes LinkReview

paper code slides video

Yury Maximov
Панченко Святослав Получение простой выборки на выходе слоя нейронной сети LinkReview,

code, paper, slides

Гадаев Тамаз
Веселова Евгения Deep Learning for reliable detection of tandem repeats in 3D protein structures Code link review paper slides video Guillaume Pages, Sergei Grudinin
Аминов Тимур Предсказание качества для процедуры выбора признаков LinkReview code paper

slides

Роман Исаченко
Маркин Валерий Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга LinkReview

code paper slides video

Роман Исаченко
Абдурахмон Садиев Порождение признаков с помощью локально-аппроксимирующих моделей LinkReview

code, paper, slides video

Анастасия Мотренко
Тагир Саттаров Обучение машинного перевода без параллельных текстов. LinkReview code paper, slides video Олег Бахтеев
Герасименко Николай Тематический поиск схожих дел в коллекции актов арбитражных судов. LinkReview code paper slides video Екатерина Артёмова рецензияГришанов Алексей

Расписание

Дата N Что делаем Результат для обсуждения Буква
Февраль 14 1 Организация работы, расписание, инструменты. Инструменты подготовлены к работе. (Анкета)
21 2 ДЗ-1. Выбор задачи Тема в ML и ссылка на работу в SF помещена напротив фамилии. (Анкета)
28 3 Составить список публикаций по выбранной задаче, найти данные. Написать аннотацию и введение с обзором собранной литературы. Аннотация (600 знаков), введение (1 страница), список литературы в bib-файле. Подготовить доклад 45 сек. Abstract, Introduction, Literature, B*-talk (Анкета)
Март 7 4 Поставить задачу и сделать описание базового алгоритма, подготовить базовый вычислительный эксперимент. Постановка задачи (0.5-1 страница), описание базового алгоритма. Statement (Анкета)
14 5 Поставить базовый вычислительный эксперимент. Провести первичный анализ работы алгоритма. Показ статьи. Базовый код, отчет о работе базового алгоритма (кратко). Basic code, Report, cHeck-1
21 6 Поставить вычислительный эксперимент на основе предлагаемого алгоритма с учетом предыдущих результатов. Код, визуализация полученных результатов, анализ ошибки, анализ качества. Подготовить промежуточный доклад со слайдами, 2-3 минуты. M-talk, Code, Visualization
28 7 Описать алгоритм. Теоретическая и алгоритмическая часть статьи (второй / третий раздел). Theory
Апрель 4 8 Завершение вычислительного эксперимента. Описание эксперимента с анализом ошибок. Error
11 9 Описание теоретической части и вычислительного эксперимента. Описание рисунков, выводы, заключение. Черновой вариант статьи с разделами «Вычислительный экперимент» и «Заключение». Document
18 10 Контрольная точка — показ статьи в целом, рецензия. Статья в варианте для рецензирования. сHeck-2, RevieW
25 11 Подготовка презентации. Доклады и обсуждение. Final show, Slides
Май 16 12 Доработка статьи. Статья подготовлена к подаче в журнал. Journal


Список проектов

Шаблон описания проекта — научной статьи

  • Название: Название, под которым статья подается в журнал.
  • Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
  • Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
  • Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
  • Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
  • Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
  • Авторы: эксперт, консультант.

Задача 17

  • Название: Прогнозирование намерений. Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга
  • Задача: При построении систем нейрокомпьютерного интерфейса (brain-computer interface) используются простые, устойчивые модели. Важным этапом построения такой модели является построение адекватного признакового пространства. Ранее такая задача решалась с помощью выделения признаков из частотных характеристик сигналов.
  • Данные: Наборы данных сигналов мозга ECoG/EEG.
  • Литература:
    1. Motrenko A.P., Strijov V.V. Multi-way feature selection for ECoG-based brain-computer Interface // Expert systems with applications. - 2018.
    2. Eliseyev A., Aksenova T. Stable and artifact-resistant decoding of 3D hand trajectories from ECoG signals using the generalized additive model //Journal of neural engineering. – 2014.
  • Базовый алгоритм: Сравнение предлагается производить с алгоритмом частных наименьших квадратов (partial least squares).
  • Решение: В данном работе предлагается учесть пространственную зависимость между сенсорами, которые считывают данные. Для этого необходимо локально смоделировать пространственный импульс/сигнал и построить прогностическую модель на основе локального описания.
  • Новизна: Предлагается существенно новый способ построения признакового описания в задаче декодирования сигналов. Бонус: анализ изменения структуры модели, адаптация структуры при изменении выборки.
  • Авторы: В.В. Стрижов, Tetiana Aksenova, консультант – Роман Исаченко

Задача 40

  • Название: Предсказание качества для процедуры выбора признаков.
  • Задача: Решение задачи выбора признаков сводится к перебору вершин бинарного куба. Данную процедуру невозможно произвести для выборки с большим числом признаком. Предлагается свести данную задачу к оптимизации в линейном пространстве.
  • Данные: Синтетические данные + простые выборки
  • Литература:
    1. Bertsimas D. et al. Best subset selection via a modern optimization lens //The annals of statistics. – 2016. – Т. 44. – №. 2. – С. 813-852.
    2. Luo R. et al. Neural architecture optimization //Advances in Neural Information Processing Systems. – 2018. – С. 7827-7838.
  • Базовый алгоритм: популярные методы выбора признаков.
  • Решение: В данном работе предлагается построить модель, которая по набору признаков прогнозирует качество на тестовой выборке. Для этого строится отображение бинарного куба в линейное пространство. После этого максимизируется качество модели в линейном пространстве. Для реконструкции решения задачи используется модель обратного отображенияв бинарный куб.
  • Новизна: Предлагается конструктивно новый подход к решению задачи выбора моделей.
  • Авторы: В.В. Стрижов, Tetiana Aksenova, консультант – Роман Исаченко

Задача 42

  • Название: Z-learning of linearly-solvable Markov Decision Processes
  • Задача: Adapt Z-learning from [1] to the case of Markov Decision Process discussed in [2] in the context of energy systems. Compare it with standard (in reinforcement learning) Q-learning.
  • Данные: We consider a Markov Process described via transition probability matrix. Given initial state vector (probability of being in a state at time zero), we generate data for the time evolution of the state vector. See [2] for an exemplary process describing evolution of an ensemble of energy consumers.
  • Литература:
    1. E. Todorov. Linearly-solvable Markov decision problems https://homes.cs.washington.edu/~todorov/papers/TodorovNIPS06.pdf
    2. Ensemble Control of Cycling Energy Loads: Markov Decision Approach. Michael Chertkov, Vladimir Y. Chernyak, Deepjyoti Deka. https://arxiv.org/abs/1701.04941
    3. Csaba Szepesvári. Algorithms for Reinforcement Learning. https://sites.ualberta.ca/~szepesva/papers/RLAlgsInMDPs.pdf
  • Базовой алгоритм: Principal comparison should be made with Q learning described in [3]
  • Решение: We suppose that plugging in algorithm from [1] directly into [2] gives faster and more reliable solution.
  • Новизна: In the area of power systems there is a huge demand on fast reinforcement learning algorithms, but there is still a lack of that (in particular the ones respect the physics/underlying graph)
  • Авторы: Yury Maximov (consultant, expert), Michael Chertkov (expert)

Задача 1

  • Название: Прогнозирование направления движения цены биржевых инструментов по новостному потоку.
  • Задача: Построить и исследовать модель прогнозирования направления движения цены. Задано множество новостей S и множество временных меток T, соответствующих времени публикации новостей из S. 2. Временной ряд P, соответствующий значению цены биржевого инструмента, и временной ряд V, соответствующий объему продаж по данному инструменту, за период времени T'. 3. Множество T является подмножеством периода времени T'. 4. Временные отрезки w=[w0, w1], l=[l0, l1], d=[d0, d1], где w0 < w1=l0 < l1=d0 < d1. Требуется спрогнозировать направление движения цены биржевого инструмента в момент времени t=d0 по новостям, вышедшим в период w.
  • Данные:
    1. Финансовые данные: данные о котировках (с интервалом в один тик) нескольких финансовых инструментов (GAZP, SBER, VTBR, LKOH) за 2 квартал 2017 года с сайта Finam.ru; для каждой точки ряда известны дата, время, цена и объем.
    2. Текстовые данные: экономические новости за 2 квартал 2017 года от компании Форексис; каждая новость является отдельным html файлом.
  • Литература:
    1. Usmanova K.R., Kudiyarov S.P., Martyshkin R.V., Zamkovoy A.A., Strijov V.V. Analysis of relationships between indicators in forecasting cargo transportation // Systems and Means of Informatics, 2018, 28(3).
    2. Kuznetsov M.P., Motrenko A.P., Kuznetsova M.V., Strijov V.V. Methods for intrinsic plagiarism detection and author diarization // Working Notes of CLEF, 2016, 1609 : 912-919.
    3. Айсина Роза Мунеровна, Тематическое моделирование финансовых потоков корпоративных клиентов банка по транзакционным данным, выпускная квалификационная работа.
    4. Lee, Heeyoung, et al. "On the Importance of Text Analysis for Stock Price Prediction." LREC. 2014.
  • Базовый алгоритм: Метод, использованный в статье (4).
  • Решение: Использование тематического моделирования (ARTM) и локальных аппроксимирующих моделей для перевода последовательности текстов, соответствующих различным временным меткам, в единое признаковое описание. Критерий качества: F1-score, ROC AUC, прибыльность используемой стратегии.
  • Новизна: Для обоснования связи временных рядов предлагается метод Сходящегося перекрестного отображения.
  • Авторы: Иван Запутляев (консультант), В.В. Стрижов, К.В. Воронцов (эксперты)

Задача 3

  • Название: Динамическое выравнивание многомерных временных рядов.
  • Задача: Характерным многомерным временным рядом является траектория точки в 3х-мерном пространстве. Две траектории необходимо выравнивать оптимальным образом друг относительно друга. Для этого используется расстояние DTW между двумя временными рядами. В классическом представлении DTW строится между одномерными временными рядами. Необходимо ввести различные модификации алгоритма для работы со временными рядами высокой размерности: траекториями, кортикограммами.
  • Данные: Данные описывают 6 классов временных рядов с акселерометра мобильного телефона. https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015MetricClassification/data/
  • Литература:
    1. Multidimensional DTW: https://pdfs.semanticscholar.org/76d3/5bd5a52453ebde80faaa1467d7effd74426f.pdf
  • Базовый алгоритм: Использование L_p расстояний между двумя измерениями временного ряда, их модификаций.
  • Решение: Исследование расстояний, устойчивых к изменению порядка координат, исследований расстояний неустойчивых к изменению порядка координат. Эксперименты с другими видами расстояний (косинусное, RBF, прочие).
  • Новизна: Нет полного обзора и исследования методов работы с многомерными временными рядами. Не исследована зависимость качества решения от подобранных расстояний между измерениями.
  • Авторы: Алексей Гончаров - консультант, эксперт, В.В. Стрижов - эксперт

Задача 43

  • Название: Получение простой выборки на выходе слоя нейронной сети
  • Задача: Выход нейронной сети это, как правило, обобщённо линейная модель над выходами предпоследнего слоя. Нужно предложить способ тестирования простоты выборки и её соответствия обобщённо-линейной модели (линейная регрессия, логистическая регрессия) при помощи системы статистических критериев.
  • Данные: Для вычислительного эксперимента предлагается использовать классические выборки из UCI репозитория. Ссылка на выборки https://github.com/ttgadaev/SampleSize/tree/master/datasets
  • Литература: http://www.ccas.ru/avtorefe/0016d.pdf c 49-63 Bishop, C. 2006. Pattern Recognition and Machine Learning. Berlin: Springer. 758 p.
  • Базовой алгоритм: Тест Уайта, Критерий Вальда, Тест Голдфелда-Кванта, Дарбина-Ватсона, Хи-квадрат, Жарка-Бера, Шапиро-Уилка
  • Решение: Система тестов проверки простоты выборки (и адекватности модели), независимые переменные неслучайны, зависимые переменные распределены нормально или биномиально, нет пропусков и выбросов, классы сбалансированы, выборка аппроксимируется единой моделью. Дисперсия функции ошибки не зависит от независимой переменной. Исследование проводится по синтетическим и реальным данным.
  • Авторы: Гадаев Т. Т. (консультант) Стрижов В. В., Грабовой А. В. (эксперты)

Задача 9

  • Название: Распознавание текста на основе скелетного представления толстых линий и сверточных сетей
  • Задача: Требуется построить две CNN, одна распознает растровое представление изображения, другая векторное.
  • Данные: Шрифты в растровом представлении.
  • Литература: Список работ [1], в частности arXiv:1611.03199 и
    • Goyal P., Ferrara E. Graph embedding techniques, applications, and performance: A survey. arXiv:1705.02801, 2017.
    • Cai H., Zheng V.W., Chang K.C.-C. A comprehensive survey of graph embedding: Problems, techniques and applications. arXiv:1709.07604, 2017.
    • Grover A., Leskovec J. node2vec: Scalable Feature Learning for Networks. arXiv:1607.00653, 2016.
    • Mestetskiy L., Semenov A. Binary Image Skeleton - Continuous Approach // Proceedings 3rd International Conference on Computer Vision Theory and Applications, VISAPP 2008. P. 251-258. URL
    • Кушнир О.А., Середин О.С., Степанов А.В. Экспериментальное исследование параметров регуляризации и аппроксимации скелетных графов бинарных изображений // Машинное обучение и анализ данных. 2014. Т. 1. № 7. С. 817-827. URL
    • Жукова К.В., Рейер И.А. Связность базового скелета и параметрический дескриптор формы // Машинное обучение и анализ данных. 2014. Т. 1. № 10. С. 1354-1368. URL
    • Kushnir O., Seredin O. Shape Matching Based on Skeletonization and Alignment of Primitive Chains // Communications in Computer and Information Science. 2015. V. 542. P. 123-136. URL
  • Базовый алгоритм: Сверточная сеть для растрового изображения.
  • Решение: Требуется предложить способ свертывания графовых структур, позволяющий породить информативное описание скелета толстой линии.
  • Новизна: Предложен способ повышения качества распознавания толстых линий за счет нового способа порождения их описаний.
  • Авторы: Илья Жариков (эксперты Л.М. Местецкий, И.А. Рейер, В.В. Стрижов)

Задача 14

  • Название: Deep Learning for reliable detection of tandem repeats in 3D protein structures подробнее в PDF
  • Задача: Deep learning algorithms pushed computer vision to a level of accuracy comparable or higher than a human vision. Similarly, we believe that it is possible to recognize the symmetry of a 3D object with a very high reliability, when the object is represented as a density map. The optimization problem includes i) multiclass classification of 3D data. The output is the order of symmetry. The number of classes is ~10-20 ii) multioutput regression of 3D data. The output is the symmetry axis (a 3-vector). The input data are typically 24x24x24 meshes. The total amount of these meshes is of order a million. Biological motivation : Symmetry is an important feature of protein tertiary and quaternary structures that has been associated with protein folding, function, evolution, and stability. Its emergence and ensuing prevalence has been attributed to gene duplications, fusion events, and subsequent evolutionary drift in sequence. Methods to detect these symmetries exist, either based on the structure or the sequence of the proteins, however, we believe that they can be vastly improved.
  • Данные: Synthetic data are obtained by ‘symmetrizing’ folds from top8000 library (http://kinemage.biochem.duke.edu/databases/top8000.php).
  • Литература: Our previous 3D CNN: [2] Invariance of CNNs (and references therein): [3], [4]
  • Базовый алгоритм: A prototype has already been created using the Tensorflow framework [4], which is capable to detect the order of cyclic structures with about 93% accuracy. The main goal of this internship is to optimize the topology of the current neural network prototype and make it rotational and translational invariant with respect to input data. [4] [5]
  • Решение: The network architecture needs to be modified according to the invariance properties (most importantly, rotational invariance). Please see the links below [6], [7] The code is written using the Tensorflow library, and the current model is trained on a single GPU (Nvidia Quadro 4000)of a desktop machine.
  • Новизна: Applications of convolutional networks to 3D data are still very challenging due to large amount of data and specific requirements to the network architecture. More specifically, the models need to be rotationally and transnationally invariant, which makes classical 2D augmentation tricks loosely applicable here. Thus, new models need to be developed for 3D data.
  • Авторы: эксперт Sergei Grudinin, консультанты Guillaume Pages

Задача 8

  • Название: Порождение признаков с помощью локально-аппроксимирующих моделей (Классификация видов деятельности человека по измерениям фитнес-браслетов).
  • Задача: Требуется проверить выполнимость гипотезы о простоте выборки для порожденных признаков. Признаки - оптимальные параметры аппроксимирующих моделей. При этом вся выборка не является простой и требует смеси моделей для ее аппроксимации. Исследовать информативность порожденных признаков - параметров аппроксимирующих моделей, обученных на сегментах исходного временного ряда. По измерениям акселерометра и гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. Характерная продолжительность движения – секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности – минуты. Требуется по описанию временного ряда и кластера восстановить вид деятельности.
  • Данные: Временные ряды акселерометра WISDM (Временной ряд (библиотека примеров), раздел Accelerometry).
    • WISDM (Kwapisz, J.R., G.M. Weiss, and S.A. Moore. 2011. Activity recognition using cell phone accelerometers. ACM SigKDD Explorations Newsletter. 12(2):74–82.), USC-HAD или сложнее. Данные акселерометра (Human activity recognition using smart phone embedded sensors: A Linear Dynamical Systems method, W Wang, H Liu, L Yu, F Sun - Neural Networks (IJCNN), 2014)
  • Литература:
    • Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. URL
    • Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016.URL
    • Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. URL
    • Исаченко Р.В., Стрижов В.В. Метрическое обучение в задачах многоклассовой классификации временных рядов // Информатика и ее применения, 2016, 10(2) : 48-57. URL
    • Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. URL
    • Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. URL
  • Базовый алгоритм: Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] и [Кузнецов, Ивкин: 2014].
  • Решение: Требуется построить набор локально-аппроксимирующих моделей и выбрать наиболее адекватные. Найти оптимальный способ сегментации и оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
  • Новизна: Создан стандарт построения локально-аппроксимирующих моделей. Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.
  • Авторы: А.П. Мотренко (консультант), В.В. Стрижов (эксперт) Олег Терехов, Александра Гальцева (команда)

Задача 46

  • Название: Задача поиска символов в текстах
  • Задача: В простейшем случае эта задача сводится к задаче Sequence Labeling на размеченной выборке. Сложность заключается в получении достаточного объёма обучающих данных, то есть требуется по имеющейся небольшой экспертной разметке получить выборку большего размера (автоматически путём поиска закономерностей или же путём составления несложной и качественной инструкции для разметки, например, в Толоке). Наличие разметки позволяет начать эксперименты с подбором оптимальной модели, здесь могут быть интересны разнообразные нейросетевые архитектуры (BiLSTM, Transformer и т.п.).
  • Данные: Словарь символов
, Размеченные художественные тексты

  • Литература: http://www.machinelearning.ru/wiki/images/0/05/Mmta18-rnn.pdf
  • Базовый алгоритм: HMM, RNN
  • Решение: Предлагается сравнить работы нескольких state-of-the-art алгоритмов. Предложить метрику качества классификатора для символов (символ/не символ). Определить применимость методов.
  • Новизна: Предлагаемый подход к анализу текста используется экспертами в ручном режиме и не был автоматизирован
  • Авторы: М. Апишев (консультант), Д. Лемтюжникова

Задача 12

  • Название: Обучение машинного перевода без параллельных текстов.
  • Задача: Рассматривается задача построения модели перевода текста без использования параллельных текстов, т.е. пар одинаковых предложений на разных языках. Данная задача возникает при построении моделей перевода для низкоресурсных языков (т.е. языков, для которых данных в открытом доступе немного).
  • Данные: Выборка статей из Wikipedia на двух языках.
  • Литература:
    • [8] Unsupervised Machine Translation Using Monolingual Corpora Only
    • [9] Sequence to sequence.
    • [10] Autoencoding.
    • [11] Training with Monolingual Training Data.
  • Базовый алгоритм: Unsupervised Machine Translation Using Monolingual Corpora Only.
  • Решение: В качестве модели перевода предлагается рассмотреть кобминацию двух автокодировщиков, каждый из которых отвечает за представление предложений на одном из языков. Оптимизация моделей проводится таким образом, чтобы скрытые пространства автокодировщиков для разных языков совпадали. В качестве исходного представления предложений предлагается рассматривать их графовое описание, получаемое с использованием мультиязычных онтологий.
  • Новизна: Предложен способ построения модели перевода с учетом графовых описаний предложений.
  • Авторы: О.Ю. Бахтеев, В.В. Стрижов, Eric Gaussier

Задача 47

  • Название: Deep learning for RNA secondary structure prediction
  • Задача: RNA secondary structure is an important feature which defines RNA functional properties. Its importance can be illustrated by the fact, that it is evolutionary preserved and some types of functional RNAs always * have the same secondary structure, for example all tRNAs fold into cloverleaf. As secondary structure often defines functions, knowing RNAs secondary structure may help investigate functions of novel RNA molecules. RNA folding is not as easy as DNA folding, because RNA is single stranded molecule which forms complicated base-pairing interactions, while DNA mostly exists as fully base paired double helices. Current methods of RNA structure prediction rely on experimentally evaluated thermodynamic rules, but with thermodynamics alone only 80% of structures can be accurately predicted. We propose an AI-driven method for predicting RNA secondary structure inspired by neural machine translation model.
  • Данные: RNA sequences in form of strings of characters
  • Литература: https://arxiv.org/abs/1609.08144
  • Базовой алгоритм: https://www.ncbi.nlm.nih.gov/pubmed/16873527
  • Решение: Deep learning recurrent encoder-decoder model with attention
  • Новизна: Currently RNA secondary structure prediction still remains unsolved problem and to the best of our knowledge DL approach has never been introduced in the literature before
  • Авторы: консультант Мария Попова Chapel-Hill

Задача 4

  • Название: Автоматическая настройка параметров АРТМ под широкий класс задач.
  • Задача: Открытая библиотека bigARTM позволяет строить тематические модели, используя широкий класс возможных регуляризаторов. Однако такая гибкость приводит к тому, что задача настройки коэффициентов оказывается очень сложной. Эту настройку можно значительно упростить, используя механизм относительных коэффициентов регуляризации и автоматический выбор N-грамм. Нужно проверить гипотезу о том, что существует универсальный набор относительных коэффициентов регуляризации, дающий "достаточно хорошие" результаты на широком классе задач. Дано несколько датасетов с каким-то внешним критерием качества (например, классификация документов по категориям или ранжирование). Находим лучшие параметры для конкретного датасета, дающие "локально лучшую модель". Находим алгоритм инициализации bigARTM, производящий тематические модели с качеством, сравнимым с "локально лучшей моделью" на её датасете. Критерий сравнимости по качеству: на данном датасете качество "универсальной модели" не более чем на 5% хуже, чем у "локально лучшей модели".
  • Данные: Victorian Era Authorship Attribution Data Set, 20 Newsgroups, МКБ-10, триплеты для поиска/ранжирования.
  • Литература:
    1. ВКР Никиты Дойкова: http://www.machinelearning.ru/wiki/images/9/9f/2015_417_DoykovNV.pdf
    2. Презентация Виктора Булатова на научном семинаре: https://drive.google.com/file/d/19pJ21LRPeeOxY4mkcSnQCRm93zOO4J5b/view
    3. Черновик с формулами: https://drive.google.com/open?id=1AqS7snUsSJ18ZYBtC-6uP_2dMTDJSGeD
  • Базовый алгоритм: PLSA / LDA / логрегрессия.
  • Решение: bigARTM с фоновыми темами и регуляризаторами сглаживания, разреживания и декорреляции (коэффициенты подобраны автоматически), а также с автоматически выделенными N-граммами.
  • Новизна: Потребность в автоматизированной настройке параметров модели и отсутствие подобных реализаций в научном сообществе.
  • Авторы: консультант Виктор Булатов, эксперт К.В.Воронцов.

Задача 50

  • Название: Тематический поиск схожих дел в коллекции актов арбитражных судов.
  • Задача: Построить алгоритм информационного поиска по коллекции актов арбитражных судов. Запросом может быть произвольный документ коллекции (текст акта). Результатом поиска должен быть список документов коллекции, ранжированный по убыванию релевантности.
  • Данные: коллекция текстовых документов — актов арбитражных судов http://kad.arbitr.ru.
  • Литература:
    1. Анастасия Янина. Тематический разведочный информационный поиск. 2018. ФИВТ МФТИ.
    2. Ianina A., Golitsyn L., Vorontsov K. Multi-objective topic modeling for exploratory search in tech news. AINL-2017. CCIS, Springer, 2018.
    3. Ahmed El-Kishky, Yanglei Song, Chi Wang, Clare Voss, Jiawei Han. Scalable Topical Phrase Mining from Text Corpora. 2015.
  • Базовый алгоритм: BigARTM с регуляризаторами декоррелирования, сглаживания, разреживания. Поиск по TF-IDF слов, по TF-IDF ссылок НПА, по тематическим векторным представлениям документов, с использованием косинусной меры близости. Алгоритм TopMine для выделения коллокаций.
  • Решение: Добавить модальность ссылок на нормативно-правовые акты. Добавить модальность юридических терминов. Подобрать оптимальное число тем и стратегию регуляризации. Организовать процесс разметки пар документов. Реализовать оценивание качества поиска по размеченной выборке пар документов.
  • Новизна: Первая попытка применения АРТМ для тематического поиска по юридическим текстам.
  • Авторы: консультант Екатерина Артёмова, эксперт К.В.Воронцов.
Личные инструменты