Участник:Anastasiya/Черновики
Материал из MachineLearning.
м (→Задача 13) |
м (→Задача 16) |
||
(2 промежуточные версии не показаны) | |||
Строка 205: | Строка 205: | ||
=== Задача 14 === | === Задача 14 === | ||
+ | * '''Название''': Внутритекстовая когерентность как мера интерпретируемости тематических моделей текстовых коллекций. | ||
+ | * '''Задача''': Интерпретируемость – это субъективная характеристика качества тематических моделей, измеряемая с помощью экспертных оценок. Когерентность – это мера совстречаемости тематических слов, вычислимая по тексту автоматически и хорошо коррелирующая с интерпретируемостью, как показано в серии публикаций Ньюмана и Мимно. Первая задача – оценить репрезентативность последовательности слов текста, по которым оценивается когерентность. Вторая задача – сравнить несколько новых методов измерения интерпретируемости и когерентности, основанных на выделении наиболее репрезентативной последовательности слов в исходном тексте. | ||
+ | * '''Данные''': Коллекция научно-популярного контента ПостНаука, коллекция новостного контента. | ||
+ | * '''Литература''': | ||
+ | Воронцов К.В. Тематическое моделирование в BigARTM: теория, алгоритмы, приложения, 2015. | ||
+ | N.Aletras, M.Stevenson. Evaluating Topic Coherence Using Distributional Semantics, 2013. | ||
+ | D.Newman et al. Automatic evaluation of topic coherence, 2010 | ||
+ | D.Mimno et al. Optimizing semantic coherence in topic models, 2011 | ||
+ | http://palmetto.aksw.org/palmetto-webapp/ | ||
+ | * '''Базовой алгоритм''': Стандартные методы оценивания интерпретируемости и когерентности тем в тематических моделях. | ||
+ | * '''Решение''': Новый метод измерения интерпретируемости и когерентности, эксперименты по поиску максимально коррелирующих мер интерпретируемости и когерентности, аналогичные [D.Newman, 2010]. | ||
+ | * '''Новизна''': внутритекстовые меры интерпретируемости и когерентности ранее не предлагались. | ||
+ | * '''Авторы''': К.В.Воронцов. Консультанты: Анна Потапенко, Артём Попов, Илья Карпов. | ||
=== Задача 15 === | === Задача 15 === | ||
+ | * '''Название''': Агрегирование гетерогенных текстовых коллекций в иерархической тематической модели русскоязычного научно-популярного контента. | ||
+ | * '''Задача''': Реализовать и сравнить несколько способов объединения текстовых коллекций из различных источников в одну иерархическую тематическую модель. Построить классификатор, определяющий наличие темы в источнике. | ||
+ | * '''Данные''': Коллекция научно-популярного контента ПостНаука, коллекция Википедии. | ||
+ | * '''Литература''': | ||
+ | Воронцов К.В. Тематическое моделирование в BigARTM: теория, алгоритмы, приложения, 2015. | ||
+ | Чиркова Н. А, Воронцов К. В. Аддитивная регуляризация мультимодальных иерархических тематических моделей [http://jmlda.org/papers/doc/2016/no2/Chirkova2016hARTM.pdf] // Машинное обучение и анализ данных, 2016. T. 2. № 2. | ||
+ | * '''Базовой алгоритм''': Алгоритм построения тематической иерархии в BigARTM, реализованный Надеждой Чирковой. Инструмент для разметки | ||
+ | * '''Решение''': Построить тематическую модель с модальностями источников и выделить темы, характерные только для одного из источников. Подготовить выборку для обучения классификатора, определяющего наличие темы в источнике. | ||
+ | * '''Новизна''': Аддитивная регуляризация тематических моделей к данной задаче ранее не применялась. | ||
+ | * '''Авторы''': К.В.Воронцов. Консультанты: Александр Романенко, Ирина Ефимова, Надежда Чиркова. | ||
=== Задача 16 === | === Задача 16 === | ||
+ | * '''Название''': Применение методов символьной динамики в технологии информационного анализа электрокардиосигналов. | ||
+ | * '''Задача''': Технология информационного анализа электрокардиосигналов, предложенная В.М.Успенским, предполагает преобразование сырого сигнала в символьную последовательность и поиск паттернов заболеваний в даннйо последовательности. До сих пор для поиска паттернов использовались преимущественно символьные n-граммы. В рамках данной работы предлагается расширить класс шаблонов, в котором производится поиск диагностических признаков заболеваний. Критерий качества -- AUC и MAP ранжирования диагнозов. | ||
+ | * '''Данные''': Выборка электрокардиограмм с известными диагнозами. | ||
+ | * '''Литература''': | ||
+ | Успенский В.М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов.- М.:«Экономика и информация», 2008. - 116с | ||
+ | [http://www.MachineLearning.ru/wiki?title=Технология_информационного_анализа_электрокардиосигналов] | ||
+ | * '''Базовой алгоритм''': Методы классификации . | ||
+ | * '''Решение''': Поиск логических закономерностей в символьных строках, методы символьной динамики, сравнение алгоритмов по критериям качества AUC и MAP (ранжирования диагнозов). | ||
+ | * '''Новизна''': До сих пор для поиска паттернов использовались преимущественно символьные n-граммы. | ||
+ | * '''Авторы''': К.В.Воронцов. Консультанты: Влада Целых. | ||
== Дополнительные задачи == | == Дополнительные задачи == |
Текущая версия
Содержание |
Список проектов
Шаблон описания проекта — научной статьи
- Название: Название, под которым статья подается в журнал.
- Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
- Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
- Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
- Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
- Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
- Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
- Авторы: эксперт, консультант.
Задача 1
- Название: Классификация видов деятельности человека по измерениям фитнес-браслетов.
- Задача: По измерениям акселерометра и гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. Характерная продолжительность движения – секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности – минуты. Требуется по описанию временного ряда и кластера восстановить вид деятельности.
- Данные: Временные ряды акселерометра WISDM (Временной ряд (библиотека примеров), раздел Accelerometry).
- Литература:
- Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016. [URL]
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [URL]
- Исаченко Р.В., Стрижов В.В. Метрическое обучение в задачах многоклассовой классификации временных рядов // Информатика и ее применения, 2016, 10(2) : 48-57. [URL]
- Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. [URL]
- Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. [URL]
- Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. [URL]
- Базовой алгоритм: Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] и [Кузнецов, Ивкин: 2014].
- Решение: Найти оптимальный способ сегментации и оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
- Новизна:: Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.
- Авторы: В.В. Стрижов, М.П. Кузнецов, П.В. Левдик.
Задача 2
- Название: Построение аппроксимирующего описания скалограммы в задаче прогнозирования движений по электрокортикограмме.
- Задача: В рамках решения задачи декодирования сигналов ECoG решается задача классификации движений по временным рядам показаний электродов. Инструментами для извлечения признаков из временных рядов ECoG являются коэффициенты вейвлет-преобразования исследуемого сигнала [Макарчук 2016], на основе которых для каждого электрода строится скалограмма - двумерный массив признаков в пространстве частота-время. Объединение скалограмм для каждого электрода даёт признаки временного ряда в пространственно-частотно-временной области. Построенное таким образом признаковое описание заведомо содержит мультикоррелирующие признаки и является избыточным. Требуется предложить метод снижения размерности признакового пространства.
- Данные: Измерения положений пальцев при совершении простых жестов. Описание экспериментов данные.
- Литература:
- Макарчук Г.И., Задаянчук А.И. Стрижов В.В. 2016. Использование метода частичных наименьших квадратов для декодирования движения руки с помощью ECoG сигналов у обезьян. pdf
- Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016. [URL]
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483.
- Базовой алгоритм: PLS
Chen C, Shin D, Watanabe H, Nakanishi Y, Kambara H, et al. (2013) Prediction of Hand Trajectory from Electrocorticography Signals in Primary Motor Cortex. PLoS ONE 8(12): e83534.
- Решение: Для снижения размерности предлагается использовать метод локальной аппроксимации, предложенный в [Кузнецов 2015] использованный для классификации акселерометрических временных рядов [Карасиков 2016].
- Новизна: Предложен новый метод восстановления движений на основе электрокортикограмм.
- Авторы: Стрижов.
Задача 2.5
- Название: Выбор признаков в задаче распознавания активности областей головного мозга.
- Задача: Решается задача восстановления координат конечности испытуемого на основе измерений активности головного мозга. Каждому обхъекты выборки, описываемому трехиндексной матрцей пространственных, временных и частотных признаков, требуется сопоставить 3D координаты конечности испытуемого.
- Данные: Описание эксперимента и ссылка на данные
- Литература:
- Andrey Eliseyev and Tetiana Aksenova. Penalized multi-way partial least squares for smooth trajectory decoding from lectrocorticographic (ecog). PLoS ONE, 11(5):e0154878, 2016.
- Andrey Eliseyev, Cecile Moro, Thomas Costecalde, Napoleon Torres, Sadok Gharbi, Corinne Mestais, Alim Louis Benabid, and Tatiana Aksenova. Iterative n-way partial least squares for a binary self-paced brain-computer interface in freely moving animals. J. Neural EngJournal of Neural Engineering, 8, 2011.
- Aleksandr Katrutsa and Vadim Strijov. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria. Expert Systems with Applications, 2017.
- Базовой алгоритм: NPLS или другие модификации [Eliseyev 2016, Eliseev 2011]
- Решение: Предлагается сравнить базовые методы с методом [Katrutsa 2017]
- Новизна: Алгоритм выбора признаков [Katrutsa 2017] был предложен для двухиндексных данных и при использовании тензорных (многоиндексных) признаковых описаний требует модификации.
- Авторы: эксперт, консультант.
Задача 3
- Название: Multiple Manifold Learning (Joint diagonalization for 3D shapes - AJD on Hessian matrices).
- Задача: Построение оптимального алгоритма для задачи Multiple Manifold Learining. Пространство движений эластичного тела задается собственными векторами гессиана. Требуется найти общее low-rank приближение пространства движений двух эластичных тел.
- Данные: Белковые структуры в двойных конформациях из PDB, около 100 наборов из статьи https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4677049/
- Литература:
- Tirion, M. M. (1996). Large amplitude elastic motions in proteins from a single-parameter, atomic analysis. Physical Review Letters, 77(9), 1905.
- Moal, I. H., & Bates, P. A. (2010). {SwarmDock} and the Use of Normal Modes in Protein-Protein Docking. IJMS, 11(10), 3623–3648. https://doi.org/10.3390/ijms11103623
- Базовой алгоритм: AJD algorithm: http://perso.telecom-paristech.fr/~cardoso/jointdiag.html, AJD algorithms implemented as part of Shogun ML toolbox http://shogun-toolbox.org, http://shogun-toolbox.org/api/latest/classshogun_1_1CApproxJointDiagonalizer.html.
- Решение: Вычисление гессианов (C++ код у Сергея), изучение и запуск стандартных алгоритмов совместной диагонализации для первых n нетривиальных собственных векторов, анализ функций потерь, адаптирование стандартного алгоритма для решения исходной задачи.
- Новизна: При помощи простых моделей теории эластичности с одним или несколькими свободными параметрами можно описать тепловые флуктуации в белках. Однако такие модели не описывают переходы между несколькими стабильными конформациями в белках. Целью данной работы является доработка эластичной модели так, чтобы она также описывала пространство конформационных изменений.
- Авторы: Грудинин Сергей, консультант: Карасиков Михаил.
Задача 4
- Название: Convex relaxations for multiple structure alignment (synchronization problem for SO(3)).
- Задача: Найти преобразования для одновременного выравнивания третичных структур белков. Оптимизационная задача с исходной полиномиальной функцией потерь невыпукла. Если структуры одинаковые (RMSD после выравнивания равно нулю), то выравнивать можно попарно. Однако, если это не так, то базовый алгоритм, вообще говоря, не находит оптимум исходной задачи.
- Данные: Структуры белков в PDB формате в различных состояниях и системах координат.
- Литература:
- Multiple structural alignment:
- Kearsley.S.K. (1990)7. Comput. Chem., 11, 1187-1192.
- Shapiro., BothaJ.D., PastorA and Lesk.A.M. (1992) Acta Crystallogr., A48, 11-14.
- Diamond,R. (1992) Protein Sci., 1, 1279-1287.
- May AC, Johnson MS, Improved genetic algorithm-based protein structure comparisons: pairwise and multiple superpositions. Protein Eng. 1995 Sep;8(9):873-82.
- Synchronisation problem:
- O. Özyeşil, N. Sharon, A. Singer, ``Synchronization over Cartan motion groups via contraction”, Available at arXiv.
- L. Wang, A. Singer, ``Exact and Stable Recovery of Rotations for Robust Synchronization”, Information and Inference: A Journal of the IMA, 2(2), pp. 145--193 (2013).
- Semidefinite relaxations for optimization problems over rotation matrices J Saunderson, PA Parrilo… - Decision and Control ( …, 2014 - ieeexplore.ieee.org
- Spectral synchronization of multiple views in SE (3) F Arrigoni, B Rossi, A Fusiello - SIAM Journal on Imaging Sciences, 2016 - SIAM
- Robust Rotation Synchronization via Low-rank and Sparse Matrix Decomposition, F Arrigoni, A Fusiello, B Rossi, P Fragneto - arXiv preprint arXiv: …, 2015 - arxiv.org
- Spectral relaxation for SO(2)
- A. Singer, Angular synchronization by eigenvectors and semidefinite programming, Applied and Computational Harmonic Analysis 30 (1) (2011) 20 – 36.
- Spectral relaxation for SO(3)
- M.Arie-Nachimson,S.Z.Kovalsky,I.Kemelmacher-Shlizerman,A.Singer,R.Basri,Global motion estimation from point matches, in: International Conference on 3D Imaging, Modeling, Processing, Visualization and Transmission, 2012, pp. 81–88.
- A. Singer, Y. Shkolnisky, Three-dimensional structure determination from common lines in cryo-em by eigenvectors and semidefinite programming, SIAM Journal on Imaging Sciences 4 (2) (2011) 543– 572.
- Multiple structural alignment:
- Базовой алгоритм: Алгоритм локального (попарного) выравнивания. Kearsley.S.K. (1989) Acta Crystallogr., A45, 208-210 ; Rapid determination of RMSDs corresponding to macromolecular rigid body motions
Petr Popov, Sergei Grudinin, Journal of Computational Chemistry, Wiley, 2014, 35 (12), pp.950-956. <10.1002/jcc.23569> DOI : 10.1002/jcc.23569
- Решение: Два варианта постановки оптимизационных задач (через матрицы поворота и через кватернионы). Релаксация полученных задач выпуклыми, сравнение решений задачи базовым алгоритмом и релаксациями (spectral relaxation, SDP).
- Новизна: Метод, выравнивающий структуры, минимизируя функцию потерь, учитывающую все попарные потери.
- Авторы: Грудинин Сергей, консультант: Карасиков Михаил.
Задача 5
- Название: Локальная аппроксимация временных рядов для построения признакового описания в задачах классификации и прогнозирования.
- Задача: Целью проекта является создание инструмента для анализа этой проблемы. Исследуется сегмент временного ряда. Требуется спрогнозировать класс сегмента. (Вариант: спрогнозировать окончание сегмента, последующий сегмент, его класс. При этом класс последующего сегмента может отличаться от класса предыдущего).
- Данные: Взять за основу выборку Santa Fe или WISDM (выборки состоят из сегментов со многими элементарными движениями и соответствующими сегментам метками классов), вариант OPPORTUNITY Activity Recognition Challenge.
- Литература:
- Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016. [URL]
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [URL]
- Базовой алгоритм: [Карасиков 2016]
- Решение: См. описание задачи.
- Новизна: При создании метапрогностических моделей (моделей прогнозирования прогностических моделей) остается открытой проблема использования значений параметров локальных моделей при создании метамоделей. Цель нижеприведенного проекта - создание инструмента для анализа этой проблемы.
- Авторы: Стрижов
Задача 6
- Название: Выбор оптимальной модели рекуррентной сети в задачах поиска парафраза
- Задача: Задана выборка пар предложений с метками <<похожие>> и <<непохожие>>. Требуется построить рекуррентную сеть небольшой сложности (т.е. с небольшим количеством параметров), доставляющую минимум ошибке классификации пар предложений.
- Данные: Предлагается рассмотреть две выборки: Microsoft Paraphrase Corpus (небольшой набор предложений) и PPDB (набор коротких сегментов, не всегда корректная разметка)
- Литература:
- [1] Пошаговое описание реализации рекуррентной сети LSTM
- [2] Алгоритм прореживания, основанный на построении сети, обладающей минимальной длиной описания
- [3] Optimal Brain Damage
- Базовый алгоритм: В качестве базового алгоритма могут выступать:
- Решение без прореживания
- Решение, описанное в [3]
- Otimal Brain Damage
- Решение: Предлагается рассмотреть метод прореживания, описанный в [3] с блочной матрицей ковариаций: в качестве блоков выступают либо нейроны, либо параметры с группировкой по входным признакам.
- Новизна: Предложенный метод позволит эффективно снижать сложность рекуррентной сети с учетом взаимосвязи между нейронами или входными признаками.
- Авторы: Олег Бахтеев, консультант
Задача 7
- Название: Детектирование внутреннего плагиата
- Задача: Решается задача выявления внутренних заимствований в тексте. Требуется проверить гипотезу о том, что заданный текст написан единственным автором, и в случае ее невыполнения выделить заимствованные части текста. Заимствованием считается часть текста, предположительно написанная другим автором и содержащая характерные отличия от стиля основного автора. Требуется разработать такую стилевую функцию, которая позволяет с высокой степенью достоверности отличить стиль основного автора текста от заимствований.
- Данные: Предлагается рассмотреть корпус PAN-2011, PAN-2016
- Литература:
- Базовый алгоритм: В качестве базового алгоритма может выступать решение, описанное в [4].
- Решение: Предлагается рассмотреть метод, описанный в [2] и строить стилевую функцию, основываясь на выходах нейронной сети.
- Новизна: Предполагается, что построение стилевой функции предлагаемым методом может дать прирост качества по сравнению с типичными решениями этой задачи.
- Авторы: Рита Кузнецова, консультант
Задача 8
- Название: Адаптивные релаксации NP трудных задач через машинное обучение
- Задача: Современные задачи оптимизации потоков мощности в энергетических сетях приводят к невыпуклым задачам оптимизации с большим количеством ограничений. Аналогичные по структуре постановки возникают также в ряде других инженерных задач и в классических задачах комбинаторной оптимизации. Традиционный подход к решению подобных NP трудных задач состоит в написании их выпуклых релаксаций (semidefinite/SDP, second order conic/SOCP, etc), имеющих как правило существенно большее множество допустимых решений, чем в исходной задаче. И последующей проекцией полученного решения в область, где выполнены ограничения исходной задачи. Во многих практических случаях, качество полученного таким образом решения невелико. Альтернативные подходы, например MILP (mixed integer linear programming) релаксации, существенно более трудоемки по времени, но приводят к более точно у ответу.
Основная проблема состоит в невозможности применения известных методов для решения задач большой размерности (сети из 1000 узлов и более). Одним из ключевых препятствий является не столько размерность задачи, сколько большое число ограничений. Вместе с тем, в реальных задачах можно выделить небольшое множество ограничений такое, что множества допустимых точек в выделенном множестве и в исходном весьма близки. Это позволит заменить задачу на иную, с меньшим числом ограничений, что повысит скорость используемых алгоритмов. Предлагается использовать методы машинного обучения для построения указанного множества наиболее важных ограничений.
- Литература: Методы семплинга/машинного обучения:
- Beygelzimer, A., Dasgupta, S., & Langford, J. (2009, June). Importance weighted active learning. In Proceedings of the 26th annual international conference on machine learning (pp. 49-56). ACM.
- Tong, S., & Koller, D. (2001). Support vector machine active learning with applications to text classification. Journal of machine learning research, 2(Nov), 45-66.
- Owen, A., & Zhou, Y. (2000). Safe and effective importance sampling. Journal of the American Statistical Association, 95(449), 135-143.
Релаксации: Nagarajan, H., Lu, M., Yamangil, E., & Bent, R. (2016). Tightening McCormick Relaxations for Nonlinear Programs via Dynamic Multivariate Partitioning. arXiv preprint arXiv:1606.05806.
- Данные: данные ieee + matpower содержащие описания энергетических сетей и режимов их функционирования.
- Новизна: указанный подход, по видимому, является первым применением методов прикладной статистики/машинного обучения для решения трудных оптимизационных задач. Мы ожидаем существенный выигрыш в трудоемки стиль методов
- Автор: консультант: Юрий Максимов, эксперт: Михаил Чертков
Задача 9
- Название: Оптимальный алгоритм для восстановления динамических моделей.
- Задача: Стандартная постановка задач машинного обучения в контексте обучения без учителя (unsupervised learning) предполагает, что примеры (samples) независимы и получены из одного распределения вероятности. Однако зачастую наблюдаемые данные имеют динамическое происхождение и являются коррелироваными. Задача состоит в разработке эффективного метода для восстановления динамической графической модели (графа и параметров модели) по наблюдаемым коррелированным динамическим конфигурациям. Эта задача важна с теоретической точки зрения и имеет массу приложений. Основой алгоритма будет служить адаптация нового оптимального метода экранирования взаимодействий (interaction screening), разработанного для модели Изинга. Процесс решения будет сочетать в себе знакомство с теоретическими методами компьютерных наук / машинного обучения и численные эксперименты.
- Данные: Симулированные динамические конфигурации спинов в кинетической модели Изинга.
- Литература:
- Lokhov et al., "Optimal structure and parameter learning of Ising models", arXiv:1612.05024 (2016) {https://arxiv.org/abs/1612.05024}
- Vuffray et al., "Interaction screening: efficient and sample-optimal learning of Ising models", NIPS 2016 {https://arxiv.org/abs/1605.07252}
- Decelle and Zhang, "Inference of the sparse kinetic Ising model using the decimation method", Phys. Rev. E 2016 {https://arxiv.org/abs/1502.01660}
- Bresler et al., "Learning graphical models from the Glauber dynamics", Allerton 2014 {https://arxiv.org/abs/1410.7659}
- Zeng et al., "Maximum likelihood reconstruction for Ising models with asynchronous updates", Phys. Rev. Lett. 2013 {https://arxiv.org/abs/1209.2401}
- Базовой алгоритм: Динамический метод экранирования взаимодействий. Сравнение с методом максимального правдоподобия.
- Новизна: В настоящее время оптимальный (т.е. использующий минимальное возможное количество примеров) алгоритм для данной задачи неизвестен. Динамический метод экранирования взаимодействия имеет хорошие шансы окончательно "закрыть" эту задачу, т.к. является оптимальным для статической задачи.
- Автор: Консультанты Андрей Лохов, Юрий Максимов. Эксперт Михаил Чертков
Задача 10
- Название: Выбор интерпретируемых мультимоделей в задачах кредитного скоринга
- Задача: Задача кредитного скоринга заключается в определении уровня кредитоспособности заемщика. Для этого используется анкета заемщика, содержащая как числовые (возраст, доход), так и категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли заемщик кредит. Данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), и для адекватной классификации потребуется несколько моделей. Необходимо определить оптимальное число моделей. По набору параметров моделей необходимо составить портрет заемщика.
- Данные: Предлагается рассмотреть пять выборок из репозиториев UCI и Kaggle, мощностью от 50000 объектов.
- Литература: Диссертация А.А. Адуенко \MLAlgorithms\PhDThesis; С. Bishop, Pattern recognition and machine learning, последняя глава; 20 years of Mixture experts.
- Базовой алгоритм: Кластеризация и построение независимых моделей логистической регрессии, Адабуст, Решающий лес (с ограничениями на сложность), Смесь экспертов.
- Решение: Предлагается алгоритм выбора мультимодели (смеси моделей или смеси экспертов) и определения оптимального числа моделей.
- Новизна: Предлагается функция расстояния между моделями, в которых распределения параметров заданы на разных носителях.
- Авторы: А.А. Адуенко, В.В. Стрижов.
Задача 11
- Название: Выбор признаков в задачах авторегрессионного прогнозирования биомедицинских сигналов.
- Задача: Решается задача прогнозирования биомедицинских сигналов и сигналов интернета вещей. Требуется спрогнозировать вектор – несколько следующих отсчетов сигнала. Предполагается, что собственную размерность пространства как прогнозируемой переменной, так и независимой переменной можно существенно снизить, увеличив тем самым устойчивость прогноза без существенной потери точности. Для этого используется подход Partial Least Squares в авторегрессионном прогнозировании.
- Данные: Выборка биомедицинских временных рядов SantaFe, выборка сигналов интернета вещей.
- Литература: Katrutsa A.M., Strijov V.V. Stresstest procedure for feature selection algorithms // Chemometrics and Intelligent Laboratory Systems, 2015, 142 : 172-183; : Katrutsa A.M., Strijov V.V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with applications, 2017; Kee Siong Ng A Simple Explanation of Partial Least Squares keesiong.ng@gopivotal.com Draft, April 27, 2013, http://users.cecs.anu.edu.au/~kee/pls.pdf
- Базовой алгоритм: PLS, алгоритм квадратичной оптимизации для выбора признаков.
- Решение: построить матрицу плана с субоптимальным набором объектов и признаков, предложить функцию ошибки квадратичной оптимизации (по возможности развить на случай тензорного представления матрицы плана).
- Новизна: Обобщен алгоритм выбора признаков (опубликованный две недели назад) для случая PLS.
- Авторы: А.М. Катруца, В.В. Стрижов.
Задача 12
- Название: Massively multitask deep learning for drug discovery
- Задача: Разработать мультитасковую рекурентную нейронную сеть для предсказания биологической активности. Для каждой пары "молекула-протеин" требуется предсказать бинарную величину 0/1, означающую, что молекула связывается/не связывается с протеином.
- Данные: разреженные данные биологической активности для ~100K молекул против ~ 1000 протеинов. Молекулы представлены в формате SMILES строк (последовательность символов, кодирующая молекулу)
- Литература: https://arxiv.org/pdf/1502.02072
- Базовой алгоритм: мультитасковая нейросеть, предсказывающая активность по числовым признакам, однотасковая рекурентная нейросеть
- Решение: Мультитасковость означает, что требуется построить модель, которая получается на вход молекулу и предсказывает её биологическую активность против всех протеинов в выборке.
- Новизна: Существующие методы не показали существенного улучшения качества DL модели по сравнению со стандартными ML моделями
- Авторы: эксперт -- Александр Исаев, консультант -- Мария Попова
Задача 13
- Название: Unsupervised representation for molecules
- Задача: Разработать unsupervised метод для репрезентации молекул
- Данные: ~1.5M молекул в формате SMILES строк (последовательность символов, кодирующая молекулу)
- Литература: https://www.cs.toronto.edu/~hinton/science.pdf
- Базовой алгоритм: в настоящее время в качестве такой репрезентации используются выделенные в ручную числовые признаки. Качество полученых репрезентаций можно сравнить с датасетом tox21 (10К молекул против 12 протеинов)
- Решение: использовать свёрточные или рекуррентные сети для построения автоэнкодера.
- Новизна: построение end-to-end модели для получения информативных признаков
- Авторы: эксперт -- Александр Исаев, консультант -- Мария Попова
Задача 14
- Название: Внутритекстовая когерентность как мера интерпретируемости тематических моделей текстовых коллекций.
- Задача: Интерпретируемость – это субъективная характеристика качества тематических моделей, измеряемая с помощью экспертных оценок. Когерентность – это мера совстречаемости тематических слов, вычислимая по тексту автоматически и хорошо коррелирующая с интерпретируемостью, как показано в серии публикаций Ньюмана и Мимно. Первая задача – оценить репрезентативность последовательности слов текста, по которым оценивается когерентность. Вторая задача – сравнить несколько новых методов измерения интерпретируемости и когерентности, основанных на выделении наиболее репрезентативной последовательности слов в исходном тексте.
- Данные: Коллекция научно-популярного контента ПостНаука, коллекция новостного контента.
- Литература:
Воронцов К.В. Тематическое моделирование в BigARTM: теория, алгоритмы, приложения, 2015. N.Aletras, M.Stevenson. Evaluating Topic Coherence Using Distributional Semantics, 2013. D.Newman et al. Automatic evaluation of topic coherence, 2010 D.Mimno et al. Optimizing semantic coherence in topic models, 2011 http://palmetto.aksw.org/palmetto-webapp/
- Базовой алгоритм: Стандартные методы оценивания интерпретируемости и когерентности тем в тематических моделях.
- Решение: Новый метод измерения интерпретируемости и когерентности, эксперименты по поиску максимально коррелирующих мер интерпретируемости и когерентности, аналогичные [D.Newman, 2010].
- Новизна: внутритекстовые меры интерпретируемости и когерентности ранее не предлагались.
- Авторы: К.В.Воронцов. Консультанты: Анна Потапенко, Артём Попов, Илья Карпов.
Задача 15
- Название: Агрегирование гетерогенных текстовых коллекций в иерархической тематической модели русскоязычного научно-популярного контента.
- Задача: Реализовать и сравнить несколько способов объединения текстовых коллекций из различных источников в одну иерархическую тематическую модель. Построить классификатор, определяющий наличие темы в источнике.
- Данные: Коллекция научно-популярного контента ПостНаука, коллекция Википедии.
- Литература:
Воронцов К.В. Тематическое моделирование в BigARTM: теория, алгоритмы, приложения, 2015. Чиркова Н. А, Воронцов К. В. Аддитивная регуляризация мультимодальных иерархических тематических моделей [1] // Машинное обучение и анализ данных, 2016. T. 2. № 2.
- Базовой алгоритм: Алгоритм построения тематической иерархии в BigARTM, реализованный Надеждой Чирковой. Инструмент для разметки
- Решение: Построить тематическую модель с модальностями источников и выделить темы, характерные только для одного из источников. Подготовить выборку для обучения классификатора, определяющего наличие темы в источнике.
- Новизна: Аддитивная регуляризация тематических моделей к данной задаче ранее не применялась.
- Авторы: К.В.Воронцов. Консультанты: Александр Романенко, Ирина Ефимова, Надежда Чиркова.
Задача 16
- Название: Применение методов символьной динамики в технологии информационного анализа электрокардиосигналов.
- Задача: Технология информационного анализа электрокардиосигналов, предложенная В.М.Успенским, предполагает преобразование сырого сигнала в символьную последовательность и поиск паттернов заболеваний в даннйо последовательности. До сих пор для поиска паттернов использовались преимущественно символьные n-граммы. В рамках данной работы предлагается расширить класс шаблонов, в котором производится поиск диагностических признаков заболеваний. Критерий качества -- AUC и MAP ранжирования диагнозов.
- Данные: Выборка электрокардиограмм с известными диагнозами.
- Литература:
Успенский В.М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов.- М.:«Экономика и информация», 2008. - 116с [2]
- Базовой алгоритм: Методы классификации .
- Решение: Поиск логических закономерностей в символьных строках, методы символьной динамики, сравнение алгоритмов по критериям качества AUC и MAP (ранжирования диагнозов).
- Новизна: До сих пор для поиска паттернов использовались преимущественно символьные n-граммы.
- Авторы: К.В.Воронцов. Консультанты: Влада Целых.
Дополнительные задачи
Задача Воронцов +
- Название: Динамическая иерархическая тематическая модель новостного потока.
- Задача: Разработать алгоритм классификации тем в новостных потоках на новые и продолжающиеся. Применить полученные критерии создания новых тем на всех уровнях иерархии тематической модели при добавлении в текстовую коллекцию очередной порции данных (например, всех новостей за один день).
- Данные: Коллекция новостей на русском языке. Подвыборка новостей, размеченных на два класса: новые и продолжающиеся темы.
- Литература:
Воронцов К.В. Тематическое моделирование в BigARTM: теория, алгоритмы, приложения, 2015. Чиркова Н. А, Воронцов К. В. Аддитивная регуляризация мультимодальных иерархических тематических моделей [3] // Машинное обучение и анализ данных, 2016. T. 2. № 2.
- Базовой алгоритм: Алгоритм построения тематической иерархии в BigARTM, реализованный Надеждой Чирковой. Известные алгоритмы Topic Detection & Tracking.
- Решение: Использование BigARTM, подбор регуляризаторов и их параметров, использование регуляризатора отбора тем. Построение алгоритма классификации тем на новые и продолжающиеся.
- Новизна: Аддитивная регуляризация тематических моделей к данной задаче ранее не применялась.
- Авторы: К.В.Воронцов. Консультанты: Александр Романенко, Артём Попов.
Задача Воронцов +
- Название: Тематическое моделирование отрасли экономики по транзакционным данным банка.
- Задача: Проверить гипотезу, что большая выборка транзакций между фирмами достаточно хорошо описывается относительно небольшим множеством видов экономической деятельности (они же темы). Задача сводится к разложению матрицы транзакционных данных «покупатели × продавцы» в произведение трёх неотрицательных матриц «покупатели × темы», «темы × темы», «темы × продавцы», при этом средняя матрица описывает направленный граф финансовых потоков в отрасли. Требуется сравнить несколько методов построения таких разложений и найти число тем, при котором наблюдаемое множество транзакций моделируется с достаточной точностью.
- Данные: выборка транзакций между фирмами, вида «покупатель, продавец, объём».
- Литература: К.В.Воронцов: (1) BigARTM, (2) Описание задачи.
- Базовой алгоритм: Стандартные методы неотрицательных матричных разложений.
- Решение: Регуляризованный ЕМ-алгоритм для разреженных неотрицательных матричных разложений. Визуализация графа финансовых потоков. Тестирование алгоритма на синтетических данных, проверка гипотезы об устойчивости разреженных решений.
- Новизна: тематическое моделирование ранее не применялось к анализу финансовых транзакционных данных.
- Авторы: К.В.Воронцов. Консультанты: Виктор Сафронов, Роза Айсина.
Задача +
- Название: Порождение и выбор признаков при построении модели кредитного скоринга.
- Задача: Построение кредитных скоринговых моделей выполняется по шагам. В частности, выполняется ряд независимых преобразований отдельных признаков, порождаются новые признаки. На каждом шаге используется собственный критерий качества. Требуется построить скоринговую модель, адекватно описывающую выборку. Максимизация качества модели на каждом шаге не гарантирует максимального качества полученной модели. Предлагается отказаться от пошагового построения скоринговой модели. Для этого критерий качества должен включать все оптимизируемые параметры модели.
- Данные: Вычислительный эксперимент будет выполнен на 5-7 выборках, которые требуется найти. Желательно, чтобы выборки имели одну природу, например, выборки анкет потребительского кредита.
- Литература: Siddique N. Constructing scoring models, SAS. Hosmer D., Lemeshow S., Applied logistic regression, Wiley. Katrutsa A.M., Strijov V.V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with applications, 2017.
- Базовой алгоритм: Алгоритм построения скоринговой модели, рекомендуемый SAS.
- Решение: Каждый шаг процедуры представляется в виде задачи оптимизации. Оптимизируемые параметры объединяются, включается задача выбора признаков как задача смешанной оптимизации.
- Новизна: Предложена функция ошибки, при использовании который порождение и выбор признаков, а также оптимизация параметров модели выполняются совместно.
- Авторы: Т.В. Вознесенская, В.В. Стрижов.
Задача Попова +
- Название: Representation of molecules in 3D
- Задача: Разработать репрезентации 3D структуры молекул, которые обладали бы свойством вращательной и трансляционной инвариантности.
- Данные: Миллионы молекул, заданные 3D координатами
- Литература: https://arxiv.org/abs/1610.08935б, http://journals.aps.org/prl/abstract/10.1103/PhysRevLett.98.146401
- Базовой алгоритм: low rank matrix/tensor factorization
- Решение: Молекулы имеют различное число атомов, и поэтому матрица их 3D координат имеет размерность Nx3. Нужно найти математическое преобразование, которое бы независило от N (N - число атомов).
- Новизна: существующие алгоритмы зависят от числа атомов в молекуле
- Авторы: эксперт -- Александр Исаев, консультант -- Мария Попова
Задача Максимов +
- Название: Оптимальный алгоритм для восстановления блочных гамильтонианов (моделей XY и Гейзенберга).
- Задача: Задача состоит в восстановлении блочных гамильтонианов с непрерывными спинами (обощение модели Изинга на двух- и трёхмерные спины) по наблюдаемым данным. Эта постановка представляет собой частный случай области машинного обучения, известной как обучение без учителя (unsupervised learning). Восстановление графической спиновой модели по данным наблюдений является важной задачей в физике. Основой алгоритма будет служить адаптация нового оптимального метода экранирования взаимодействий (interaction screening), разработанного для модели Изинга. Процесс решения будет сочетать в себе знакомство с теоретическими методами компьютерных наук / машинного обучения и численные эксперименты.
- Данные: Симулированные конфигурации блочных спиновых моделей.
- Литература:
- Lokhov et al., "Optimal structure and parameter learning of Ising models", arXiv:1612.05024 (2016) {https://arxiv.org/abs/1612.05024}
- Vuffray et al., "Interaction screening: efficient and sample-optimal learning of Ising models", NIPS 2016 {https://arxiv.org/abs/1605.07252}
- Tyagi et al., "Regularization and decimation pseudolikelihood approaches to statistical inference in XY spin models", Phys. Rev. B 2016 {https://arxiv.org/abs/1603.05101}
- Базовой алгоритм: Динамический метод экранирования взаимодействий. Сравнение с методом максимального псевдо-правдоподобия (pseudolikelihood).
- Новизна: Алгоритм основанный на динамическом методе экранирования взаимодействия имеет хорошие шансы быть оптимальным для данной задачи, т.к. соотествующий метод является оптимальным для обратной задачи Изинга.
- Автор: Консультанты Андрей Лохов, Юрий Максимов. Эксперт Михаил Чертков
Задача Антиплагиат +
- Название: Отбор кандидатов в задаче поиска текстовых заимствований с перефразированием, основанный на векторизации текстовых фрагментов.
- Задача: Поиск текстовых заимствований по коллекции документов предполагает отбор небольшого множества кандидатов для последующего детального анализа. Задача отбора кандидатов формулируется как поиск оптимального ранжирования документов коллекции по запросу относительно некоторой функции, являющейся оценкой для общей длины заимствований из документа коллекции в документ-запрос.
- Данные: PAN
- Литература: Романов А.В., Хританков А.С. Отбор кандидатов при поиске заимствований в коллекции документов на иностранном языке pdf
- Базовый алгоритм: метод шинглов с построением обратного индекса.
- Решение: Векторизация фрагментов текста (word embeddings + свёрточные / рекуррентные нейронные сети) и последующий поиск ближайших объектов в многомерном метрическом пространстве.
- Новизна: новый подход к решению задачи.
- Авторы: Алексей Романов (консультант)
Задача Хританкова (Transfer Learning)
- Название: Применение сетей глубокого обучения для переноса моделей классификации в случае недостаточного объема данных.
- Задача:
- Разработать алгоритм вычисления набора скрытых признаков в задаче symmetric homogeneous transfer learning , решение задачи классификации в котором не зависит от исходной области, и который не хуже, чем при решении для каждого области отдельно (transfer error) для случая небольших размеров выборки с ошибками в разметке
- Разработать алгоритм перехода к скрытому набору признаков без использования разметки (unsupervised domain adaptation)
- Данные: teraPromise-CK (33 датасета с одинаковыми признаками, но разными распределениями).
- Литература:Базовая статья: Xavier Glorot , Antoine Bordes , Yoshua Bengio. (2011) Domain Adaptation for Large-Scale sentiment classification: A Deep Learning approach / In Proceedings of the Twenty-eight International Conference on Machine Learning, ICML.
Статьи с идеями по доработкам алгоритма будут выданы на руки (несколько).
- Базовой алгоритм: SDA (Stacked Denoising Autoencoder) – описан в статье базовой статье Glorot et al.
- Решение: Взять базовый алгоритм, а) попробовать улучшить для применения к небольшим датасетам 100-1000 объектов (когда и применяется transfer learning) путем применения регуляризаторов, корректировкой архитектуры автокодировшика, корректировки алгоритма обучения (например, bootstrapping) б) исследовать модель на устойчивость к ошибкам в разметке (label corruption / noisy labels) и предложить доработку для повышения устойчивости (robustness).
- Новизна: Получение устойчивого алгоритма переноса моделей классификации на небольших объемах данных с ошибками в разметке.
- Авторы: Хританков