Участник:Strijov/Drafts

Материал из MachineLearning.

< Участник:Strijov

Версия от 19:28, 7 февраля 2023; Strijov (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Перейти к: навигация, поиск

Основная статья: Численные методы обучения по прецедентам (практика, В.В. Стрижов)

Содержание

1 2021
2 2020
3 2019
4 Вторая группа??
5 2018
- 5.1 осень 2018
6 YEAR
7 YEAR
- 7.1 Задачи группы 594
8 2017
9 2016
10 YEAR
11 2015
12 2015
13 2014
14 2013
- 14.1 Моя первая публикация с кросс-рецензированием
- 14.2 Задачи
15 2012
16 2011

2021

История 2020 (774, 794) — 2019 (674) — 2019 (694) — 2018 — 2017 — 2016 — 2015 — 2014 — 2013

Автор	Тема научной работы	Ссылки	Консультант	Буквы	Рецензент
Гребенькова Ольга (пример)	Вариационная оптимизация моделей глубокого обучения с контролем сложности модели	LinkReview GitHub Paper Slides Video	Олег Бахтеев	AILP+UXBR+HCV+TEDWSS	Шокоров Вячеслав Review
Пилькевич Антон	Existence conditions for hidden feedback loops in recommender systems	GitHub LinkReview Paper Slides Video	Хританков Антон	AILBP-X+R-B-H1CVOT-EM*H1WJSF	Горпинич Мария Review
Курдюкова Антонина	Определение фазы и разладки движения человека по сигналам носимых устройств	LinkReview GitHub Paper Slides Video	Георгий Кормаков	AILBPXBRH1CVOTEM*WJSF	Пилькевич Антон Review
Яковлев Константин	Дифференцируемый алгоритм поиска архитектуры модели с контролем её сложности	LinkReview GitHub Paper Slides Video	Гребенькова Ольга	AILBPXBRH1CVOTEM*WJSF	Пырэу Виталий Review
Горпинич Мария	Регуляризация траектории оптимизации параметров модели глубокого обучения на основе дистилляции знаний	LinkReview GitHub Paper Slides Video	Олег Бахтеев	AILBP+XBRC+VH1OTEM*WJSF	Кулаков Ярослав Review
Толмачев Александр	Анализ метода отбора признаков QPFS для обобщенно-линейных моделей	LinkReview GitHub Paper Slides Video	Адуенко Александр	AILBPXB-R-H1CVOTEM*WJSF	Курдюкова Антонина Review
Кулаков Ярослав	BCI: Выбор согласованных моделей для построения нейроинтерфейса	LinkReview GitHub Paper Slides Video	Исаченко Роман	AILBPXBRH1CVOTEM*WJ0SF	Зверев Егор Review
Пырэу Виталий	Экспериментальное сравнение нескольких задач оперативного планирования биохимического производства.	LinkReview GitHub Paper Slides Video	Тренин Сергей Алексеевич	AILBPXBRH1CVOTEM*WJSF	Яковлев Константин Review
Баженов Андрей	Поиск границ радужки методом круговых проекций	LinkReview GitHub Paper Slides Video	Матвеев Иван Алексеевич	AILBPXB0RH1CVOTEM*WJ0SF
Зверев Егор	Learning co-evolution information with natural language processing for protein folding problem	LinkReview GitHub Paper Slides Video	Сергей Грудинин, Илья Игашов	AILBPXBRH1CVOTEM*WJSF	Толмачев Александр Review
Горчаков Вячеслав	Importance Sampling for Chance Constrained Optimization	LinkReview Github Paper Video	Юрий Максимов	AILBPX0B0R0H1C0V0O0T0E0M*0W0JS0F	Баженов Андрей Review
Линдеманн Никита	Обучение с экспертом для выборки со многими доменами	LinkReview Github Paper Slides	Андрей Грабовой	AILPXBRH1C0V0OTE0M0W0J0SF0

Задача 74

Название: Existence conditions for hidden feedback loops in recommender systems
Описание проблемы: В рекомендательных системах известен эффект искусственного непреднамеренного ограничения выбора пользователя вследствие адаптации модели к его предпочтениям (echo chamber/filter bubble). Эффект является частным случаем петель скрытой обратной связи (hidden feedback loop). (см. - Analysis H.F.L.). Выражается в том, что путем рекомендации одних и тех же интересных пользователю объектов, алгоритм максимизирует качество своей работы. Проблема в а) недостаточном разнообразии б) насыщении / изменчивости интересов пользователя.
Задача: Понятно, что алгоритм не знает интересов пользователя и пользователь не всегда честен в выборе. При каких условиях, каких свойствах алгоритма обучения и нечестности (отклонении выбора пользователя от его интересов) будет наблюдаться указанный эффект? Уточнение. Рекомендательный алгоритм выдает пользователю объекты a_t на выбор. Пользователь выбирает один из них c_t из Бернулли от модели интереса mu(a_t) . На основе выбора пользователя алгоритм изменяет свое внутреннее состояние w_t и выдает следующий набор объектов пользователю. На бесконечном горизонте нужно максимизировать суммарное вознаграждение sum c_t. Найти условия существования неограниченного роста интереса пользователя к предлагаемым объектам в рекомендательной системе с алгоритмом Thomson Sampling (TS) MAB в условиях зашумленности выбора пользователя c_t. Без шума известно, что всегда неограниченный рост (в модели) [1].
Данные: создаются в рамках эксперимента (имитационная модель) по аналогии со статьей [1], внешние данные не требуются.
Литература
1. Jiang, R., Chiappa, S., Lattimore, T., György, A. and Kohli, P., 2019, January. Degenerate feedback loops in recommender systems. In Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society (pp. 383-390).
2. Khritankov, A. (2021). Hidden Feedback Loops in Machine Learning Systems: A Simulation Model and Preliminary Results. In International Conference on Software Quality (pp. 54-65). Springer, Cham.
3. Khritankov A. (2021). Hidden feedback loop experiment demo. https://github.com/prog-autom/hidden-demo
Базовый алгоритм: Исходная математическая модель исследуемого явления описана в статье [1]. Метод экспериментального исследования - в статье [2]. Базовый исходный код доступен в [3]
Решение: Нужно вывести условия существования положительной обратной связи для алгоритма Thomson Sampling Multi-armed Bandit исходя из известных теоретических свойств этого алгоритма. Затем проверить их выполнение в имитационной модели. Для проверки выполняется серия экспериментов с исследованием диапазонов параметров и оценкой ошибки (variance) моделирования. Результаты сопоставляются с построенной ранее математической моделью эффекта. Есть реализация системы проведения эксперимента, которую можно доработать для данной задачи.
Новизна: Исследуемый эффект положительной обратной связи наблюдается в реальных и модельных системах и описан во многих публикациях как нежелательное явление. Есть его модель для ограниченного случая отсутствия шума в действиях пользователя, что не реализуется на практике. В предлагаемых условиях задача ранее не ставилась и не решалась для рекомендательных систем. Для задачи регрессии решение известно.
Авторы: Эксперт, консультант - Антон Хританков

Задача 77

Название: Определение фазы и разладки движения человека по сигналам носимых устройств
Задача: Исследуется широкий класс периодических движений человека или животного. Требуется найти начало и конец движения. Требуется понять, когда заканчивается один тип движения и начинается другой. Для этого решается задача сегментации временных рядов. Строится фазовая траектория одного движения и отыскивается его фактическая размерность. Цель работы в том, что надо описать способ нахождения минимальной размерности фазового пространства. По повторению фазовой сегментировать периодические действия человека. Надо также предложить метод извлечения нулевой фазы в данном пространстве для конкретного действия. Бонус: найти разладку фазовой траектории и указать на смену типа движения. Бонус 2: сделать это для различных положений телефона, предложив модели инвариантных преобразований.
Данные:  Данные состоят из считанных с трехосевого акселерометра временных рядов с явно выделенным периодичным классом (ходьба, бег, шаги вверх и вниз по лестнице и т.п.). Возможно получение собственных данных с мобильного устройства, либо получение модельных данных из датасета UCI HAR
Литература:
1. A. P. Motrenko, V. V. Strijov. Extracting fundamental periods to segment biomedical signals // Journal of Biomedical and Health Informatics, 2015, 20(6).P. 1466–1476 1.(Сегментация временных рядов с периодическими действиями: решалась задача сегментации с использованием фазового пространства фиксированной размерности.) PDF URL
2. A.D. Ignatov, V. V. Strijov. Human activity recognition using quasi-periodic time series collected from a single triaxial accelerometer. // Multimedia Tools and Applications, 2015, P. 1–14. ( Классификация человеческой активности с помощью сегментации временных рядов : исследовались классификаторы над получаемыми сегментами.) PDF URL
3. Grabovoy, A.V., Strijov, V.V. Quasi-Periodic Time Series Clustering for Human Activity Recognition. Lobachevskii J Math 41, 333–339 (2020). (Сегментация временных рядов на квазипериодические сегменты : исследовались методы сегментации с использованием анализа главных компонент и перехода в фазовое пространство.) Text Slides DOI
Базовой алгоритм:  Базовый алгоритм описан в 1 и 3 работах, код тут, код работы 3 у автора.
Решение:  Предлагается рассмотреть различные алгоритмы понижения размерности и сравнить различные пространства, в которых строится фазовая траектория. Разработать алгоритм поиска минимальной размерности фазового пространства, в котором фазовая траектория не имеет самопересечений с точностью до стандартного отклонения восстановленной траектории.
Новизна:  В статье Мотренко размерность пространства равна двум. Этот недочет надо обязательно исправить. Фазовая траетория не должна самопересекаться. А если мы сможем отличить один тип движения от другого внутри одного периода (перешли с бега на шаг и в течение полутора шагов это поняли) - вообще будет замечательно.
Авторы:  Консультанты: Кормаков Г.В., Тихонов Д.М., эксперт Стрижов В.В.

Задача 78

Название: Importance Sampling for Scenario Approximation of Chance Constrained Optimization
Задача: Задачи оптимизации с вероятностными ограничениями часто встречаются в инженерной практике. Например, задача минимизации генерации энергии в энергетических сетях, со (случайным образом флуктуирующими) возобновляемыми источниками энергии. При этом необходимо выполнение ограничений безопасности: напряжения у генераторов и потребителей, а также токи на линиях должны быть меньше определенных порогов. Вместе с тем, даже в самых простых ситуациях задача не может быть разрешена точно. Самый известный подход, это методы chance constrained optimization, которые часто дают неплохое приближение. Альтернативный подход – семплирование режимов работы сети и решения задачи на наборе данных задачи классификации: отделение плохих режимов от хороших с заданной ошибкой второго рода. Вместе с тем, для достаточно точного решения, требуются очень большой объем данных, что часто делает задачу численно не эффективной. Мы предлагаем использовать “семплирование по важности” (importance sampling) для уменьшения числа сценариев. Семплирование по важности состоит из подмены выборки из номинального решения, которое часто не несет информации так как все плохие события очень редки, на синтетическое распределение, которое семплирует выборку в окрестности плохих событий.
Формальная постановка: найти минимум выпуклой функции (цены) при вероятностных ограничениях (вероятность превысить определенный порог для системы линейных/квадратичных функций мала) и численно показать эффективность применения семплирования в этой задаче.
Данные: Данные доступны в пакетах pypower и matpower в виде csv файлов.
Литература: Основу предлагаемых алгоритмов составляют 3 статьи:
1. Owen, Maximov, Chertkov. Importance Sampling for the Union of Rare Events with Applications to Power Systems LINK
2. A. Nemirovski. On safe tractable approximations of chance constraints [1]
3. S. Tong, A. Subramanyam, and Vi. Rao. Optimization under rare chance constraints. LINK
4. Кроме того у авторов задачи есть черновик статьи, в который нужно добавить численную часть.
Базовой алгоритм: Список базовых алгоритмов представлен в этой лекции [2]
Решение: в численных экспериментах нужно сравнить требования по размеру выборки для стандартных методов (scenario approximation) и с использованием семплирования по важности для получения сравнимого по качеству решение (и обратная задача, имея равные длины выборки сравнить качество решения)
Новизна: задача давно известна в коммьюнити и scenario approximation один из основных методов. Вместе с тем importance sampling помогает существенно снизить число сценариев. Мы недавно получили ряд интересных результатов, как вычислять оптимальные семплеры, с их использованием сложность задачи существенно снизится
Авторы: эксперт – Юрий Максимов, консультант – Юрий Максимов и Александр Лукашевич, студент.

Задача 79

Название: Improving Bayesian Inference in Physics Informed Machine Learning
Задача: Методы машинного обучения в настоящий момент широко применяются в физике, в частности при решении задач турбулентности или анализа устойчивости физических сетей. Вместе с тем ключевым вопросом является какие режимы выбирать для обучения моделей. Частый выбор – последовательности точек, равномерно покрывающие допустимое множество. Однако, часто такие последовательности мало информативны, особенно в случае, если аналитические методы дают область, где система гарантированно устойчива. В задаче предлагается несколько методов семплирования: позволяющих учесть эту информацию. Нашей целью является их сравнить и найти тот, который требует минимального размера выборки (эмпирическое сравнение).
Данные: Эксперимент предлагается провести на модельных и реальных данных. Модельный эксперимент состоит в анализе устойчивости (слегка нелинейных) дифференциальных уравнений (синтетические данные генерируются самостоятельно). Второй эксперимент состоит в анализе устойчивости энергетических систем (данные matpower, pypower, GridDyn).
Литература:
1. Art Owen. Quasi Monte Carlo Sampling. LINK
2. Jian Cheng & Marek J. Druzdzel. Computational Investigation of Low-Discrepancy Sequences in Simulation Algorithms for Bayesian Networks [3]
3. A. Owen, Y Maximov, M. Chertkov. Importance Sampling for the Union of Rare Events with Applications to Power Systems [4]
4. Polson and Solokov. Deep Learning: A Bayesian Perspective [5]
5. Кроме того: у авторов задачи есть черновик работы по этой теме
Базовой алгоритм: Базовый алгоритм, который мы улучшаем, это Quasi Monte Carlo (QMC, [6]). Задача построить последовательности с низким разбросом (low discrepancy sequence) не покрывающее полиэдральную область и область, данную пересечением квадратичных ограничений. Еще один алгоритм, с которым нам потребуется сравнение:

E. Gryazina, B. Polyak. Random Sampling: a Billiard Walk Algorithm LINK и с алгоритмами типа Hit and Run [7]

Решение: методы семплирования по важности, в частности расширение подхода (Boy, Ryi, 2014) и (Owen, Maximov, Chertkov, 2017) и их приложения к ML/DL для физических задач
Новизна: в существенном снижении сложности выборки и явном использовании имеющихся и аналитических результатов и лернинга для решения физических задач, до этого ML подходы и аналитические решения шли по большей части параллельными курсами
Авторы: эксперт Юрий Максимов, консультант Юрий Максимов и Александр Лукашевич, студент.

Задача 81

Название: NAS — Порождение и выбор архитектур нейронных сетей
Задача: Задача выбора оптимальной архитектуры нейросети ставится как задача семплирования вектора структурных параметров. Критерий оптимальности определяется в терминах точности, сложности и устойчивости модели. Сама процедура семплирования состоит из двух шагов: порождение новой структуры и отклонение этой структуры, если она не удовлетворяет критерию оптимальности. Предлагается исследовать различные способы семплирования. Постановка задачи выбора оптимальной структуры описана в работе Потанин-1
Данные: : В качестве данных предлагается два отдельных множества. Первое – состоит из одного элемента, это популярный датасет MNIST. Плюсы – является сильным и общепринятым бейзлайном, использовался как бенчмарк для статьи WANN, довольно большой (многоклассовая классификация). Второе множество – набор датасетов для задачи регрессии. Размер варьируется от совсем маленького до довольно большого. Вот ссылка на датасет и ноутбук для загрузки данных данные.
Литература:
1. Потанин - 1
2. Потанин - 2. Еще одна работа, текст передается заинтересованному студенту, но без публикации.
3. Стрижов завлаб Функция ошибки
4. Informtica
5. WANN
6. DARTS
7. Symbols
8. NEAT
Базовой алгоритм: Ближайшая по теме работа, и ее код реализации. Актуальный код от консультанта.
Решение: Сейчас уже выполнен ряд экспериментов, где семплирования производится генетическим алгоритмом. Получены приемлемые результаты. Предлагается их проанализировать и улучшить. А именно, выделить два модуля: порождение и отклонение и сравнить несколько видов семплирования. Базовый — Importance sampling, желанный — Metropolis-Hastings (или даже Metropolis-Langevin) sampling. Так как генетический алгоритм рассматривается нами как процесс со скачками, то предлагается учесть это при проектировании процедуры семплирования. Бонус MH в том, что он имеет байесовскую интерпретацию. Первый уровень байесовского вывода применительно к MH описан в работе [Informatica]. Требуется либо переписать его в терминах распределения структурных параметров, либо вообще расписать оба уровня, вынеся структурные параметры во второй уровень (кстати, примерно то же будет в задаче Адуенко).
Новизна: Нейронные сети отлично справляются с задачами компьютерного зрения, обучения с подкреплением и обработки естественного языка. Одна из главных целей нейросетей -хорошо выполнять задачи, которые в настоящее время решаются исключительно человеком, то есть природными нейронными сетями людей. Искусственные нейросети по-прежнему работают совсем не так, как естественные нейронные сети. Одно из основных различий заключается в том, что естественные нейронные сети со временем развиваются, меняя силу связей и свою архитектуру. Искусственные нейронные сети могут регулировать силу соединений с помощью весов, но не могут изменять свою архитектуру. Поэтому задача выбора оптимальных структур нейросетей под конкретные задачи представляется важным шагом в развитии способностей нейросетевых моделей.
Авторы: консультант Марк Потанин, эксперт Вадим Стрижов.

Задача 82

Название: Обучение с экспертом для выборки со многими доменами.
Задача: Рассматривается задача аппроксимации multi-domain выборки единой мультимоделью — смесью экспертов. В качестве данных предполагается использовать выборку, которая содержит в себе несколько доменов. Метка домена для каждого объекта отсутствует. Каждый домен аппроксимируется локальной моделью. В работе рассматривается двухэтапная задача оптимизации на основе ЕМ-алгоритма.
Данные: В качестве данных используются выборки отзывов сайта Amazon для разных типов товара. В качестве локальной модели предполагается использовать линейную модель, а в качестве признакового описания отзывов использовать tf-idf вектора внутри каждого домена.
Литература:
Базовый алгоритм и решение: Базовое решение представлено тут. В работе используется метод смеси экспертов для задачи Multi-Soruce domain adaptation задачи. Код к статье доступен по ссылке.
Новизна: На текущий момент в машинном обучении появляется все больше задач связанных с данными, которые взяты с разных источников. В данном случае появляются выборки, которые состоят из большого количества доменов. На текущий момент не существует полного теоретического обоснования построения смесей локальных моделей для аппроксимации такого рода выборок.
Авторы: Грабовой А.В., Стрижов В.В.

Задача 17

Название: BCI: Выбор согласованных моделей для построения нейроинтерфейса
Задача: При построении систем нейрокомпьютерного интерфейса (brain-computer interface) используются простые, устойчивые модели. Важным этапом построения интерфейса является такой модели является адекватный выбор модели. Рассматривается широкий набора моделей: линейные, простые нейросети, рекуррентные сети, трансформеры. Особенность задачи в том, что при прогнозе требуется моделировать не только исходный сигнал, снимаемый с коры головного мозга, но и целевой, снимаемый с конечностей. Таким образом, требуется построить две модели. Чтобы они работали вместе, строится пространство согласований. Предлагается исследовать свойства этого пространства и свойства получаемого прогноза (нейроинтерфейса) на различных парах моделей.
Данные: Наборы данных сигналов мозга ECoG/EEG.
1. Нужен ECoG (25 набор данных содержит записи ЭЭГ, ЭОГ и движения руки) http://bnci-horizon-2020.eu/database/data-sets
2. neyrotycho — наши старые данные.
Литература:
1. Яушев Ф.Ю., Исаченко Р.В., Стрижов В.В. Модели согласования скрытого пространства в задаче прогнозирования // Системы и средства информатики, 2021, 31(1). PDF
2. Исаченко Р.В. Выбор модели декодирования сигналов в пространствах высокой размерности. Рукопись, 2021. PDF
3. Исаченко Р.В. Выбор модели декодирования сигналов в пространствах высокой размерности. Слайды, 2020. [8]
4. Isachenko R.V., Vladimirova M.R., Strijov V.V. Dimensionality reduction for time series decoding and forecasting problems // DEStech Transactions on Computer Science and Engineering, 2018, 27349 : 286-296. PDF
5. Isachenko R.V., Strijov V.V. Quadratic Programming Optimization with Feature Selection for Non-linear Models // Lobachevskii Journal of Mathematics, 2018, 39(9) : 1179-1187. PDF
6. Motrenko A.P., Strijov V.V. Multi-way feature selection for ECoG-based brain-computer interface // Expert Systems with Applications, 2018, 114(30) : 402-413. PDF
7. Eliseyev A., Aksenova T. Stable and artifact-resistant decoding of 3D hand trajectories from ECoG signals using the generalized additive model //Journal of neural engineering. – 2014.
Базовый алгоритм: Описан в первой работе. Код имеется. В той работе данные — две части изображения. В нашей работе сигнал головного мозга и движение рук. Сверхзадача: довести до ума первую работу. Также код и работы тут.
Решение: Рассматривается случай, когда исходные данные гетерогенны: пространства независимой и целевой переменных имеют разную природу. Требуется построить предсказательную модель, которая бы учитывала зависимость в исходном пространстве независимой переменной, а также в пространстве целевой переменной. Предлагается исследовать точность, сложность и устойчивость пар разнообразных моделей. Так как при построении прогноза решается обратная задача, требуется построить обратные преобразования для каждой модели. Для этого можно использовать как базовые приемы (PLS), так и потоки.
Новизна: Анализ прогноза и латентного пространства, получаемых парой гетерогенных моделей.
Авторы: консультант Роман Исаченко, эксперт Вадим Стрижов

Задача 69

«Название»: Graph Neural Network in Reaction Yield prediction
«Задача»: There are disconnected graphs of source molecules and products in a chemical reaction. The yield of the main product in the reaction is known. It is required to design an algorithm that predicts yield by solving the regression task on given disconnected graphs.
«Данные»: Database of reaction from US patents [9]
Литература:
- [10] A general overview.
- [11] Relational Graph Convolution Neural Network
- [12] Transformer architecture
- [13] Graph neural network learning for chemical compounds synthesis
«Базовый алгоритм»: Transformer model. The input sequence is a SMILES representation of the source and product molecules.
«Решение»: A pipeline for working with disconnected graphs is proposed. The pipeline includes the construction of extended graph with molecule and reaction representation, Relational Graph Convolution Neural Network, Encoder of Transformer. The method is applied to solve yield predictions.
«Новизна» A solution for regression problem on the given disconnected graph is constructed; the approach demonstrates better performance compared with other solutions
«Авторы»: Nikitin Filipp, Isayev Olexandr, Vadim Strijov

Задача 84

Название: Регуляризация траектории оптимизации параметров модели глубокого обучения на основе дистилляции знаний
Задача: Рассматривается задача оптимизации параметров модели глубокого обучения. Рассматривается случай, когда при оптимизации доступны ответы более сложной модели (модели-учителя). Классическим подходом к решению такой задачи является обучение с учетом ответов сложной модели (дистилляция знаний). Назначение гиперпараметров производится эмпирически на основе результатов работы модели на отложенной выборке. В данной работе предлагается рассмотреть модификацию подхода к дистилляции знаний, в котором гиперпараметрами выступает коэффициент значимости дистиллирующего слагаемого, а также его градиенты. Обе эти группы параметров позволяют скорректировать оптимизацию параметров модели. Для оптимизации гиперпараметров предлагается рассматривать задачу оптимизации как двухуровневую задачу оптимизации, где на первом уровне оптимизации решается задача оптимизации параметров модели, а на втором --- приближенно решается задача оптимизации гиперпараметров по значению функции потерь на отложенной выборке.
Данные: выборка изображений CIFAR-10
Литература:
Базовый алгоритм: оптимизация модели без дистилляции и со стандартным подходом к дистилляции
Решение: Использование двухуровневой задачи для оптимизации модели. Комбинация градиентов для обоих слагаемых обрабатывается отдельной моделью (LSTM)
Новизна: Будет предложен новый подход к дистилляции модели, позволяющий значительно улучшить эксплуатационные характеристики моделей, обучающихся в режиме использования привилегированной информации. Также планируется изучить динамику изменения гиперпараметров в процессе оптимизации.
Авторы: Олег Бахтеев, Вадим Стрижов

Задача 85

Название: Дифференцируемый алгоритм поиска архитектуры модели с контролем её сложности
Задача: рассматривается задача выбора структуры модели глубокого обучения с заранее заданной сложностью. Требуется предложить метод поиска модели, позволяющий контролировать её сложность с небольшими вычислительными затратами.
Данные: MNIST, CIFAR
Литература:
1. Гребенькова О.С., Бахтеев О., Стрижов В.В. Вариационная оптимизация модели глубокого обучения с контролем сложности // Информатика и ее применения, 2021, 15(2). PDF
2. DARTS
3. гиперсети
Базовый алгоритм: DARTS
Решение: Предлагаемый метод заключается в использовании дифференцируемого алгоритма поиска архитектуры нейросети(DARTS) с контролем сложности параметров при помощи гиперсети.
Новизна: предложенный метод позволяет контролировать сложность модели, в процессе поиска архитектуры без дополнительных эвристик.
Авторы: О.Ю. Бахтеев, O. C. Гребенькова

Задача 86

Название: Learning co-evolution information with natural language processing for protein folding problem
Задача: One of the most essential problems in structural bioinformatics is protein fold recognition since the relationship between the protein amino acid sequence and its tertiary structure is revealed by protein folding. A specific protein fold describes the distinctive arrangement of secondary structure elements in the nearly-infinite conformation space, which denotes the structural characteristics of a protein molecule.
Полное описание: request
Авторы: Сергей Грудинин, Мария Кадукова.

Задача 87

Название: Байесовский выбор структур обобщенно-линейных моделей
Задача: Работа посвящена тестированию методов выбора признаков. Предполагается, что исследуемая выборка содержит значительное число мультиколлинеарных признаков. Мультиколлинеарность — это сильная корреляционная связь между отбираемыми для анализа признаками, совместно воздействующими на целевой вектор, которая затрудняет оценивание регрессионных параметров и выявление зависимости между признаками и целевым вектором. Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Показания датчиков коррелируют между собой. Необходимо выбрать оптимальный набор признаков для решения задачи прогнозирования.
Актуальность: Опубликован один наиболее предпочтительных алгоритмов выбора признаков. Он использует структурные параметры. Но теоретического обоснования не имеет. Предлагается построить теорию, описав и проанализировав различные функции априорного распределения структурных параметров. В работах по поиску структур нейросетей также пока нет внятной теории и списка априорных предположений.
Данные: Многомерные временные ряды с показаниями различных датчиков из работы 4, для начала все выборки из статьи 1.
Литература: Ключевые слова: bootstrap aggreagation, метод Белсли, векторная авторегрессия.
1. Katrutsa A.M., Strijov V.V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with Applications, 2017, 76 : 1-11. PDF
2. Katrutsa A.M., Strijov V.V. Stresstest procedure for feature selection algorithms // Chemometrics and Intelligent Laboratory Systems, 2015, 142 : 172-183. PDF
3. Стрижов В.В. Функция ошибки в задачах восстановления регрессии // Заводская лаборатория. Диагностика материалов, 2013, 79(5) : 65-73. PDF
4. Зайцев А.А., Стрижов В.В., Токмакова А.А. Оценка гиперпараметров регрессионных моделей методом максимального правдоподобия // Информационные технологии, 2013, 2 : 11-15. PDF
5. Kuznetsov M.P., Tokmakova A.A., Strijov V.V. Analytic and stochastic methods of structure parameter estimation // Informatica, 2016, 27(3) : 607-624. PDF
6. Катруца А.М., Стрижов В.В. Проблема мультиколлинеарности при выборе признаков в регрессионных задачах // Информационные технологии, 2015, 1 : 8-18. PDF
7. Нейчев Р.Г., Катруца А.М., Стрижов В.В. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования // Заводская лаборатория. Диагностика материалов, 2016, 82(3) : 68-74. PDF
Базовый алгоритм: Описан в работе 1: квадратичное программирование для выбора признаков QPFS. Код у Романа Исаченко.
Решение: Предлагается рассмотреть структурные параметры, используемые в QPFS на втором уровне байесовского вывода. Ввести информативные априорные распределения параметров и структурных параметров. Сравнить различные априорные предположения.
Новизна: Статистический анализ пространства структурных параметров и визуализация
Авторы: Александр Адуенко — консультант, Вадим Стрижов

Задача 88

Название: Поиск границ радужки методом круговых проекций
Задача: Дано монохромное растровое изображение глаза, см. примеры. Также известно приблизительное положение центра зрачка. Слово «приблизительное» означает то, вычисленный центр зрачка отстоит от истинного не более чем на половину его истинного радиуса. Необходимо определить приблизительные положения окружностей, аппроксимирующих зрачок и радужку. Алгоритм должен быть очень быстрым.
Данные: около 200 тыс. изображений глаз. Для каждого размечено положение истинных окружностей — в целях обучения и проверки создаваемого метода.
Базовой алгоритм: Для ускорения работы с изображением предлагается агрегирование данных при помощи круговых проекций яркости. Круговая проекция — функция, зависящая от радиуса, значение которой P(r) равно интегралу направленного градиента яркости изображения по окружности радиуса r (или по дуге окружности). Пример для одной дуги (правой четверти) и для четырёх дуг. Построив сколько-то круговых проекций, исходя из них, можно попытаться определить положение внутренней и внешней границ радужки (кольца) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.
Литература: Matveev I.A. Detection of Iris in Image By Interrelated Maxima of Brightness Gradient Projections // Applied and Computational Mathematics. 2010. V.9. N.2. P.252-257 PDF
Автор: Матвеев И.А.

Задача 53

Название: Решение задачи оптимизации, сочетающей классификацию и регрессию, для оценки энергии связывания белка и маленьких молекул.
Задача: Целью задачи является решение задачи оптимизации с функциями потерь классификации и регрессии в применении к биологическим данным.
Данные: Около 12,000 комплексов белков с маленькими молекулами. Для классификации для каждого из них есть 1 правильное положение в пространстве и 18 сгенерированных неправильных, для регрессии каждому комплексу соответствует значение константы связывания (пропорциональна энергии). Основными дескрипторами являются гистограммы распределений расстояний между различными атомами.
Литература:
- https://www.overleaf.com/read/rjdnyyxpdkyj Подробно о задаче
- http://cs229.stanford.edu/notes/cs229-notes3.pdf SVM
- http://scikit-learn.org/stable/modules/linear_model.html#ridge-regression Ridge Regression
- https://alex.smola.org/papers/2003/SmoSch03b.pdf SVR
Базовой алгоритм: В задаче классификации мы использовали алгоритм, похожий на линейный SVM, связь которого с оценкой энергии, выходящей за рамки задачи классификации, описана в статье https://hal.inria.fr/hal-01591154/. Для MSE в качестве функции потерь регрессии уже есть сформулированная двойственная задача, с реализации которой можно начать.
Решение: Первым этапом будет решение задачи с MSE в функции потерь с использованием удобного для вас солвера. Основной трудностью может стать большая размерность данных, но они разрежены. Далее можно будет менять формулировку задачи.
Новизна: Многие модели, используемые для предсказания взаимодействий белков с лигандами, "переобучены" под какую-либо задачу. Например, модели, хорошо предсказывающие энергии связывания, могут плохо выбирать связывающуюся с белком молекулу из множества несвязывающихся, а модели, хорошо определяющие правильную геометрию комплекса, могут плохо предсказывать энергии. В данной задаче предлагается рассмотреть новый подход борьбы с таким переобучением, поскольку сочетание функций потерь классификации и регрессии видится нам очень естественной регуляризацией.
Авторы: Сергей Грудинин, Мария Кадукова.

Задача 75

Название: Выравнивание элементов изображений с помощью метрических моделей.
Задача: Задан набор символов. Каждый символ представлен одним файлом - изображением. Размер изображений в пикселях может отличаться. Известно, что все изображения принадлежат одному классу, например, лица, буквы, цветы или машины. (Более сложный вариант - одному классу, который мы исследуем и шумовым классам.) Известно, что каждое изображение может быть и помощью выравнивающей трансформации совмещено с другим с точностью до шума, либо до некоторого усредненного изображения. (Это изображение может как присутствовать, так и отсутствовать в выборке). Эта выравнивающая трансформация задается в базовом случае нейросетью, а в предлагаемом - параметрическим преобразованием из некоторого заданного класса (первое - частный случай второго). Выравненное изображение сравнивается с исходным с помощью функции расстояния. Если расстояние между двумя изображениями статистически значимо, делается вывод о принадлежности изображений одному классу. Требуется 1) предложить адекватную модель выравнивающей трансформации, которая берет в расчет предположения о характере изображения (например, только вращение и пропорциональное масштабирование), 2) предложить функцию расстояния, 3) преложить способ нахождения усредненного изображения.
Данные: Синтетические и реальные 1) картинки - лица и символы с трансформацией вращения и растяжения, 2) лица и автомобили с транфсормацией вращения 3D с проекцией в 2D. Синтетические изображения предлагается создавать вручную с помощью 1) фотографий листа бумаги, 2) фотографий поверхности рисунка на воздушном шарике.
Литература
1. опорная работы - выравнивание картинок с помощью 2D DTW,
2. опорная работа - выравнивание картинок с помощью нейросетей,
3. работы по выравниванию DTW в 2D,
4. работы по параметрическому выравниванию.
Базовой алгоритм: из работы 1.
Решение: В прилагаемом файле pdf.
Новизна: Вместо многомерного выравнивания изображений предлагается параметрическое выравнивание.
Авторы: Алексей Гончаров, Вадим Стрижов

Задача 80

Название: Обнаружение корреляций между активностью в социальных сетях и капитализацией компаний
Задача: в настоящее время существенное влияние на биржевые котировки акций, капитализацию компании и успех или неуспех IPO зависит от социальных факторов, таких как общественное мнение, выраженное в социальных сетях. Недавним ярким примером является изменение котировок компании GameStore, вызванное всплеском активности в Reddit. Нашей задачей на первом этапе является выявление котировок между акциями компаний разного сегмента и активностью в социальных сетях. То есть необходимо выявить корреляции между значительными изменениями в капитализации компании и предшествующими всплесками (положительными или отрицательными) ее обсуждения в социальных сетях. То есть необходимо найти минимум лосс функции при восстановлении зависимости в различных классах моделей (параметрика, нейронные сети и тп). Данная задача часть большого проекта по анализу анализу рынков и влияния социальных факторов на риски (в рамках команды из 5-7 профессоров), которая приведет к серии публикаций достаточной для защиты диссертации.
Данные: Задача имеет существенный инженерный контекст, данные – выгрузки из котировок на Московской бирже, а также данные NYT и reddit (кроулинг и парсинг делается стандартными инструментами). У студента, работающего над этой задачей, должны быть сильные инженерные навыки и желание заниматься как практикой машинного обучения, так и инженерными частями задачами.
Литература:
1. Paul S. Adler and Seok-Woo Kwon. Social Capital: Prospects for a new Concept. [14]
2. Kim and Hastak. Social network analysis: Characteristics of online social networks after a disaster LINK
3. Baumgartner, Jason, et al. "The pushshift reddit dataset." Proceedings of the International AAAI Conference on Web and Social Media. Vol. 14. 2020. [15]
Базовой алгоритм: Базовые алгоритмы это LSTM и Graph neural networks.
Решение: Начнем с применения LSTM, далее попробуем несколько его стандартных расширений
Новизна: В данной области достаточно много экономических, модельных решений, однако точность этих решений не всегда высока. Применение современных ML/DL моделей, как ожидается, существенно повысит качество решения.
Авторы: эксперт Юрий Максимов, консультант Юрий Максимов, студент.

Задача 88b

Название: Поиск зрачка на изображении глаза методом проекций яркости
Задача: Дано монохромное растровое изображение глаза, см. примеры. Необходимо определить приблизительные координаты центра зрачка. Слово «приблизительные» означает то, что вычисленный центр зрачка должен лежать внутри окружности с центром в истинном центре зрачка и половинного истинного радиуса. Алгоритм должен быть очень быстрым.
Данные: около 200 тыс. изображений глаз. При для каждого размечено положение истинной окружности — в целях обучения и проверки создаваемого метода.

Базовой алгоритм: Для ускорения работы с изображением предлагается агрегирование данных при помощи проекций яркости. Яркость изображения — функция двух дискретных аргументов. Её проекция на горизонтальную ось равна. Аналогично строятся проекции на оси с наклоном. Построив несколько проекций (две, четыре), исходя из них, можно попытаться определить положение зрачка (компактной тёмной области) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.

Литература: Zhi-Hua Zhou, Xin Geng Projection functions for eye detection // Pattern Recognition. 2004. V.37ю N.5. P.1049-1056. PDF
Автор: Матвеев И.А.

Задача 88c

Название: Поиск века на изображении как параболического контура методом проекций.
Задача: Дано монохромное растровое изображение глаза, см. примеры. Необходимо найти контур верхнего века как параболу, то есть определить параметры.
Данные: около 200 тыс. изображений глаз. При некоторых (около 2500) экспертом-человеком размечено положение параболы, приближающей веко.
Базовой алгоритм: Первый шаг — предобработка изображения фильтром вертикального градиента с дальнейшей бинаризацией, ниже — типичный результат. На следующем шаге возможны различные варианты. Например, если известны коодрдинаты зрачка, можно задать область интереса (сверху) и в ней по выделенным точка построить параболу аппроксимацией методом наименьших квадратов. Пример результата дан ниже. Возможны более тонкие методы, например, поиск параболы преобразованием Хафа (см. в Википедии). Ещё один способ — использование проективных методов (преобразование Радона). Основная идея: задавшись коэффициентом , применить к изображению преобразование координат в результате которого все параболы вида formula переходят в прямые вида , далее задавшись коэффициентом , применить преобразование координат где , после чего наклонные прямые вида formula переходят в горизонтальные, которые легко определить, например, горизонтальным проецированием (суммированием значений в строках матрицы полученного изображения. Если коэффициенты угаданы правильно, перабола, представляющая веко, даст чёткий максимум в проекции. Перебирая formula (имеющие физический смысл) можно найти, те, что дают максимальное значение проекции, и считать что таким образом определена искомая парабола — веко.
Литература: Википедия, статьи «Преобразование Хафа», «Преобразование Радона».
Автор: Матвеев И.А.

Задача 62

Название: Построение метода динамического выравнивания многомерных временных рядов, устойчивого к локальным колебаниям сигнала.
Задача: В процессе работы с многомерными временными рядами распространена ситуация близкого расположения датчиков, соответствующих различным каналам измерений. В результате малые смещения сигнала в пространстве могут приводить к фиксации пика сигнала соседними датчиками, что ведет к значительным различиям измерений в смысле L2 расстояния.
Таким образом, малые смещения сигнала приводят к появлению значительных флуктуаций показаний датчиков. Рассматривается задача построения функции расстояния между точками временных рядов, устойчивой к шуму, порожденному малыми пространственными смещениями сигнала. Необходимо рассмотреть задачу в приближении наличия карты расположения датчиков.
Данные:
- Измерения активность мозга обезьян
- Искусственно созданные данные (надо предложить несколько вариантов, например: движение сигнала в пространстве по часовой и против часовой стрелки)
Литература:
Базовый алгоритм: L2 расстояние между парой измерений.
Решение: использовать функцию расстояния DTW между двумя многомерными временными рядами. Выравниваются две оси времени, при этом внутри функционала DTW выбирается расстояние между i-м и j-м измерениями такое, что оно устойчиво к локальным “сдвигам” сигнала. Требуется предложить такой функционал. Базовое решение - L2, улучшенное решение - DTW между i-м и j-м измерениями (dtw внутри dtw).
Можно предложить какую-либо модификацию, например расстояния между скрытыми слоями автоэнкодера для точек i и j.
Новизна: Предлагается способ выравнивания многомерных временных рядов, учитывающий малые колебания сигнала в пространстве.
Авторы: В.В. Стрижов - эксперт, Глеб Моргачев, Алексей Гончаров - консультанты.

Задача 58

«Название»: Преобразование алгоритма Gerchberg-Saxton с помощью байесовских нейросетей. (или Нейросетевой подход в задаче фазового поиска для изображений с европейского синхротрона)
«Задача»: Цель проекта - повысить качество разрешения изображений наноразмерных объектов, полученных в лабораториях Европейского фонда синхротронного излучения.
«Данные»: а данными обращаться к консультанту (3GB).

Литература:

- [16] Iterative phase retrieval in coherent diffractive imaging: practical issues
- [17] X-ray nanotomography of coccolithophores reveals that coccolith mass and segment number correlate with grid size
- [18] Lens-free microscopy for 3D + time acquisitions of 3D cell culture
- [19] DEEP ITERATIVE RECONSTRUCTION FOR PHASE RETRIEVAL
- https://docs.google.com/document/d/1K7bIzU33MSfeUvg3WITRZX0pe3sibbtH62aw42wxsEI/edit?ts=5e42f70e LinkReview
«Базовый алгоритм»: Переход из прямого пространства в обратное пространство происходит с помощью преобразования Фурье. Преобразование Фурье - это линейное преобразование. Поэтому предлагается его аппроксимировать нейросетью. Например автокодировщик для моделирования прямого и обратного Фурье преобразования.
«Решение»: Преобразование алгоритма Gerchberg-Saxton c помощью байесовских нейросетей. Использование информации о физических ограничениях и экспертные знания.
«Новизна» Использование информации о физических ограничениях и экспертные знания при построении функции ошибки.
«Авторы»: эксперты Сергей Грудинин, Юрий Чушкин, В.В. Стрижов. консультант Марк Потанин

Задача 63

Название: Иерархическое выравнивание временных последовательностей.
Задача: Рассматривается задача выравнивания последовательностей сложных событий. Примером может служить сложносоставное поведение человека: при рассмотрении данных IMU-датчиков можно выдвинуть гипотезу: есть исходный сигнал, есть агрегаты “элементарных действий” и есть агрегаты “действий” человека. Каждый из указанных уровней абстракции можно выделить и оперировать именно им.
Для того, чтобы проводить точное распознавание последовательности действий возможно применять метрические методы (например DTW, как способ, устойчивый к временным сдвигам). Для более точного качества выравнивания временной шкалы возможно проводить выравнивание на разных уровнях абстракций.
Предлагается исследовать такой иерархический подход к выравниванию последовательностей, основанный на возможности применения алгоритмов выравнивания к объектам разной структуры, имея функцию расстояние на них.
Литература:
Базовый алгоритм: классический DTW.
Решение: Предлагается выполнять переход от одного уровня абстракции к другому путем применения сверточных и рекуррентных нейронных сетей. Тогда объектом на нижнем уровне абстракции служит исходный сигнал. На втором уровне - сигнал из скрытого слоя модели (построенной на объектах нижнего уровня), размерность которого много меньше, а верхнего слоя - сигнал из скрытого слоя модели (построенной на объектах среднего уровня).
При этом DTW вычисляется отдельно между нижними, между средними и между верхними уровнями, но формирование объектов для расчета расстояния осуществляется с учетом выравнивающего пути между объектами предыдущего уровня.
Данный метод рассматривается как способ повышения интерпретируемости процедуры выравнивания и точности классификации действия в связи с переходом к более высокоуровневым паттернам. Кроме того, ожидается существенное увеличение скорости работы.
Новизна: Предлагается идея выравнивания временных последовательностей одновременно на нескольких уровнях абстракции. Метод должен существенно улучшить интерпретируемость алгоритмов выравнивания и повысить скорость их работы.
Авторы: В.В. Стрижов - эксперт, Глеб Моргачев, Алексей Гончаров - консультанты.

Задача 57

«Название»:Аддитивная регуляризация и в задачах привилегированного обучения при решении задачи прогнозирования состояния океана
«Задача»: Есть выборка данных с океанских буйков, требуется прогнозировать состояние океана в разные моменты времени.
«Данные»: От буйков поступают данные о высоте волн, скорости ветра, направления ветра, периоде волны, давление на уровне моря, температура воздуха и температура поверхности моря с разрешением от 10 минут до 1 часа.
Литература:
- [20]
«Базовый алгоритм»: Использование простой нейросети.
«Решение»:Добавление к базовому алгоритму(простая нейросеть) системы дифференциальных уравнений. Исследовать свойства пространства параметров учителя и ученика согласно привилегированному подходу.
«Новизна» Исследование пространства параметров учителя и ученика и их изменение. Возможно настроить отдельно модели учителя и ученика и проследить на изменением их параметров в процессе оптимизации - дисперсия, изменение качества ученика при добавлении информации учителя, сложность.
«Авторы»: В.В. Стрижов, Марк Потанин

Задача 52

Название: Предсказание качества моделей белков с помощью сферических сверток на трехмерных графах.
Задача: Целью данной работы является создание и исследование новой операции свертки на трехмерных графах в рамках решения задачи оценивания качества трехмерных моделей белков (задача регрессии на узлах графа).
Данные: Используются модели, сгенерированные участниками соревнований CASP (http://predictioncenter.org).
Литература:
- [21] Подробно о задаче.
- [22] Relational inductive biases, deep learning, and graph networks.
- [23] Geometric deep learning: going beyond euclidean data.
Базовой алгоритм: В качестве базового алгоритма будем использовать нейросеть, основанную на методе свертки на графах, который в общем виде описывается в [24].
Решение: Наличие в белках пептидной цепи позволяет однозначно вводить локальные системы координат для всех узлов графа, что дает возможность создавать и применять сферические фильтры независимо от топологии графа.
Новизна: В общем случае графы являются нерегулярными структурами, а во многих задачах обучения на графах объекты выборки не имеют единой топологии. Поэтому существующие операции сверток на графах очень сильно упрощены, либо не обобщаются на разные топологии. В данной работе предлагается рассмотреть новый способ построения операции свертки на трехмерных графах, для которых возможно однозначно выбрать локальные системы координат, привязанные к каждому узлу.
Авторы: Сергей Грудинин, Илья Игашов.

Задача 44+

Название: Ранее прогнозирование достаточного объема выборки для обобщенно линейной модели.
Задача: Исследуется проблема планирования эксперимента. Решается задача оценивания достаточного объема выборки по данным. Предполагается, что выборка является простой. Она описывается адекватной моделью. Иначе, выборка порождается фиксированной вероятностной моделью из известного класса моделей. Объем выборки считается достаточным, если модель восстанавливается с достаточной достоверностью. Требуется, зная модель, оценить достаточный объем выборки на ранних этапах сбора данных.
Цель: на малой простой iid выборке спрогнозировать ошибку на пополняемой большой. Прогностическая модель гладкая монотонная в двух производных. Выбор модели полный перебор или генетика. Модель зависит от редуцированной (исследовать) матрицы ковариации параметров GLM.
Данные: Для вычислительного эксперимента предлагается использовать классические выборки из UCI репозитория. Ссылка на выборки https://github.com/ttgadaev/SampleSizeEstimation/tree/master/datasets
Литература:

Bishop, C. 2006. Pattern Recognition and Machine Learning. Berlin: Springer. 758 p.

Базовый алгоритм: Будем говорить, что объем выборки достаточный, если логарифм правдоподобия имеет малую дисперсию, на подборке размера m, посчитанную при помощи бутстрепа.

Пытаемся аппроксимировать зависимость среднего значения log-likelihood и его дисперсии от размера выборки.

Решение: Методы описанные в обзоре являются асимптотическими или же требуют заведомо большого размера выборки. Новый метод должен заключаться в том, чтобы прогнозировать объем на начальных этапах планирования эксперимента, то есть когда данных мало.
Авторы: Малиновский Г. (консультант), Стрижов В. В. (эксперт)

Задача 12

Название: Обучение машинного перевода без параллельных текстов.
Задача: Рассматривается задача построения модели перевода текста без использования параллельных текстов, т.е. пар одинаковых предложений на разных языках. Данная задача возникает при построении моделей перевода для низкоресурсных языков (т.е. языков, для которых данных в открытом доступе немного).
Данные: Выборка статей из Wikipedia на двух языках.
Литература:
- [25] Unsupervised Machine Translation Using Monolingual Corpora Only
- [26] Sequence to sequence.
- [27] Autoencoding.
- [28] Training with Monolingual Training Data.
Базовый алгоритм: Unsupervised Machine Translation Using Monolingual Corpora Only.
Решение: В качестве модели перевода предлагается рассмотреть кобминацию двух автокодировщиков, каждый из которых отвечает за представление предложений на одном из языков. Оптимизация моделей проводится таким образом, чтобы скрытые пространства автокодировщиков для разных языков совпадали. В качестве исходного представления предложений предлагается рассматривать их графовое описание, получаемое с использованием мультиязычных онтологий.
Новизна: Предложен способ построения модели перевода с учетом графовых описаний предложений.
Авторы: О.Ю. Бахтеев, В.В. Стрижов,

Задача 8

Название: Порождение признаков с помощью локально-аппроксимирующих моделей (Классификация видов деятельности человека по измерениям фитнес-браслетов).
Задача: Требуется проверить выполнимость гипотезы о простоте выборки для порожденных признаков. Признаки - оптимальные параметры аппроксимирующих моделей. При этом вся выборка не является простой и требует смеси моделей для ее аппроксимации. Исследовать информативность порожденных признаков - параметров аппроксимирующих моделей, обученных на сегментах исходного временного ряда. По измерениям акселерометра и гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. Характерная продолжительность движения – секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности – минуты. Требуется по описанию временного ряда и кластера восстановить вид деятельности.
Данные: Временные ряды акселерометра WISDM (Временной ряд (библиотека примеров), раздел Accelerometry).
- WISDM (Kwapisz, J.R., G.M. Weiss, and S.A. Moore. 2011. Activity recognition using cell phone accelerometers. ACM SigKDD Explorations Newsletter. 12(2):74–82.), USC-HAD или сложнее. Данные акселерометра (Human activity recognition using smart phone embedded sensors: A Linear Dynamical Systems method, W Wang, H Liu, L Yu, F Sun - Neural Networks (IJCNN), 2014)
Литература:
- Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. URL
- Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016.URL
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. URL
- Исаченко Р.В., Стрижов В.В. Метрическое обучение в задачах многоклассовой классификации временных рядов // Информатика и ее применения, 2016, 10(2) : 48-57. URL
- Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. URL
- Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. URL
Базовый алгоритм: Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] и [Кузнецов, Ивкин: 2014].
Решение: Требуется построить набор локально-аппроксимирующих моделей и выбрать наиболее адекватные. Найти оптимальный способ сегментации и оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
Новизна: Создан стандарт построения локально-аппроксимирующих моделей. Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.
Авторы: В.В. Стрижов (эксперт), Александра Гальцева, Данил Сайранов (консультанты)

2020

История 2019 (674) — 2019 (694) — 2018 — 2017 — 2016 — 2015 — 2014 — 2013

Автор	Тема научной работы	Ссылки	Консультант	Буквы	Рецензент
Гребенькова Ольга	Вариационная оптимизация моделей глубокого обучения с контролем сложности модели	LinkReview GitHub Paper Slides Video	Олег Бахтеев	AILP+UXBR+HCV+TEDWS	Шокоров Вячеслав Review
Шокоров Вячеслав	Распознавание текста на основе скелетного представления толстых линий и сверточных сетей	LinkReview GitHub Paper Slides Video	Денис Ожерелков	AIL	Гребенькова Ольга Review
Филатов Андрей	Прогнозирование намерений. Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга	LinkReview GitHub Paper Slides Video	Валерий Маркин	AILPHUXBRCVTEDWS	Христолюбов Максим Review
Исламов Рустем	Анализ свойств ансамбля локально аппроксимирующих моделей	LinkReview GitHub Paper Slides Video	Андрей Грабовой	AILPHUXBRCVTEDWS	Гунаев Руслан Review
Жолобов Владимир	Ранее прогнозирование достаточного объема выборки для обобщенно линейной модели.	LinkReview GitHub Paper Slides Video	Григорий Малиновский	AILPHUXBRCVTEWSF	Вайсер Кирилл Review
Вайсер Кирилл	Аддитивная регуляризация и ее метапараметры при выборе структуры сетей глубокого обучения	LinkReview GitHub Paper Slides Video	Марк Потанин	AILP+HUX+BRCV+TEDWS	Жолобов Владимир Review
Бишук Антон	Решение задачи оптимизации, сочетающей классификацию и регрессию, для оценки энергии связывания белка и маленьких молекул.	LinkReview GitHub Paper Slides Video	Мария Кадукова	AILPHUXBRCVTEDH	Филиппова Анастасия [Антон, не та ссылка]
Филиппова Анастасия	Step detection for IMU navigation via deep learning	LinkReview GitHub Paper Slides EnglishPaper Video	Тамаз Гадаев	AIL0PUXBRCVSF	Бишук Антон Review
Савельев Николай	Распределенная оптимизация в условиях Поляка-Лоясиевича	LinkReview GitHub Paper Slides Video	А. Н. Безносиков	AILPHUXBRCVTEDWS	Харь Александра Review
Харь Александра	Теоретическая обоснованность применения метрических методов классификации с использованием динамического выравнивания (DTW) к пространственно-временным объектам.	LinkReview GitHub Paper Slides Video	Глеб Моргачев, Алексей Гончаров	AILPHUXBRCVTEDCWS	Савельев Николай Review
Христолюбов Максим	Порождение признаков с помощью локально-аппроксимирующих моделей (Классификация видов деятельности человека по измерениям фитнес-браслетов)	LinkReview GitHub Paper Slides Video	Александра Гальцева, Данил Сайранов	AILPH	Филатов Андрей Review
Мамонов Кирилл	Нелинейное ранжирование результатов разведочного информационного поиска.	LinkReview GitHub Paper Slides Video	Максим Еремеев	AILPHU+XBRC+V+TEDHWJSF
Павличенко Никита	Предсказание качества моделей белков с помощью сферических сверток на трехмерных графах.	LinkReview GitHub Paper Slides Video	Сергей Грудинин, Илья Игашов	AILPUXBRHCVTEDH
Содиков Махмуд, Скачков Даниель	Agnostic neural networks	Code Paper Slides Video	Радослав Нейчев	AILPHUXBRC+VTEDHWJSF	Кулагин Петр Review
Гунаев Руслан	Graph Neural Network in Reaction Yield prediction	LinkReview Github Paper Slides Video	Филипп Никитин	AILPUXBRHCVTEDHWSF	Исламов Рустем Review
Яушев Фарух	Исследование способов согласования моделей с помощью снижения размерности пространства	LinkReview Github Paper Slides Video	Роман Исаченко	AILPUXBRHCVTEDHWJS	Жолобов Владимир Review

Задача 51

Название: Анализ свойств ансамбля локально аппроксимирующих моделей.
Задача: В данной работе рассматривается задача построения универсального аппроксиматора --- мультимодели, которая состоит из заданого конечного набора локальных моделей. Каждая локальная модель аппроксимирует связную область в пространстве объектов. Предполагается, что совокупность локальных модели покрывают все пространство объектов. В качестве агрегирующий функции рассматривается выпуклая комбинация локальных моделей. В качестве коэффициентов выпуклой комбинации рассматривается функция зависящая от объекта --- шлюзовой функции.
Требуется: построить алгоритм оптимизации параметров локальных моделей и параметров шлюзовой функции. Требуется предложить метрику в пространстве объектов, метрику в пространстве моделей.
Данные:
1. Синтетически сгенерированные данные.
2. Данные прогнозирования потребления энергии. В качестве локальных моделей перелагается использовать модели: рабочий день, выходной день. (EnergyConsumption, Turk Electricity Consumption GermanSpotPrice).
Литература:
1. Обзор методов для оценки объема выборки
2. лекции Воронцова по композициям
3. лекции Воронцова по композициям
4. Esen Y.S., Wilson J., Gader P.D. Twenty Years of Mixture of Experts. IEEE Transactions on Neural Networks and Learning Systems. 2012. Issues. 23. No 8. P. 1177-1193.
5. Павлов К.В. Выбор многоуровневых моделей в задачах классификации, 2012
Базовый алгоритм: В качестве базового алгоритма предлагается использовать двух уровненную задачу оптимизации, где производится оптимизация локальных моделей на одной итерации и на следующей итерации производится оптимизация параметров шлюзовой функции.
Авторы: Грабовой А. В. (консультант), Стрижов В. В. (эксперт)

Задача 54

Название: Поиск зрачка на изображении глаза методом проекций яркости.
Задача: Дано монохромное растровое изображение глаза, см. примеры (https://cloud.mail.ru/public/eaou/4JSamfmrh).

Необходимо определить приблизительные координаты центра зрачка. Слово «приблизительные» означает то, что вычисленный центр зрачка должен лежать внутри окружности с центром в истинном центре зрачка и половинного истинного радиуса. Алгоритм должен быть очень быстрым.

Данные: около 200 тыс. изображений глаз. При для каждого размечено положение истинной окружности — в целях обучения и проверки создаваемого метода.
Базовой алгоритм: Для ускорения работы с изображением предлагается агрегирование данных при помощи проекций яркости. Яркость изображения — функция двух дискретных аргументов I(x,y). Её проекция на горизонтальную ось равна P(x)=\sum \limits_y I(x,y). Аналогично строятся проекции на оси с наклоном. Построив несколько проекций (две, четыре), исходя из них, можно попытаться определить положение зрачка (компактной тёмной области) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.
Литература: Zhi-Hua Zhou, Xin Geng Projection functions for eye detection // Pattern Recognition. 2004. V.37ю N.5. P.1049-1056. https://doi.org/10.1016/j.patcog.2003.09.006
Авторы: Матвеев И.А.

Задача 55

Название: Поиск границ радужки методом круговых проекций
Задача: Дано монохромное растровое изображение глаза, см. примеры (https://cloud.mail.ru/public/2DBu/5c6F6e3LC). Также известно приблизительное положение центра зрачка. Слово «приблизительное» означает то, вычисленный центр зрачка отстоит от истинного не более чем на половину его истинного радиуса. Необходимо определить приблизительные положения окружностей, аппроксимирующих зрачок и радужку. Алгоритм должен быть очень быстрым.
Данные: около 200 тыс. изображений глаз. При для каждого размечено положение истинной окружности — в целях обучения и проверки создаваемого метода.
Базовой алгоритм: Для ускорения работы с изображением предлагается агрегирование данных при помощи круговых проекций яркости. Круговая проекция — функция, зависящая от радиуса, значение которой P(r) равно интегралу направленного градиента яркости изображения по окружности радиуса r (или по дуге окружности). Пример для одной дуги (правой четверти) и для четырёх дуг. Построив сколько-то круговых проекций, исходя из них, можно попытаться определить положение внутренней и внешней границ радужки (кольца) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.
Литература: Matveev I.A. Detection of Iris in Image By Interrelated Maxima of Brightness Gradient Projections // Applied and Computational Mathematics. 2010. V.9. N.2. P.252-257. https://www.researchgate.net/publication/228396639_Detection_of_iris_in_image_by_interrelated_maxima_of_brightness_gradient_projections
Авторы: Матвеев И.А.

Задача 56

Название: Построение локальных и универсальных интерпретируемых скоринговых моделей
Задача: Построить простую и интерпретируемую скоринговую систему как суперпозицию локальных моделей с учетом требованиям к системе сохранять знания об опорных клиентах и признаках (другими словами, учитывать новые экономические явления). Модель должна являться суперпозицией, причем каждый элемент должен управляться своим критерием качества. Ввести расписание оптимизации структуры и параметров модели: система должна работать в единой оптимизационной цепочке. Предложить алгоритм для отбора признаков и объектов.
Данные:

Данные от ОТП Банка. Выборка содержит записи о 15 223 клиентов, классифицированных на два класса: 1 — отклик был (1812 клиентов), 0 — отклика не было (13411 клиентов). Признаковые описания клиентов состоят из 50 признаков, в состав которых входит, в частности, возраст, пол, социальный статус относительно работы, социальный статус относительно пенсии, количество детей, количество иждивенцев, образование, семейное положение, отрасль работы. Данные доступны по следующим адресам: www.machinelearning.ru/wiki/images/2/26/Contest_MMRO15_OTP.rar (выборка А), www.machinelearning.ru/wiki/images/5/52/Contest_MMRO15_OTP_(validation).rar (выборка Б).
Данные от Home Credit: https://www.kaggle.com/c/home-credit-default-risk/data

Литература:

Strijov V.V. Error function in regression analysis // Factory Laboratory, 2013, 79(5) : 65-73
Bishop C. M. Linear models for classification / В кн.: Pattern Recognition and Machine Learning. Под ред.: M. Jordan, J. Kleinberg, B. Scholkopf. – New York: Springer Science+Business Media, 2006, pp--203 – 208
Токмакова А.А. Получение устойчивых оценок гиперпараметров линейных регрессионных моделей // Машинное обучение и анализ данных. — 2011. — № 2. — С. 140-155
S. Scitovski and N. Sarlija. Cluster analysis in retail segmentation for credit scoring // CRORR 5. 2014. 235–245
Гончаров А. В. Построение интерпретируемых моделей глубокого обучения в задаче социального ранжирования

Базовой алгоритм: Итерационный взвешенный МНК (описан в (2))
Решение: Предлагается построить скоринговую систему, содержащий такой блок предобработки, как блок порождения метрических признаков. Предлагается исследовать влияние неравноценности объектов на отбор признаков для модели, исследовать совместный отбор признаков и объектов при построении модели. Требуется реализовать расписание оптимизации структуры модели с использованием алгоритма, основанного на анализе ковариационных матриц гиперпараметров модели. Расписание включает поэтапное пополнение набора признаков и объектов. Объем выборки признаков будет определяться путем контроля дисперсии ошибки. Основной критерий качества системы: ROC AUC (Gini).
Новизна:

Расписание оптимизации структуры модели должно удовлетворять требованию перестраивать модель в любое время, не теряя ее характеристик.
Учет неравноценности объектов при отборе признаков

Авторы: Пугаева И. В. (консультант), Стрижов В. В. (эксперт)

Задача 59

Название: Распределенная оптимизация в условиях Поляка-Лоясиевича
Задача: Ставится задача эффективного решения больших систем нелинейных уравнений, используя сеть вычислителей.
Решение: Предлагается новый метод децентрализованного распределенного решения систем нелинейных уравнений в условиях Поляка-Лоясиевича. Подход основан на том, что задачу распределенной оптимизации можно представить в виде задачи композитной оптимизации (см. 2 из литературы), которую в свою очередь можно решать аналогами метода подобных треугольников или слайдинга (см. 2 из литературы).
Базовый алгоритм: предложенный метод сравнивается с градиентным спуском и ускоренным градиентным спуском
Литература:

Linear Convergence of Gradient and Proximal-GradientMethods Under the Polyak- Lojasiewicz Condition https://arxiv.org/pdf/1608.04636.pdf
Linear Convergence for Distributed Optimization Under the Polyak-Łojasiewicz Condition https://arxiv.org/pdf/1912.12110.pdf
Optimal Decentralized Distributed Algorithms for Stochastic ConvexOptimization https://arxiv.org/pdf/1911.07363.pdf
Современные численные методы оптимизации, метод универсального градиентного спуска https://arxiv.org/ftp/arxiv/papers/1711/1711.00394.pdf

Новизна: сведение задачи распределенной оптимизации к задаче композитной оптимизации и ее решение в условиях Поляка-Лоясиевича
Авторы: эксперт — А.В. Гасников, консультант — А.Н. Безносиков
Комментарий: важно в этой задаче поставить вычислительный эксперимент, иначе задача будет плохо совместима с курсом.

Задача 17

Название: Прогнозирование намерений. Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга
Задача: При построении систем нейрокомпьютерного интерфейса (brain-computer interface) используются простые, устойчивые модели. Важным этапом построения такой модели является построение адекватного признакового пространства. Ранее такая задача решалась с помощью выделения признаков из частотных характеристик сигналов.
Данные: Наборы данных сигналов мозга ECoG/EEG.
Литература:
1. Motrenko A.P., Strijov V.V. Multi-way feature selection for ECoG-based brain-computer Interface // Expert systems with applications. - 2018.
2. Eliseyev A., Aksenova T. Stable and artifact-resistant decoding of 3D hand trajectories from ECoG signals using the generalized additive model //Journal of neural engineering. – 2014.
Базовый алгоритм: Сравнение предлагается производить с алгоритмом частных наименьших квадратов (partial least squares).
Решение: В данном работе предлагается учесть пространственную зависимость между сенсорами, которые считывают данные. Для этого необходимо локально смоделировать пространственный импульс/сигнал и построить прогностическую модель на основе локального описания.
Новизна: Предлагается существенно новый способ построения признакового описания в задаче декодирования сигналов. Бонус: анализ изменения структуры модели, адаптация структуры при изменении выборки.
Авторы: В.В. Стрижов, Роман Исаченко - эксперты, консультанты – Валерий Маркин, Алина Самохина

Задача 9

Название: Распознавание текста на основе скелетного представления толстых линий и сверточных сетей
Задача: Требуется построить две CNN, одна распознает растровое представление изображения, другая векторное.
Данные: Шрифты в растровом представлении.
Литература: Список работ [29], в частности arXiv:1611.03199 и
- Goyal P., Ferrara E. Graph embedding techniques, applications, and performance: A survey. arXiv:1705.02801, 2017.
- Cai H., Zheng V.W., Chang K.C.-C. A comprehensive survey of graph embedding: Problems, techniques and applications. arXiv:1709.07604, 2017.
- Grover A., Leskovec J. node2vec: Scalable Feature Learning for Networks. arXiv:1607.00653, 2016.
- Mestetskiy L., Semenov A. Binary Image Skeleton - Continuous Approach // Proceedings 3rd International Conference on Computer Vision Theory and Applications, VISAPP 2008. P. 251-258. URL
- Кушнир О.А., Середин О.С., Степанов А.В. Экспериментальное исследование параметров регуляризации и аппроксимации скелетных графов бинарных изображений // Машинное обучение и анализ данных. 2014. Т. 1. № 7. С. 817-827. URL
- Жукова К.В., Рейер И.А. Связность базового скелета и параметрический дескриптор формы // Машинное обучение и анализ данных. 2014. Т. 1. № 10. С. 1354-1368. URL
- Kushnir O., Seredin O. Shape Matching Based on Skeletonization and Alignment of Primitive Chains // Communications in Computer and Information Science. 2015. V. 542. P. 123-136. URL
Базовый алгоритм: Сверточная сеть для растрового изображения.
Решение: Требуется предложить способ свертывания графовых структур, позволяющий породить информативное описание скелета толстой линии.
Новизна: Предложен способ повышения качества распознавания толстых линий за счет нового способа порождения их описаний.
Авторы: эксперты И.А. Рейер, В.В. Стрижов, Марк Потанин, консультант Денис Ожерелков

Задача 60

Название: Вариационная оптимизация моделей глубокого обучения с контролем сложности модели
Задача: рассматривается задача оптимизации модели глубокого обучения с заранее заданной сложностью модели. Требуется предложить метод оптимизации модели, позволяющий производить порождение новых моделей с заданной сложностью и небольшими вычислительными затратами.
Данные:MNIST, CIFAR
Литература:
- [1] вариационный вывод для нейронных сетей https://papers.nips.cc/paper/4329-practical-variational-inference-for-neural-networks.pdf
- [2] гиперсети https://arxiv.org/abs/1609.09106
- [3] фабрики сетей https://papers.nips.cc/paper/6304-convolutional-neural-fabrics.pdf
Базовый алгоритм: случайный поиск
Решение: Предлагаемый метод заключается в представлении модели глубокого обучения в виде гиперсети (сети, которая генерирует параметры другой сети) с использованием байесовского подхода. Вводятся вероятностные предположения о параметрах моделей глубокого обучения, максимизируется вариационная нижняя оценка байесовской обоснованности модели. Вариационная оценка рассматривается как условная величина, зависящая от внешнего параметра сложности.
Новизна: предложенный метод позволяет порождать модели в режиме one-shot (практически без переподготовки) с требуемой сложностью модели, что значительно снижает затраты на оптимизацию и дообучение.
Авторы: О.Ю. Бахтеев, В.В. Стрижов

Задача 61

Название: Выбор модели глубокого обучения на основе триплетной связи модели и выборки
Задача: рассматривается задача one-shot выбора модели глубокого обучения: выбор модели под конкретную выборку, выданную из некоторой генеральной совокупнсоти, не должен быть вычислительно затратным.
Данные:MNIST, синтетические данные
Литература:
- [1] обучение предсказаний модели на парах <выборка, модель> https://www.ri.cmu.edu/pub_files/2016/10/yuxiongw_eccv16_learntolearn.pdf
- [2] байесовский выбор для двух доменов https://arxiv.org/abs/1806.08672
Базовый алгоритм: случайный поиск
Решение: Предлагается рассматривать пространство параметров и моделей как два домена со своими генеративными моделями. Для получения связзи между доменами используется обобщение вариационного вывода на случай триплетных ограничений.
Новизна: Новый метод one-shot обучения моделей
Авторы: О.Ю. Бахтеев, В.В. Стрижов

Задача 64

Название: Теоретическая обоснованность применения метрических методов классификации с использованием динамического выравнивания (DTW) к пространственно-временным объектам.
Задача: Необходимо изучить существующие теоретические обоснования применения методов динамического выравнивания для различных объектов, и исследовать использование таких методов к пространственно-временным рядам.
При доказательстве применимости методов выравнивания доказывают, что функция, порождаемая алгоритмом динамического выравнивания является ядром. Что, в свою очередь, обосновывает применение метрических методов классификации.
Литература:
Решение: Для различных формулировок метода DTW (когда внутренняя функция расстояния между отсчетами временных рядов - различна) - найти и собрать в одном месте доказательства того, что функция является ядром.
Для базового набора датасетов со временными рядами (на которых проверяется точность функций расстояния) проверить выполнение условий из теоремы Мерсера (положительная определенность матрицы). Проделать это для различных модификаций функции расстояния DTW. (Sakoe-Chiba band, Itakura band, weighted DTW.)
Новизна: Исследование теоретических обоснований применения алгоритма динамического выравнивания (DTW) и его модификаций к пространственно-временным рядам.
Авторы: В.В. Стрижов - эксперт, Глеб Моргачев, Алексей Гончаров - консультанты.

Задача 66

Название: Agnostic neural networks
Задача: Ввести метрическое пространство в задачу автоматического построения (выбора) агностических сетей.
Данные: Данные из области Reinforcement learning. Желательно типа машинок на трассе.
Литература:
- (!) Kulunchakov A.S., Strijov V.V. Generation of simple structured Information Retrieval functions by genetic algorithm without stagnation // Expert Systems with Applications, 2017, 85 : 221—230.
- А. А. Варфоломеева Выбор признаков при разметке библиографических списков методами структурного обучения, 2013, [30]
- Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [31]
- https://habr.com/ru/post/465369/
- https://weightagnostic.github.io/
Базовой алгоритм: Сети из статьи в архиве. Символьная регрессия из статьи в ESwA (надо восстановить код).
Решение: Создаем генератор моделей в рамках символьной регрессии. Создаем генератор моделей как вариационный автоэнкодер (не успеем в течение курса). Изучаем метрические свойства пространств выборки (евклидово) и моделей (банахово). Создаем пару GAN - генератор-дискриминатор для прогнозирования структур прогностических моделей.
Новизна: Пока ни у кого не получалось. Тут обсуждали Томми Яакколу, как он к нам в Яндекc приезжал. У него тоже пока не получилось.
Авторы: эксперт В.В. Стрижов, Радослав Нейчев - консультант

Задача 13

Название: Deep learning for RNA secondary structure prediction
Задача: RNA secondary structure is an important feature which defines RNA functional properties. Its importance can be illustrated by the fact, that it is evolutionary preserved and some types of functional RNAs always * have the same secondary structure, for example all tRNAs fold into cloverleaf. As secondary structure often defines functions, knowing RNAs secondary structure may help investigate functions of novel RNA molecules. RNA folding is not as easy as DNA folding, because RNA is single stranded molecule which forms complicated base-pairing interactions, while DNA mostly exists as fully base paired double helices. Current methods of RNA structure prediction rely on experimentally evaluated thermodynamic rules, but with thermodynamics alone only 80% of structures can be accurately predicted. We propose an AI-driven method for predicting RNA secondary structure inspired by neural machine translation model.
Данные: RNA sequences in form of strings of characters
Литература: https://arxiv.org/abs/1609.08144
Базовой алгоритм: https://www.ncbi.nlm.nih.gov/pubmed/16873527
Решение: Deep learning recurrent encoder-decoder model with attention
Новизна: Currently RNA secondary structure prediction still remains unsolved problem and to the best of our knowledge DL approach has never been introduced in the literature before
Авторы: консультант Мария Попова, Александр Исаев (ждем от них отклика, без отклика задача снимается)

Задача 65

Название: Аппроксимация выборок малой размерности разнородными моделями
Задача: Исследуется проблема передачи знаний (дистилляция Хинтона, привилегированное обучение Вапника) от одной сети другой.
Данные: Выбоки UCI, посмотреть, какие выборки используются в работах по этой теме
Литература:
- Дипом Нейчева Информативные априорные предположения в задаче привилегированного обучения, презентация
- Работы Hinton Knowledge distilling, обращать внимание на функции ошибки
Базовой алгоритм: описан в работе Нейчева
Новизна: Исследование различных способов построения выборки
Решение: попробовать различные модели, которые есть в лекциях, от непараметрических, до глубоких, сравнить и визуализировать функции правдоподобия
Авторы: консультанты Марк Потанин, (попросить помощи у Андрея Грабового) В.В. Стрижов

Задача 67

Название: Отбор тем в тематических моделях для разведочного информационного поиска.
Задача: Проверить гипотезу, что при поиске схожих документов по их тематическим векторам не все темы информативны, поэтому отбрасывание некоторых тем может повышать точность и полноту поиска. Рассмотреть альтернативную гипотезу, что вместо отбрасывания тем можно сравнивать векторы по взвешенной косинусной мере близости с настраиваемыми весами.
Данные: Текстовые коллекции сайтов habr.com и techcrunch.com. Размеченные выборки: запросы и релевантные им документы.
Литература:
1. Воронцов К. В. Вероятностное тематическое моделирование: обзор моделей и аддитивная регуляризация.
2. Ianina A., Vorontsov K. Regularized Multimodal Hierarchical Topic Model for Document-by-Document Exploratory Search // FRUCT ISMW, 2019.
Базовой алгоритм: тематическая модель с регуляризаторами и модальностями, описанная в статье (имеется исходный код).
Новизна: Вопрос об информативности тем для векторного поиска тематически близких документов ранее не исследовался.
Решение: Оценить индивидуальную информативность тем, выкидывая их по одной; затем отсортировать темы по индивидуальной информативности и определить порог отсечения неинформативных тем. Наводящее соображение, почему это должно работать: фоновые темы не являются информативными, и их отбрасывание увеличивает точность и полноту поиска на несколько процентов.
Авторы: К.В.Воронцов, консультант Анастасия Янина.

Задача 68

Название: Метаобучение тематических моделей классификации.
Задача: Выработать универсальные эвристики для априорного задания весов модальностей в тематических моделях классификации текстов.
Данные: Описание датасетов, Папка с датасетами.
Литература:
1. Воронцов К. В. Вероятностное тематическое моделирование: обзор моделей и аддитивная регуляризация.
Базовой алгоритм: Тематические модели классификации для нескольких датасетов.
Новизна: В тематическом моделировании до сих пор не решена проблема автоматического подбора весов модальностей.
Решение: Оптимизировать веса модальностей по критерию качества классификации текстов. Исследовать зависимость оптимальных относительных весов модальностей от размерных характеристик задачи. Найти формулы для оценивания начальных значений весов модальностей без явного решения задачи. Для размножения датасетов применить семплирование фрагментов исходных документов.
Авторы: К.В.Воронцов, консультант Юлиан Сердюк.

Задача 70

Название: Исследование структуры целевого пространства при построении предсказательной модели
Задача: Исследуется задача прогнозирования сложной целевой переменной. Под сложностью подразумевается наличие зависимостей (линейных или нелинейных). При этом предполагается, что исходные данные гетерогенны: пространства независимой и целевой переменных имеют разную природу. Требуется построить предсказательную модель, которая бы учитывала зависимость в исходном пространстве независимой переменной, а также в пространстве целевой переменной.
Данные: Гетерогенные данные: картинка - текст, картинка - речь и тд
Базовой алгоритм: В качестве базовых алгоритмов предлагается использовать линейную модель, а также нелинейную нейросетевую модель.
Авторы: В.В. Стрижов - эксперт, консультант: Исаченко Роман.

Задача 71

Название: Исследование способов согласования моделей с помощью снижения размерности пространства
Задача: Исследуется задача прогнозирования сложной целевой переменной. Под сложностью подразумевается наличие зависимостей (линейных или нелинейных). Предлагается изучить способы учета зависимостей в пространстве целевой переменной, а также условия, при которых данные зависимости влияют на качестве финальной предсказательной модели
Данные: Синтетические данные с известной гипотезой порождения данных
Базовой алгоритм: В качестве базовых алгоритмов предлагается использовать методы снижения размерности пространства (PCA, PLS, автоэнкодер) и линейные модели согласования.
Авторы: В.В. Стрижов - эксперт, консультант: Исаченко Роман.

Задача 72

Название: Построение единого скрытого пространства в задаче моделирования гетерогенных данных
Задача: Исследуется задача прогнозирования сложной целевой переменной. Под сложностью подразумевается наличие зависимостей (линейных или нелинейных). Предлагается построить единое скрытое пространство для независимой и целевой переменных. Согласование моделей предлагается производить в полученном низкоразмерном пространстве.
Данные: Гетерогенные данные: картинка - текст, картинка - речь, текст - текст и тд
Базовой алгоритм: В качестве базовых алгоритмов предлагается использовать методы снижения размерности пространства (PCA, PLS, автоэнкодер) и линейные модели согласования.
Авторы: В.В. Стрижов - эксперт, консультант: Исаченко Роман.

Задача 73

Название: Нелинейное ранжирование результатов разведочного информационного поиска.
Задача: Разработать алгоритм для рекомендации порядка чтения документов (reading order, reading list), найденных с помощью разведочного информационного поиска. Документы должны ранжироваться от простого к сложному, от общего к частному, то есть в том порядке, в котором пользователю будет легче разбираться в новой для него тематической области. Алгоритм должен строить граф чтения — отношение частичного порядка на множестве найденных документов; в частности, это может быть совокупность деревьев (лес документов).
Данные: Часть Википедии и эталонный граф чтения, получаемый из категорий Википедии.
Литература:
1. Воронцов К. В. Вероятностное тематическое моделирование: обзор моделей и аддитивная регуляризация.
2. Georgia Koutrika, Lei Liu, and Steven Simske. Generating reading orders over document collections. HP Laboratories, 2014.
3. James G. Jardine. Automatically generating reading lists. Cambridge, 2014.
Базовой алгоритм: описан в статье G.Koutrika.
Новизна: Задача мало исследовалась в литературе. Регуляризованные мультимодальные тематические модели (ARTM, BigARTM) никогда не применялись к данной задаче.
Решение: Использование тематических моделей ARTM совместно с оценками когнитивной сложности текста.
Авторы: К.В.Воронцов, консультант Максим Еремеев.

2019

История 2019 (694) — 2018 — 2017 — 2016 — 2015 — 2014 — 2013

Автор	Тема научной работы	Ссылки	Консультант	Рецензент
Северилов Павел	Задача поиска символов в текстах	LinkReview code paper slides video	Мурат Апишев
Григорьев Алексей	Распознавание текста на основе скелетного представления толстых линий и сверточных сетей	LinkReview code, paper, slides video	Илья Жариков	рецензия Вареник Наталия
Гришанов Алексей	Автоматическая настройка параметров BigARTM под широкий класс задач	LinkReview code, paper slides video	Виктор Булатов	рецензия Герасименко Николай
Юсупов Игорь	Динамическое выравнивание многомерных временных рядов	LinkReview code paper slides video	Алексей Гончаров
Вареник Наталия	Spherical CNN for QSAR prediction	LinkReview, code, paper, slides video	Мария Попова	рецензия Григорьев Алексей
Безносиков Александр	Z-learning of linearly-solvable Markov Decision Processes	LinkReview paper code slides video	Yury Maximov
Панченко Святослав	Получение простой выборки на выходе слоя нейронной сети	LinkReview, code, paper, slides	Гадаев Тамаз
Веселова Евгения	Deep Learning for reliable detection of tandem repeats in 3D protein structures	Code link review paper slides video	Guillaume Pages, Sergei Grudinin
Аминов Тимур	Предсказание качества для процедуры выбора признаков	LinkReview code paper slides	Роман Исаченко
Маркин Валерий	Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга	LinkReview code paper slides video	Роман Исаченко
Абдурахмон Садиев	Порождение признаков с помощью локально-аппроксимирующих моделей	LinkReview code, paper, slides video	Анастасия Мотренко
Тагир Саттаров	Обучение машинного перевода без параллельных текстов.	LinkReview code paper, slides video	Олег Бахтеев
Герасименко Николай	Тематический поиск схожих дел в коллекции актов арбитражных судов.	LinkReview code paper slides video	Екатерина Артёмова	рецензия Гришанов Алексей

Задача 40

Название: Предсказание качества для процедуры выбора признаков.
Задача: Решение задачи выбора признаков сводится к перебору вершин бинарного куба. Данную процедуру невозможно произвести для выборки с большим числом признаком. Предлагается свести данную задачу к оптимизации в линейном пространстве.
Данные: Синтетические данные + простые выборки
Литература:
1. Bertsimas D. et al. Best subset selection via a modern optimization lens //The annals of statistics. – 2016. – Т. 44. – №. 2. – С. 813-852.
2. Luo R. et al. Neural architecture optimization //Advances in Neural Information Processing Systems. – 2018. – С. 7827-7838.
Базовый алгоритм: популярные методы выбора признаков.
Решение: В данном работе предлагается построить модель, которая по набору признаков прогнозирует качество на тестовой выборке. Для этого строится отображение бинарного куба в линейное пространство. После этого максимизируется качество модели в линейном пространстве. Для реконструкции решения задачи используется модель обратного отображенияв бинарный куб.
Новизна: Предлагается конструктивно новый подход к решению задачи выбора моделей.
Авторы: В.В. Стрижов, Tetiana Aksenova, консультант – Роман Исаченко

Задача 42

Название: Z-learning of linearly-solvable Markov Decision Processes
Задача: Adapt Z-learning from [1] to the case of Markov Decision Process discussed in [2] in the context of energy systems. Compare it with standard (in reinforcement learning) Q-learning.
Данные: We consider a Markov Process described via transition probability matrix. Given initial state vector (probability of being in a state at time zero), we generate data for the time evolution of the state vector. See [2] for an exemplary process describing evolution of an ensemble of energy consumers.
Литература:
1. E. Todorov. Linearly-solvable Markov decision problems https://homes.cs.washington.edu/~todorov/papers/TodorovNIPS06.pdf
2. Ensemble Control of Cycling Energy Loads: Markov Decision Approach. Michael Chertkov, Vladimir Y. Chernyak, Deepjyoti Deka. https://arxiv.org/abs/1701.04941
3. Csaba Szepesvári. Algorithms for Reinforcement Learning. https://sites.ualberta.ca/~szepesva/papers/RLAlgsInMDPs.pdf
Базовой алгоритм: Principal comparison should be made with Q learning described in [3]
Решение: We suppose that plugging in algorithm from [1] directly into [2] gives faster and more reliable solution.
Новизна: In the area of power systems there is a huge demand on fast reinforcement learning algorithms, but there is still a lack of that (in particular the ones respect the physics/underlying graph)
Авторы: Yury Maximov (consultant, expert), Michael Chertkov (expert)

Задача 1

Название: Прогнозирование направления движения цены биржевых инструментов по новостному потоку.
Задача: Построить и исследовать модель прогнозирования направления движения цены. Задано множество новостей S и множество временных меток T, соответствующих времени публикации новостей из S. 2. Временной ряд P, соответствующий значению цены биржевого инструмента, и временной ряд V, соответствующий объему продаж по данному инструменту, за период времени T'. 3. Множество T является подмножеством периода времени T'. 4. Временные отрезки w=[w0, w1], l=[l0, l1], d=[d0, d1], где w0 < w1=l0 < l1=d0 < d1. Требуется спрогнозировать направление движения цены биржевого инструмента в момент времени t=d0 по новостям, вышедшим в период w.
Данные:
1. Финансовые данные: данные о котировках (с интервалом в один тик) нескольких финансовых инструментов (GAZP, SBER, VTBR, LKOH) за 2 квартал 2017 года с сайта Finam.ru; для каждой точки ряда известны дата, время, цена и объем.
2. Текстовые данные: экономические новости за 2 квартал 2017 года от компании Форексис; каждая новость является отдельным html файлом.
Литература:
1. Usmanova K.R., Kudiyarov S.P., Martyshkin R.V., Zamkovoy A.A., Strijov V.V. Analysis of relationships between indicators in forecasting cargo transportation // Systems and Means of Informatics, 2018, 28(3).
2. Kuznetsov M.P., Motrenko A.P., Kuznetsova M.V., Strijov V.V. Methods for intrinsic plagiarism detection and author diarization // Working Notes of CLEF, 2016, 1609 : 912-919.
3. Айсина Роза Мунеровна, Тематическое моделирование финансовых потоков корпоративных клиентов банка по транзакционным данным, выпускная квалификационная работа.
4. Lee, Heeyoung, et al. "On the Importance of Text Analysis for Stock Price Prediction." LREC. 2014.
Базовый алгоритм: Метод, использованный в статье (4).
Решение: Использование тематического моделирования (ARTM) и локальных аппроксимирующих моделей для перевода последовательности текстов, соответствующих различным временным меткам, в единое признаковое описание. Критерий качества: F1-score, ROC AUC, прибыльность используемой стратегии.
Новизна: Для обоснования связи временных рядов предлагается метод Сходящегося перекрестного отображения.
Авторы: Иван Запутляев (консультант), В.В. Стрижов, К.В. Воронцов (эксперты)

Задача 3

Название: Динамическое выравнивание многомерных временных рядов.
Задача: Характерным многомерным временным рядом является траектория точки в 3х-мерном пространстве. Две траектории необходимо выравнивать оптимальным образом друг относительно друга. Для этого используется расстояние DTW между двумя временными рядами. В классическом представлении DTW строится между одномерными временными рядами. Необходимо ввести различные модификации алгоритма для работы со временными рядами высокой размерности: траекториями, кортикограммами.
Данные: Данные описывают 6 классов временных рядов с акселерометра мобильного телефона. https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015MetricClassification/data/
Литература:
1. Multidimensional DTW: https://pdfs.semanticscholar.org/76d3/5bd5a52453ebde80faaa1467d7effd74426f.pdf
Базовый алгоритм: Использование L_p расстояний между двумя измерениями временного ряда, их модификаций.
Решение: Исследование расстояний, устойчивых к изменению порядка координат, исследований расстояний неустойчивых к изменению порядка координат. Эксперименты с другими видами расстояний (косинусное, RBF, прочие).
Новизна: Нет полного обзора и исследования методов работы с многомерными временными рядами. Не исследована зависимость качества решения от подобранных расстояний между измерениями.
Авторы: Алексей Гончаров - консультант, эксперт, В.В. Стрижов - эксперт

Задача 43

Название: Получение простой выборки на выходе слоя нейронной сети
Задача: Выход нейронной сети это, как правило, обобщённо линейная модель над выходами предпоследнего слоя. Нужно предложить способ тестирования простоты выборки и её соответствия обобщённо-линейной модели (линейная регрессия, логистическая регрессия) при помощи системы статистических критериев.
Данные: Для вычислительного эксперимента предлагается использовать классические выборки из UCI репозитория. Ссылка на выборки https://github.com/ttgadaev/SampleSize/tree/master/datasets
Литература: http://www.ccas.ru/avtorefe/0016d.pdf c 49-63 Bishop, C. 2006. Pattern Recognition and Machine Learning. Berlin: Springer. 758 p.
Базовой алгоритм: Тест Уайта, Критерий Вальда, Тест Голдфелда-Кванта, Дарбина-Ватсона, Хи-квадрат, Жарка-Бера, Шапиро-Уилка
Решение: Система тестов проверки простоты выборки (и адекватности модели), независимые переменные неслучайны, зависимые переменные распределены нормально или биномиально, нет пропусков и выбросов, классы сбалансированы, выборка аппроксимируется единой моделью. Дисперсия функции ошибки не зависит от независимой переменной. Исследование проводится по синтетическим и реальным данным.
Авторы: Гадаев Т. Т. (консультант) Стрижов В. В., Грабовой А. В. (эксперты)

Задача 14

Название: Deep Learning for reliable detection of tandem repeats in 3D protein structures подробнее в PDF
Задача: Deep learning algorithms pushed computer vision to a level of accuracy comparable or higher than a human vision. Similarly, we believe that it is possible to recognize the symmetry of a 3D object with a very high reliability, when the object is represented as a density map. The optimization problem includes i) multiclass classification of 3D data. The output is the order of symmetry. The number of classes is ~10-20 ii) multioutput regression of 3D data. The output is the symmetry axis (a 3-vector). The input data are typically 24x24x24 meshes. The total amount of these meshes is of order a million. Biological motivation : Symmetry is an important feature of protein tertiary and quaternary structures that has been associated with protein folding, function, evolution, and stability. Its emergence and ensuing prevalence has been attributed to gene duplications, fusion events, and subsequent evolutionary drift in sequence. Methods to detect these symmetries exist, either based on the structure or the sequence of the proteins, however, we believe that they can be vastly improved.
Данные: Synthetic data are obtained by ‘symmetrizing’ folds from top8000 library (http://kinemage.biochem.duke.edu/databases/top8000.php).
Литература: Our previous 3D CNN: [32] Invariance of CNNs (and references therein): [33], [34]
Базовый алгоритм: A prototype has already been created using the Tensorflow framework [4], which is capable to detect the order of cyclic structures with about 93% accuracy. The main goal of this internship is to optimize the topology of the current neural network prototype and make it rotational and translational invariant with respect to input data. [4] [35]
Решение: The network architecture needs to be modified according to the invariance properties (most importantly, rotational invariance). Please see the links below [36], [37] The code is written using the Tensorflow library, and the current model is trained on a single GPU (Nvidia Quadro 4000)of a desktop machine.
Новизна: Applications of convolutional networks to 3D data are still very challenging due to large amount of data and specific requirements to the network architecture. More specifically, the models need to be rotationally and transnationally invariant, which makes classical 2D augmentation tricks loosely applicable here. Thus, new models need to be developed for 3D data.
Авторы: эксперт Sergei Grudinin, консультанты Guillaume Pages

Задача 46

Название: Задача поиска символов в текстах
Задача: В простейшем случае эта задача сводится к задаче Sequence Labeling на размеченной выборке. Сложность заключается в получении достаточного объёма обучающих данных, то есть требуется по имеющейся небольшой экспертной разметке получить выборку большего размера (автоматически путём поиска закономерностей или же путём составления несложной и качественной инструкции для разметки, например, в Толоке). Наличие разметки позволяет начать эксперименты с подбором оптимальной модели, здесь могут быть интересны разнообразные нейросетевые архитектуры (BiLSTM, Transformer и т.п.).
Данные: Словарь символов , Размеченные художественные тексты 
Литература: http://www.machinelearning.ru/wiki/images/0/05/Mmta18-rnn.pdf
Базовый алгоритм: HMM, RNN
Решение: Предлагается сравнить работы нескольких state-of-the-art алгоритмов. Предложить метрику качества классификатора для символов (символ/не символ). Определить применимость методов.
Новизна: Предлагаемый подход к анализу текста используется экспертами в ручном режиме и не был автоматизирован
Авторы: М. Апишев (консультант), Д. Лемтюжникова

Задача 47

Название: Deep learning for RNA secondary structure prediction
Задача: RNA secondary structure is an important feature which defines RNA functional properties. Its importance can be illustrated by the fact, that it is evolutionary preserved and some types of functional RNAs always * have the same secondary structure, for example all tRNAs fold into cloverleaf. As secondary structure often defines functions, knowing RNAs secondary structure may help investigate functions of novel RNA molecules. RNA folding is not as easy as DNA folding, because RNA is single stranded molecule which forms complicated base-pairing interactions, while DNA mostly exists as fully base paired double helices. Current methods of RNA structure prediction rely on experimentally evaluated thermodynamic rules, but with thermodynamics alone only 80% of structures can be accurately predicted. We propose an AI-driven method for predicting RNA secondary structure inspired by neural machine translation model.
Данные: RNA sequences in form of strings of characters
Литература: https://arxiv.org/abs/1609.08144
Базовой алгоритм: https://www.ncbi.nlm.nih.gov/pubmed/16873527
Решение: Deep learning recurrent encoder-decoder model with attention
Новизна: Currently RNA secondary structure prediction still remains unsolved problem and to the best of our knowledge DL approach has never been introduced in the literature before
Авторы: консультант Мария Попова Chapel-Hill

Задача 4

Название: Автоматическая настройка параметров АРТМ под широкий класс задач.
Задача: Открытая библиотека bigARTM позволяет строить тематические модели, используя широкий класс возможных регуляризаторов. Однако такая гибкость приводит к тому, что задача настройки коэффициентов оказывается очень сложной. Эту настройку можно значительно упростить, используя механизм относительных коэффициентов регуляризации и автоматический выбор N-грамм. Нужно проверить гипотезу о том, что существует универсальный набор относительных коэффициентов регуляризации, дающий "достаточно хорошие" результаты на широком классе задач. Дано несколько датасетов с каким-то внешним критерием качества (например, классификация документов по категориям или ранжирование). Находим лучшие параметры для конкретного датасета, дающие "локально лучшую модель". Находим алгоритм инициализации bigARTM, производящий тематические модели с качеством, сравнимым с "локально лучшей моделью" на её датасете. Критерий сравнимости по качеству: на данном датасете качество "универсальной модели" не более чем на 5% хуже, чем у "локально лучшей модели".
Данные: Victorian Era Authorship Attribution Data Set, 20 Newsgroups, МКБ-10, триплеты для поиска/ранжирования.
Литература:
1. ВКР Никиты Дойкова: http://www.machinelearning.ru/wiki/images/9/9f/2015_417_DoykovNV.pdf
2. Презентация Виктора Булатова на научном семинаре: https://drive.google.com/file/d/19pJ21LRPeeOxY4mkcSnQCRm93zOO4J5b/view
3. Черновик с формулами: https://drive.google.com/open?id=1AqS7snUsSJ18ZYBtC-6uP_2dMTDJSGeD
Базовый алгоритм: PLSA / LDA / логрегрессия.
Решение: bigARTM с фоновыми темами и регуляризаторами сглаживания, разреживания и декорреляции (коэффициенты подобраны автоматически), а также с автоматически выделенными N-граммами.
Новизна: Потребность в автоматизированной настройке параметров модели и отсутствие подобных реализаций в научном сообществе.
Авторы: консультант Виктор Булатов, эксперт К.В.Воронцов.

Задача 50

Название: Тематический поиск схожих дел в коллекции актов арбитражных судов.
Задача: Построить алгоритм информационного поиска по коллекции актов арбитражных судов. Запросом может быть произвольный документ коллекции (текст акта). Результатом поиска должен быть список документов коллекции, ранжированный по убыванию релевантности.
Данные: коллекция текстовых документов — актов арбитражных судов http://kad.arbitr.ru.
Литература:
1. Анастасия Янина. Тематический разведочный информационный поиск. 2018. ФИВТ МФТИ.
2. Ianina A., Golitsyn L., Vorontsov K. Multi-objective topic modeling for exploratory search in tech news. AINL-2017. CCIS, Springer, 2018.
3. Ahmed El-Kishky, Yanglei Song, Chi Wang, Clare Voss, Jiawei Han. Scalable Topical Phrase Mining from Text Corpora. 2015.
Базовый алгоритм: BigARTM с регуляризаторами декоррелирования, сглаживания, разреживания. Поиск по TF-IDF слов, по TF-IDF ссылок НПА, по тематическим векторным представлениям документов, с использованием косинусной меры близости. Алгоритм TopMine для выделения коллокаций.
Решение: Добавить модальность ссылок на нормативно-правовые акты. Добавить модальность юридических терминов. Подобрать оптимальное число тем и стратегию регуляризации. Организовать процесс разметки пар документов. Реализовать оценивание качества поиска по размеченной выборке пар документов.
Новизна: Первая попытка применения АРТМ для тематического поиска по юридическим текстам.
Авторы: консультант Екатерина Артёмова, эксперт К.В.Воронцов.

Вторая группа??

История 2019 (674) — 2018 — 2017 — 2016 — 2015 — 2014 — 2013

Автор	Тема научной работы	Ссылки	Консультант	Рецензент
Вишнякова Нина	Optimal Approximation of Non-linear Power Flow Problem	LinkReview paper code presentation video	Yury Maximov	рецензент Логинов Роман review
Кудрявцева Полина	Прогнозирование намерений. Построение оптимальной модели декодирования сигналов при моделировании нейрокомпьютерного интерфейса.	code LinkReview paper video presentation	Роман Исаченко	Нечепуренко Иван review
Логинов Роман	Мультимоделирование как универсальный способ описания выборки общего вида	code LinkReview paper ChatInvite presentation video	Адуенко А. А.	Макаров Михаил review
Михаил Макаров	Определение местоположения по сигналам акселерометра	code LinkReview paper презентация video	Анастасия Мотренко	Черепков Антон: review
Козинов Алексей	Задача поиска символов в изображениях	LinkReview paper code	М. Апишев, Д. Лемтюжникова	Грачёва Анастасия (рецензия)
Бучнев Валентин	Раннее прогнозирование достаточного объема выборки для обобщенной линейной модели.	LinkReview paper code presentation video	Грабовой А. В.	рецензент
Нечепуренко Иван	Мультимоделирование, привилегированное обучение	code, paper, LinkReview презентация	Р. Г. Нейчев	Кудрявцева Полина
Грачева Анастасия	Оценка энергии связывания белка и маленьких молекул	code paper LinkReview presentation video	Сергей Грудинин, Мария Кадукова	рецензент
Черепков Антон	Привилегированное обучение в задаче аппроксимации границ радужки глаза	paper, slides, code, LinkReview video	Р. Г. Нейчев	Лепехин Михаил preliminary review
Лепехин Михаил	Создание ранжирующих моделей для систем информационного поиска. Алгоритм прогнозирования структуры локально-оптимальных моделей	code LinkReview paper presentation video	Андрей Кулунчаков	Вишнякова Нина, рецензия
Гридасов Илья	Автоматическое построение нейросети оптимальной сложности	LinkReview paper Presentation code	О. Ю. Бахтеев, В. В. Стрижов	Бучнев Валентин
Теленков Дмитрий	Декодирование сигналов мозга и прогнозирование намерений	LinkReview git The paper Presentation code	Андрей Задаянчук	рецензент

Задача 18

Название: Прогнозирование намерений. Построение оптимальной модели декодирования сигналов при моделировании нейрокомпьютерного интерфейса.
Задача: Нейрокомпьютерный интерфейс (BCI) позволяет помочь людям с ограниченными возможностями вернуть их мобильность. По имеющемуся описанию сигнала прибора необходимо смоделировать поведение субъекта.
Данные: Наборы данных сигналов мозга ECoG/EEG.
Литература:

- Motrenko A.P., Strijov V.V. Multi-way feature selection for ECoG-based brain-computer Interface // Expert systems with applications. - 2018.

Базовый алгоритм: Сравнение предлагается производить с алгоритмом частных наименьших квадратов (partial least squares).
Решение: В данной работе предлагается построить единую систему, решающую задачу декодирования сигналов. В качестве этапов построения такой системы предлагается решить задачи предобработки данных, выделения признакового пространства, снижения размерности и выбора модели оптимальной сложности. Предлагается использовать тензорный вариант PLS с отбором признаков.
Новизна: В постановке задачи учитывается комплексная природа сигнала: непрерывная траектория движения, наличие дискретных структурных переменных (пальцы или движение суставов), наличие непрерывных переменных (позиция пальца или конечности).
Авторы: В.В. Стрижов, Tetiana Aksenova, консультант – Роман Исаченко

Задача 41

Название: Optimal Approximation of Non-linear Power Flow Problem
Задача: Our goal is to approximate the solution of non-linear non-convex optimal power flow problem by solving a sequence of convex optimization problems (aka trust region approach). On this way we propose to compare various approaches for approximate solution of this problem with adaptive approximation of the power flow non-linearities with a sequence of quadratic and/or piece-wise linear functions
Данные: Matpower module from MATLAB contains all necessary test cases. Start considering with IEEE 57 bus case.
Литература:
1. Molzahn, D. K., & Hiskens, I. A. (2019). A survey of relaxations and approximations of the power flow equations. Foundations and Trends in Electric Energy Systems, 4(1-2), 1-221. https://www.nowpublishers.com/article/DownloadSummary/EES-012
2. The QC Relaxation: A Theoretical and Computational Study on Optimal Power Flow. Carleton Coffrin ; Hassan L. Hijazi ; Pascal Van Hentenryck https://ieeexplore.ieee.org/abstract/document/7271127/
3. Convex Relaxations in Power System Optimization: A Brief Introduction. Carleton Coffrin and Line Roald. https://arxiv.org/pdf/1807.07227.pdf
4. Optimal Adaptive Linearizations of the AC Power Flow Equations. Sidhant Misra, Daniel K. Molzahn, and Krishnamurthy Dvijotham https://molzahn.github.io/pubs/misra_molzahn_dvijotham-adaptive_linearizations2018.pdf
Базовой алгоритм: A set of algorithms described in [1] should be considered to compare with, details behind the proposed method would be shared by the consultant (a draft of the paper)
Решение: to figure out the quality of the solution we propose to compare it with the ones given by IPOPT and numerous relaxations, and do some reverse engineering regarding to our method
Новизна: The OPF is a truly hot topic in power systems, and is of higher interest by the discrete optimization community (as a general QCQP problem). Any advance in this area is of higher interest by the community
Авторы: Yury Maximov (consultant and expert), Michael Chertkov (expert)
Замечания: the problem has both the computational and the theoretical focuses, so 2 students are ok to work on this topic

Задача 2

Название: Исследование опорных объектов в задаче метрической классификации временных рядов.
Задача: Функция DTW - это расстояние между двумя временными рядами, которые могут быть нелинейно деформированы друг относительно друга. Она ищет наилучшее выравнивание между двумя объектами, поэтому ее можно использовать в задаче метрической классификации объектов. Один из методов решения задачи метрической классификации - измерение расстояний до опорных объектов и использование вектора этих расстояний в качестве признакового описания объекта. Метод DBA - это алгоритм построения центроидов (опорных объектов) для временных рядов на основе расстояния DTW. При построении расстояния между временным рядом и центроидом различные пары значений (например пиковые значения) более характерны для одного из классов, и влияние таких совпадений на значение расстояния должна быть выше.

Необходимо исследовать различные способы построения опорных объектов, а также определение их оптимального числа. Критерием является качество работы метрического классификатора в задаче. В методе DBA для каждого центроида предлагается создавать вектор весов, который демонстрирует "значимость" измерений центроида, и использовать его в модифицированной функции расстояния weighted-DTW.

Данные: Данные описывают 6 классов временных рядов с акселерометра мобильного телефона. https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015MetricClassification/data/
Литература:
Базовый алгоритм: Реализовать базовые методы:
1. Выбор подмножества объектов обучающей выборки как опорных
2. Предварительная обработка аномальных объектов
3. Кластеризация объектов обучающей выборки для построения центроидов внутри кластера
4. Использование метода DBA для построения опорных объектов
5. Использование методов численной оптимизации для поиска оптимального вектора весов с заданными ограничениями
Решение: Расширение типов ограничений на вид вектора весов: бинарный вектор, одинаковый вектор для всех центроидов, бинарный одинаковый вектор для всех центроидов. Такое решение позволит экономить затраты энергии при работе датчиков мобильного устройства.

Исследование литературы и комбинация up-to-date методов.

Новизна: Не проводилось комплексного исследования различных способов построения центроидов и опорных элементов вместе с выбором их оптимального числа.
Авторы: Алексей Гончаров - консультант, эксперт, В.В. Стрижов - эксперт

Задача 7

Название: Привилегированное обучение в задаче аппроксимации границ радужки глаза
Задача: По изображению человеческого глаза определить окружности, аппроксимирующие внутреннюю и внешнюю границу радужки.
Данные: Растровые монохромные изображения, типичный размер 640*480 пикселей (однако, возможны и другие размеры)[38], [39].
Литература:
- Адуенко А.А. Выбор мультимоделей в задачах классификации (научный руководитель В.В. Стрижов). Московский физико-технический институт, 2017. [40]
- К.А.Ганькин, А.Н.Гнеушев, И.А.Матвеев Сегментация изображения радужки глаза, основанная на приближенных методах с последующими уточнениями // Известия РАН. Теория и системы управления, 2014, № 2, с. 78–92.
- Duda, R. O. Use of the Hough transformation to detect lines and curves in pictures / R. O. Duda, P. E. Hart // Communications of the ACM. 1972. Vol. 15, no. 1. Pp.
Базовый алгоритм: Ефимов Юрий. Поиск внешней и внутренней границ радужки на изображении глаза методом парных градиентов, 2015.
Решение: См. Iris_circle_problem.pdf
Новизна: Предложен быстрый беспереборный алгоритм аппроксимации границ с помощью линейных мультимоделей. Дополнительно капсульные нейросети.
Консультант: Радослав Нейчев (автор Стрижов В.В., эксперт Матвеев И.А.)

Задача 44

Название: Ранее прогнозирование достаточного объема выборки для обобщенно линейной модели.
Задача: Исследуется проблема планирования эксперимента. Решается задача оценивания достаточного объема выборки по данным. Предполагается, что выборка является простой. Она описывается адекватной моделью. Иначе, выборка порождается фиксированной вероятностной моделью из известного класса моделей. Объем выборки считается достаточным, если модель восстанавливается с достаточной достоверностью. Требуется, зная модель, оценить достаточный объем выборки на ранних этапах сбора данных.
Данные: Для вычислительного эксперимента предлагается использовать классические выборки из UCI репозитория. Ссылка на выборки https://github.com/ttgadaev/SampleSize/tree/master/datasets
Литература:
1. [Обзор методов для оценки объема выборки]
2. http://svn.code.sf.net/p/mlalgorithms/code/PhDThesis/..
3. Метод бутстреп. https://projecteuclid.org/download/pdf_1/euclid.aos/1..

Bishop, C. 2006. Pattern Recognition and Machine Learning. Berlin: Springer. 758 p.

Базовый алгоритм: Будем говорить, что объем выборки достаточный, если логарифм правдоподобия имеет малую дисперсию, на подборке размера m, посчитанную при помощи бутстрепа.

Пытаемся аппроксимировать зависимость среднего значения log-likelihood и его дисперсии от размера выборки.

Решение: Методы описанные в обзоре являются асимптотическими или же требуют заведомо большого размера выборки. Новый метод должен заключаться в том, чтобы прогнозировать объем на начальных этапах планирования эксперимента, то есть когда данных мало.
Авторы: Грабовой А. В. (консультант), Гадаев Т. Т Стрижов В. В. (эксперты)
Примечание: для определения простоты выборки предлагается новое определение сложности (Сергей Иванычев). Это отдельная работа, +1 задача 44a (? Катруца).

Задача 15

Название: Формулировка и решение задачи оптимизации, сочетающей классификацию и регрессию, для оценки энергии связывания белка и маленьких молекул. Описание задачи [41]
Задача: С точки зрения биоинформатики, задача заключается в оценке свободной энергии связывания белка с маленькой молекулой (лигандом): наилучший лиганд в своем наилучшем положении имеет наименьшую свободную энергию взаимодействия с белком. (Далее большой текст, см. файл по ссылке вверху.)
Данные:
- Данные для бинарной классификации. Около 12,000 комплексов белков с лигандами: для каждого из них есть 1 нативная поза и 18 ненативных. Основными дескрипторами являются гистограммы распределений расстояний между различными атомами белка и лиганда, размерность вектора дескрипторов ~ 20,000. В случае продолжения исследования и публикации в профильном журнале набор дескрипторов может быть расширен. Данные будут предоставлены в виде бинарных файлов со скриптом на python для чтения.
- Данные для регрессии. Для каждого из представленных комплексов известно значение величины, которую можно интерпретировать как энергию связывания.
Литература:
- SVM [42]
- Ridge Regression [43]
- [44] (секция 1)
Базовый алгоритм: [45] В задаче классификации мы использовали алгоритм, похожий на линейный SVM, связь которого с оценкой энергии, выходящей за рамки задачи классификации, описана в указанной выше статье. В задаче регрессии можно использовать различные функции потерь.
Решение: Необходимо связать использованную ранее оптимизационную задачу с задачей регрессии и решить стандартными методами. Для проверки работы алгоритма будет использована кросс-валидация. Есть отдельный тестовый сет, состоящий из (1) 195 комплексов белков и лигандов, для которых нужно найти наилучшую позу лиганда (алгоритм получения положений лиганда отличается от используемого при обучении), (2) комплексов белков и лигандов, для нативных поз которых нужно предсказать энергию связывания, и (3) 65 белков, для которых нужно найти наиболее сильно связывающийся лиганд.
Новизна: В первую очередь, интерес представляет объединение задач классификации и регрессии. Правильная оценка качества связывания белка и лиганда используется при разработке лекарства для поиска молекул, наиболее сильно взаимодействующих с исследуемым белком. Использование описанной выше задачи классификации для предсказания энергии связывания приводит к недостаточно высокой корреляции предсказаний с экспериментальными значениями, в то время как использование одной лишь задачи регрессии приводит к переобучению.
Авторы Сергей Грудинин, Мария Кадукова

Задача 27

Название: Создание ранжирующих моделей для систем информационного поиска. Алгоритм прогнозирования структуры локально-оптимальных моделей
Задача: Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, и на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Задача состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
Данные:
- Коллекция текстовых документов TREC (!)
- Набор временных рядов, который подразумевает восстановление функциональных зависимостей. Предлагается сначала использовать синтетические данные или сразу применить алгоритм к прогнозированию временных рядов 1) потребления электроэнергии 2) физической активности с последующим анализом получающихся структур.
Литература:
1. (!) Kulunchakov A.S., Strijov V.V. Generation of simple structured Information Retrieval functions by genetic algorithm without stagnation // Expert Systems with Applications, 2017, 85 : 221—230.
2. А. А. Варфоломеева Выбор признаков при разметке библиографических списков методами структурного обучения, 2013, [46]
3. Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [47]
Базовой алгоритм: Описан в [1]. Развит в работе команды группы 974. Предлагается использовать их код и эксперимент.
Решение: Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит. Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) и получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
Авторы: консультант Андрей Кулунчаков (Inria Montbonnot), эксперт В. В. Стрижов

Задача 26

Название: Определение местоположения по сигналам акселерометра
Задача: Даны исходные координаты, сигналы акселерометра, дополнительная информация (сигналы гироскопа, магнетометра). Возможно, дана неточная карта (задача SLAM)
Данные: из работы [1], данные, собранные самостоятельно.
Литература:
1. https://arxiv.org/pdf/1712.09004.pdf
2. https://ieeexplore.ieee.org/document/1528431
Базовый алгоритм: из работы [1].
Решение: Поиск априорной и дополнительной информации, которая позволяет повысить точность позиционирования.
Новизна: Постановка задачи в терминах Projection to Latent Spaces
Авторы: консультант Анастасия Мотренко, эксперт Илья Гарцеев, В. В. Стрижов

Задача 45

Название: Задача поиска символов в изображениях
Задача: Данная задача в одном из вариантов постановки может быть сведена к двум последовательным операциям: 1) поиск объектов на изображении и определение их класса 2) поиск в базе данных информации о символическом смысле найденных объектов. Основная сложность решения задачи заключена в поиске объектов на изображении. Однако следующая классификация также может быть затруднительной в связи с тем, что изображение объекта может быть неполным, необычно стилизованным и т.п.
Данные: Словарь символов  Сайты-музеи  Image-net 
Литература:
1. http://www.machinelearning.ru/wiki/images/e/e2/IDP18.pdf (с. 116)
2. http://www.image-net.org
Базовый алгоритм: CNN
Решение: Предлагается сравнить работы нескольких state-of-the-art алгоритмов. Предложить метрику качества поиска и классификации объектов. Определить применимость методов.
Новизна: Предлагаемый подход к анализу изображений используется экспертами в ручном режиме и не был автоматизирован
Авторы: М. Апишев (консультант), Д. Лемтюжникова

Задача 28

Название: Мультимоделирование как универсальный способ описания выборки общего вида
Задача: Построить метод инкрементального уточнения структуры мультимодели при появлении новых объектов. Разработка и сравнение разных алгоритмов обновления структуры мультимоделей. Построение оптимальной схемы уточнения структуры мультимодели в зависимости от полного размера выборки.
Данные: На начальном этапе работы используются синтетические данные с известной статистической структурой. Тестирование разработанных методов производится на реальных данных из репозитория UCI.
Литература:

Bishop, Christopher M. «Pattern recognition and machine learning». Springer, New York (2006).
Gelman, Andrew, et al. Bayesian data analysis, 3rd edition. Chapman and Hall/CRC, 2013.
MacKay, David JC. «The evidence framework applied to classification networks.» Neural computation 4.5 (1992): 720—736.
Адуенко А. А. «Выбор мультимоделей в задачах классификации» кандидатская диссертация
Motrenko, Anastasiya, Vadim Strijov, and Gerhard-Wilhelm Weber. «Sample size determination for logistic regression.» Journal of Computational and Applied Mathematics 255 (2014): 743—752.

Базовой алгоритм: Алгоритм построения адекватных мультимоделей из #4.
Решение: Байесовский подход к задаче выбора моделей на основании обоснованности. Анализ свойств обоснованности и ее связи со статистической значимостью.
Новизна: Предлагается метод построения оптимальной схемы обновления структуры мультимодели при появлении новых объектов. Исследована связь обоснованности и статистической значимости для некоторых классов моделей.
Авторы: Стрижов Вадим Викторович, Адуенко Александр Александрович (GMT-5)

Задача 11

Название: Автоматическое построение нейросети оптимальной сложности
Задача: Рассматривается задача нахождения устойчивой (и не избыточной по параметрам) структуры нейросети. Нейросеть рассматривается как вычислительный граф, ребрами которого выступают примитивные функции, а вершинами --- промежуточные представления выборки, полученные под действием этих функций. Требуется выбрать подграф модели, при котором итоговая нейросеть будет давать приемлемое качество классификации при небольшом количестве параметров.
Данные: Выборки Boston, MNIST, CIFAR-10
Литература:
1. Бахтеев О.Ю., Стрижов В.В. Выбор моделей глубокого обучения субоптимальной сложности с использованием вариационной оценки правдоподобия // Автоматика и телемеханика, 2018.
2. Смердов А.Н., Бахтеев О.Ю., Стрижов В.В. Выбор оптимальной модели рекуррентной сети в задачах поиска парафраза // Информатика и ее применения, 2018.
3. [48] Вариационный вывод.
4. [49] Релаксация на основе вариационного вывода.
5. [50] DARTS.
Базовый алгоритм: случайный поиск и алгоритм DARTS (выбор модели с использованием релаксации без вариационного вывода).
РешениеПредлагается выбирать структуру нейросети на основе вариационного вывода. Для выбора оптимальной структуры используется релаксация: от строго выбора одной из нескольких рассматриваемых подмоделей нейросети предлагается перейти к композиции этих моделей с различным весом каждой из них.
Новизна: Предложен метод автоматического построения модели, учитывающий неточности при оптимизации параметров модели и позволяющий находить наиболее устойчивые модели.
Авторы: О.Ю. Бахтеев, В.В. Стрижов

Задача 48

Название: Мультимоделирование, привилегированное обучение
Задача: Рассматривается задача обучения одной модели с помощью другой
Данные: Выборки временных рядов
Литература:
1. https://github.com/neychev/distillation_n_privileged_info_torch
2. https://github.com/neychev/Multitask_forecast_code
3. Статья по Mixture Experts
4. Диплом Нейчева http://www.machinelearning.ru/wiki/images/3/36/NeyhevMS_Thesis.pdf
Базовый алгоритм: Смесь экспертов, привилегоированное обучение, дистилляция
Решение Выполнить эксперимент, иллюстрирующий эти подходы
Новизна: Предложен метод прогнозирования, использующий апроорную информацию о принадлежности выборки модели (опубликовать полученные результаты).
Авторы: Р.Г. Нейчев (консультант), В.В. Стрижов

Задача 49

Название: Декодирование сигналов мозга и прогнозирование намерений
Задача: Требуется построить модель, восстанавливающую движение конечностей по кортикограмме.
Данные: neurotycho.org [9] (или пальцы)
Литература:
- Нейчев Р.Г., Катруца А.М., Стрижов В.В. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования // Заводская лаборатория. Диагностика материалов, 2016, 82(3) : 68-74. [10]
- Isachenko R.V., Strijov V.V. Quadratic Programming Optimization with Feature Selection for Non-linear Models // Lobachevskii Journal of Mathematics, 2018, 39(9) : 1179-1187. Article
Базовый алгоритм: Partial Least Squares[11]
Решение: Создать алгоритм выбора признаков, альтернативный PLS и учитывающий неортогональную структуру взаимозависимости признаков.
Новизна: Предложен способ выбора признаков, учитывающий закономерности как и независимой, так и в зависимой переменной. Бонус: исследовать изменения структуры модели при изменении характера выборки.
Авторы: Андрей Задаянчук, В.В. Стрижов

2018

осень 2018

Номер	Название проекта	Материалы	Команда
0	(пример) Метрическая классификация временных рядов	code, LinkReview, Discussion	Алексей Гончаров*, Максим Савинов
1	Прогнозирование направления движения цены биржевых инструментов по новостному потоку0	Code, LinkReview, Slides, Report	Александр Борисов, Дробин Максим, Говоров Иван, Мухитдинова София, Валентин Родионов, Валентин Ахияров
2	Построение опорных объектов для множества многомерных временных рядов	Code LinkReview	Исхаков Ришат, Корепанов Георгий, Степан Солоднев Самирханов Данил
3	Динамическое выравнивание многомерных временных рядов	Code LinkReview Slides Report	Глеб Моргачев, Владислав Смирнов, Татьяна Липницкая
4	Автоматическая настройка параметров АРТМ под широкий класс задач	Code, LinkReview, Presentation	Голубева Татьяна, Иванова Екатерина, Матвеева Светлана, Трусов Антон, Царицын Михаил, Черноног Вячеслав
5	Нахождение парафразов	Code, LinkReview	Stas Okrug, Nikita Mokrov Fedor Kitashov, Polina Proskura, Natalia Basimova, Roman Krasnikov, Akhmedkhan Shabanov
6	On conformational changes of proteins using collective motions in torsion angle space and L1 regularization	Code, LinkReview Presentation	Ryabinina Raisa, Emtsev Daniil
7	Privileged training in the problem of approximating the borders of the iris	Code, LinkReview	Pavel Fedosov, Alexey Gladkov, Genrikh Kenigsberger, Ivan Korostelev, Nikolay Balakin
8	Порождение признаков с помощью локально-аппроксимирующих моделей	Code, LinkReview	Ибрагим Курашов, Наиль Гильмутдинов, Альберт Мулюков, Валентин Спивак
9	Распознавание текста на основе скелетного представления толстых линий и сверточных сетей	Code, LiteratureReview, Slides, report	Kutsevol Polina Lukoyanov Artem Korobov Nikita Boyko Alexander Litovchenko Leonid Valukov Alexandr Badrutdinov Kamil Yakushevskiy Nikita Valyukov Nikolay Tushin Kirill
10	Сравнение нейросетевых и непрерывно-морфологических методов в задаче детекции текста	Code, LinkReview, Discussion, Presentation	Гайдученко Николай Торлак Артём Акимов Кирилл Миронова Лилия Гончар Даниил
11	Автоматическое построение нейросети оптимальной сложности	Code, LinkReview, report, slides	Николай Горян Александр Улитин Товкес Артем Таранов Сергей Губанов Сергей Криницкий Константин Забазнов Антон Валерий Маркин
12	Обучение машинного перевода без параллельных текстов.	Code, LinkReview, Отчет, Слайды	Александр Артеменков Ангелина Ярошенко Андрей Строганов Егор Скиднов Анастасия Борисова Рябов Федор Мазуров Михаил
13	Глубокое обучение для предсказания вторичной структуры РНК	Code Link Review	Дорохин Семён Пастухов Сергей Пикунов Андрей Нестерова Ирина Курилович Анна chat
14	Deep Learning for reliable detection of tandem repeats in 3D protein structures	Code Link Review	Веселова Евгения
15	Формулировка и решение задачи оптимизации, сочетающей классификацию и регрессию, для оценки энергии связывания белка и маленьких молекул	Code Link Review	Меркулова Анастасия Плумите Эльвира Жибоедова Анастасия chat
16	Оценка оптимального объема выборки для исследований в медицине	Code Link Review	Артемий Харатян, Михаил Михеев, Евгин Александр, Сеппар Александр, Коноплёв Максим, Мурлатов Станислав, Макаренко Степан
17	Прогнозирование намерений. Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга	Code, LinkReview, Presentation	Наталия Болоболова, Алина Самохина, Шиянов Вадим
18	Прогнозирование намерений. Построение оптимальной модели декодирования сигналов при моделировании нейрокомпьютерного интерфейса.	Code, LinkReview, Presentation, Article	Иван Наседкин, Галия Латыпова, Нестор Суходольский, Александр Шеменев Иван Бородулин,
19	Исследование зависимости качества распознавания онтологических объектов от глубины гипонимии.	Code, Report, LinkReview, Presentation	Вячеслав Резяпкин, Алексей Русскин, Виктория Дочкина, Мирон Кузнецов, Ярмошик Демьян
20	Сравнение качества end-to-end обучаемых моделей в задаче ответа на вопросы в диалоге с учетом контекста	Code LinkReview Отчет, Presentation	Агафонов Алексей, Рякин Илья,Литвиенко Владимир, Хохлов Иван, Великовский Никита, Ануфриенко Олег
21	Методы выпуклой оптимизации высокого порядка	Code, LinkReview, Slides	Селиханович Даниил, Соколов Игорь
23	Фрактальный анализ и синтез оптических изображений морского волнения	code, LinkReview, Presentation report	Каныгин Юрий
24	Максимизация энтропии при различных видах преобразований над изображением	code, LinkReview, report, slides	Никита Воскресенский, Алиса Шабалина, Ярослав Мурзаев, Алексей Хохлов, Алексей Казаков, Ольга Грибова, Александр Белозерцев
25	Автоматическое детектирование и распознавание объектов на изображениях	code, code_A, Slides_for_demo, Report2018Project25_30 Report2018Project25_31 slides_30 slides_25_31 LinkReview	Юлия Демидова Иван Разумов Владислав Томинин Ярослав Томинин Никита Дудоров Леонид Ерлыгин Прошутинский Дмитрий Баймаков Владимир Зубков Александр Черненкова Елена
26	Определение местоположения по сигналам акселерометра	Code, LinkReview, Слайды, Текст	Эльвира Зайнулина Фатеев Дмитрий Виталий Протасов Никита Божедомов
28	Мультимоделирование как универсальный способ описания выборки общего вида	Code, Linkreview, Slides, report	Владимир Качанов Евгения Стрелкова
29	Cross-Language Document Extractive Summarization with Neural Sequence Model	Code, Linkreview, Отчет, Слайды	Павел Захаров Павел Кваша Евгений Дьячков Евгений Петров Илья Сельницкий
31	Pairwise energy matrix construction for inverse folding problem	Code, LinkReview Report Slides	Рубинштейн Александр
32	Smooth orientation-dependent scoring function	Code Отчёт	Носкова Елизавета Качков Сергей Сидоренко Антон

Задача 5

Название: Нахождение парафразов.
Задача: Парафразы — разные вариации одного и того же текста, одинаковые по смыслу, но отличающиеся лексически и грамматически, например: "Куда поехала машина" и "В каком направлении поехал автомобиль". Задача детектирования парафразов заключается в выделении в множестве текстов кластеров, таких что в каждом кластере содержатся только парафразы одного и того же предложения.

Самый простой способ выделения парафразов — кластеризация текстов, где каждый текст представлен "мешком слов".

. Данные: Есть открытые датасеты вопросов для тестирования и обучения на kaggle.com, есть открытые данные для тестирования с конференций semeval.
Литература:
1. Будет позже
Базовый алгоритм: Использовать для выделения парафразов какой-нибудь из алгоритмов кластеризации документов, где каждый документ представлен мешком слов или tf-idf.
Решение: Использовать нейросетевые архитектуры для поиска парафразов, использовать в качестве признаков словосочетания, выделенные с помощью синтаксических анализаторов, использовать многоуровневую кластеризацию.
Новизна: Отсутствие реализаций для русского языка, которые будут использовать синтаксические анализаторы для подобной задачи, все текущие решения достаточно "просты".
Авторы: Артём Попов.

Задача 6

Название: On conformational changes of proteins using collective motions in torsion angle space and L1 regularization.
Задача: Torsion angles are the most natural degrees of freedom for describing motions of polymers, such as proteins. This is because bond lengths and bond angles are heavily constrained by covalent forces. Thus, multiple attempts have been done to describe protein dynamics in the torsion angle space. For example, one of us has developed an elastic network model (ENM) [1] in torsion angle space called Torsional Network Model (TNM) [2]. Functional conformational changes in proteins can be described in the Cartesian space using just a subset of collective coordinates [3], or even a sparse representation of these [4]. The latter requires a solution of a LASSO optimization problem [5]. The goal of the current project is to study if a sparse subset of collective coordinates in the torsion subspace can describe functional conformational changes in proteins. This will require a solution of a ridge regression problem with a L1 regularization constraint. The starting point will be the LASSO formulation.
. Данные: Experimental conformations will be extracted from the Protein Docking Benchmark v5 (https://zlab.umassmed.edu/benchmark/) and a few others. The TNM model can be downloaded from https://ub.cbm.uam.es/tnm/tnm_soft_main.php
Литература:
1. Tirion MM. (1996) Large Amplitude Elastic Motions in Proteins from a Single-Parameter, Atomic Anal- ysis. Phys Rev Lett. 77:1905–1908.
2. Mendez R, Bastolla U. (2011) Torsional network model: normal modes in torsion angle space better correlate with conformation changes in proteins. Phys Rev Lett. 2010 104:228103.
3. SwarmDock and the use of normal modes in protein-protein docking. IH Moal, PA Bates - International journal of molecular sciences, 2010
4. Modeling protein conformational transition pathways using collective motions and the LASSO method. TW Hayes, IH Moal - Journal of chemical theory and computation, 2017
5. https://en.wikipedia.org/wiki/Lasso_(statistics)
6. E. Frezza, R. Lavery, Internal normal mode analysis (iNMA) applied to protein conformational flexibility, Journal of Chemical Theory and Computation 11 (2015) 5503–5512.
Базовый алгоритм: The starting point will be a combination of methods from references 2 and 4. It has to be a LASSO formulation with the direction vectors reconstructed from the internal coordinates. The quality will be computed based on the RMSD measure between the prediction and the solution on several benchmarks. Results will be presented with statistical plots (see examples in references 3-4.
Новизна: This is an important and open question in computational structural bioinformatics - how to efficiently represent transitions between protein structures. Not much has been done in the torsional angle subspace (internal coordinates)[6] and nearly nothing has been done using L1 regularization [4].
Авторы: Ugo Bastolla on the torsional subspace (https://ub.cbm.uam.es/home/ugo.php), Sergei Grudinin on L1 minimization (https://team.inria.fr/nano-d/team-members/sergei-grudinin/)

Задача 10

Название: Сравнение нейросетевых и непрерывно-морфологических методов в задаче детекции текста (Text Detection).
Задача: Automatically Detect Text in Natural Images.
Данные: синтетические сгенерированные данные + подготовленная выборка фотографий + COCO-Text dataset + Конкурс Avito 2014.
Литература: COCO benchmark, One of a state-of-the-art architecture
Базовой алгоритм: code + морфологические методы, Avito 2014 winner’s solution.
Решение: Предлагается сравнить работы нескольких state-of-the-art алгоритмов, которым нужна обширная обучающая выборка, с морфологическими методы, требующие небольшого числа данных. Предлагается определить границы применимости тех или иных методов.
Новизна: предложить алгоритм, основанный на использовании как нейросетевых, так и морфологических методов (решение задачи word detection).
Авторы: И. Н. Жариков.
Эксперт: Л. М. Местецкий (морфологические методы).

Задача 16

Название: Оценка оптимального объема выборки для исследований в медицине
Задача: В условиях недостаточного числа дорогостоящих измерений требуется спрогнозировать оптимальный объем пополняемой выборки.
Данные: Выборки измерений в медицинской диагностике, в частности, выборка иммунологических маркеров.
Литература:
- Мотренко А.П. Материалы по алгоритмам оценки оптимального объема выборки в репозитории MLAlgorithms[51], [52].
Базовый алгоритм: Серия эмпирических алгоритмов оценки объема выборки.
Решение: Исследование свойств пространства параметров при пополнении выборки.
Новизна: Предложена новая методология прогнозирования объема выборки, обоснованная с точки зрения классической и байесовской статистики.
Авторы: А.М. Катруца, В.В. Стрижов, координатор Тамаз Гадаев

Задача 19

Название: Исследование зависимости качества распознавания онтологических объектов от глубины гипонимии.
Задача: Необходимо исследовать зависимость качества распознавания онтологических объектов на различных уровнях гипонимии понятий. Классическая постановка задачи распознавания именованных сущностей: https://en.wikipedia.org/wiki/Named-entity_recognition
Данные: Гипонимии из https://wordnet.princeton.edu/ , тексты разных доменов предположительно из WebOfScience.
Литература: Релевантные статьи для классической постановки http://arxiv-sanity.com/search?q=named+entity+recognition
Базовый алгоритм: В качестве алгоритма может использоваться https://arxiv.org/pdf/1709.09686.pdf или упрощенная его версия, исследования производятся с использованием библиотеки DeepPavlov.
Решение: Необходимо собрать датасет гипонимии (вложенности понятий) объектов с использованием WordNet, произвести автоматическую разметку онтологических объектов текстов различных доменов для нескольких уровней обобщения понятий, провести ряд экспериментов для определения качества распознавания онтологических объектов для разных уровней вложенности.
Новизна: Подобные исследования не производились, готовые датасеты с иерархической разметкой объектов отсутствуют. Распознавание онтологических объектов на различных уровнях гипонимии может быть использовано для производства дополнительных признаков при решении различных NLP (Natural language processing) задач, а также определения являются ли объекты парой гипоним-гипероним.
Авторы: Бурцев Михаил Сергеевич (эксперт), Баймурзина Диляра Римовна (консультант).

Задача 20

Название: Сравнение качества end-to-end обучаемых моделей в задаче ответа на вопросы в диалоге с учетом контекста
Задача: Задан фрагмент текста и несколько последовательных вопросов. Ответы на первые n вопросов известны. Нужно сформировать ответ на n+1 вопрос. В качестве ответа нужно указать непрерывный промежуток в тексте заданного фрагмента текста (номера начального и конечного слов). При оценке качества ответа задача сводится к классификации символов фрагмента на класс 0 (не входит в ответ) и 1 (входит в ответ).
Данные: Предоставляется размеченный датасет с фрагментами текста и наборами вопросов с ответами в диалоге
Литература: Статья Bi-directional Attention Flow for Machine Comprehension (BiDAF2017) описывает end-to-end модель ответов на вопросы по фрагменту без учета контекста диалога. Статья QuAC: Question Answering in Context (QuAC2018) описывает набор данных, содержит описание используемого базового алгоритма с учетом контекста диалога. Статьи с описанием других моделей вопрос-ответных систем (R-Net, DrQA)
Базовый алгоритм: Базовый алгоритм описан статьях и реализован (QuAC2018, BiDAF2017).
Решение: Предлагается изучить механизмы учета контекста (k-ctx, append, etc) и исследовать возможность их добавления в другие модели (DrQA, R-NET), либо предложить собственные для повышения качества по мере F1. Для изучения поведения модели используется визуализация внимания (attention visualization), обучаемых эмбеддингов, а также анализ ошибочных ответов. Предоставляется доступ к вычислительным ресурсам, используемые фреймворки: TensorFlow, PyTorch или Keras.
Новизна: Исследование проводится на новом датасете, для которого на данный момент имеется только базовый алгоритм. Подтверждение повышения качества от применения механизмов учета контекста диалога в других моделях указывает на применимость предлагаемых подходов для решения более широкого круга задач.
Авторы: Антон Сергеевич Хританков

Задача 21

Название: Методы выпуклой оптимизации высокого порядка
Задача: Для выпуклых задач не очень больших размерностей эффективно (до n ~ 10^3 иногда даже до n ~ 10^4) применяются методы высокого порядка. До недавнего времени принято было считать, что это методы второго порядка (использующие вторые производные оптимизируемой функции). Однако в начале 2018 года Ю.Е. Нестеров [1] предложил в теории эффективный метод третьего порядка, который работает почти по оптимальным оценкам. В пособии [3] в упражнении 1.3 описан пример "плохой" выпуклой функции, предложенной Ю.Е. Нестеровым, на котором хотелось бы сравнить метод Нестерова второго и третьего порядка [1], метод из работы [2] второго и третьего порядка и обычные быстрые градиентные методы (первого порядка). Сравнивать стоит как по числу итераций, так и по общему времени работы.
Литература:

Автор: Евгения Алексеевна Воронцова (доцент ДВФУ, Владивосток), Александр Владимирович Гасников

Задача 22

Название: Cutting plane methods for copositive optimization
Задача: Conic program over the copositive cone (copositive program) min <C,X> : <A_i,X> = b_i, X \in \Pi_i C^k_i, k_i <= 5 A linear function is minimized over the intersection of an affine subspace with a product of copositive cones of orders k_i <= 5. Подробнее тут
Данные: The algorithm will be tested on randomly generated instances
Литература:
- [1] Peter J. C. Dickinson, Mirjam Dür, Luuk Gijben, Roland Hildebrand. Scaling relationship between the copositive cone and Parrilo’s first level approximation. Optim. Lett. 7(8), 1669—1679, 2013.
- [2] Stefan Bundfuss, Mirjam Dür. Algorithmic copositivity detection by simplicial partition. Linear Alg. Appl. 428, 1511—1523, 2008.
- [3] Mirjam Dür. Copositive programming — a Survey. In Recent advances in Optimization and its Applications in Engineering, Springer, pp. 3-20, 2010.
Базовый алгоритм: The reference algorithm is described in [4] Stefan Bundfuss, Mirjam Dür. An Adaptive Linear Approximation Algorithm for Copositive Programs. SIAM J. Optim., 20(1), 30-53, 2009.
Решение: The copositive program will be solved by a cutting plane algorithm. The cutting plane (in the case of an infeasible iterate) will be constructed from the semidefinite representation of the diagonal 1 section of the cone proposed in [1]. The algorithm will be compared to a simplicial division method proposed in [2], [4]. General information about copositive programs and their applications in optimization can be found in [3] .
Новизна: The proposed algorithm for optimization over copositive cones up to order 5 uses an exact semi-definite representation. In contrast to all other algorithms existing today the generation of cutting planes is non-iterative.
Автор: Roland Hildebrand

Задача 23

Название: Фрактальный анализ и синтез оптических изображений морского волнения
Задача: Разнообразные физические процессы и явления изучаются с помощью изображений, получаемых дистанционно. Важной задачей является получение адекватной информации об интересующих процессах и явлениях путём измерения определённых характеристик изображений. Линии равной яркости (изолинии) на изображениях многих природных объектов являются фрактальными, то есть представляют собой множества точек, которые не могут быть представлены линиями конечной длины и занимают промежуточное положение между линиями и двумерными плоскими фигурами. Такие множества характеризуются фрактальной размерностью D, которая обобщает классическое понятие размерности множества и может принимать дробные значения. Для уединённой точки на изображении D=0, для гладкой кривой D=1, для плоской фигуры D=2. Фрактальная изолиния имеет размерность 1<D<2. Алгоритм расчёта D приведён, например, в [1]. Фрактальная размерность изолиний морской поверхности, может служить для оценки пространственных спектров морских волн по данным дистанционного зондирования [1]. Задача состоит в следующем. Необходимо провести исследование численными методами зависимости между характеристиками пространственных спектров морских волн и фрактальной размерностью спутниковых изображений Земли в области солнечного блика. Для исследования следует использовать метод численного синтеза оптических изображений морского волнения, описанный в [2]. Численное моделирование должно быть при различных характеристиках морских волн, а также при различных положениях Солнца и пространственном разрешении изображений.
Литература:
1. Лупян Е. А., Мурынин А. Б. Возможности фрактального анализа оптических изображений морской поверхности. // Препринт Института Космических исследований АН СССР Пр.-1521, Москва, 1989, 30 с.
2. Мурынин А. Б. Восстановление пространственных спектров морской поверхности по оптическим изображениям в нелинейной модели поля яркости // Исследования Земли из космоса, 1990. № 6. С. 60-70.
Автор: Иван Алексеевич Матвеев

Задача 24

Название Максимизация энтропии при различных видах преобразований над изображением
Задача: Паншарпенинг — это алгоритм повышения разрешения мультиспектральных изображений с использованием опорного изображения. Задача паншарпенинга формулируется следующим образом: имея панхроматическое изображение требуемого разрешения и мультиспектральное изображение пониженного разрешения, требуется восстановить мультиспектральное изображение в пространственном разрешении панхроматического. Из эмпирических наблюдений, основанных на большом количестве снимков высокого разрешения, известно, что пространственная вариативность интенсивности отраженного излучения для объектов одной природы гораздо больше, чем вариативность их спектра. Другими словами, можно наблюдать, что спектр отраженного излучения однороден в границах одного объекта, в то время как даже внутри одного объекта интенсивность отраженного излучения варьируется. На практике хороших результатов можно достигнуть, используя упрощенный подход, при котором считается, что если интенсивность соседних областей значительно отличается, то, вероятно, эти области принадлежат разным объектам с разными отраженными спектрами. На этом основан разработанный вероятностный алгоритм повышения разрешения мультиспектральных изображений с использованием опорного изображения [1]
Необходимо провести исследование по максимизации энтропии при различных видах преобразований над изображением. Показать, что энтропия может служить индикатором потерь информации, содержащейся в изображении, при преобразованиях над ним. Формулировка обратной задачи по восстановлению изображения: Условие 1: Соответствие интенсивности (в каждой точке) восстановленного изображения интенсивности панхромного изображения. Условие 2: Соответствие низкочастотной составляющей восстановленного изображения исходному мультиспектральному изображению. Условие 3: Однородность (подобность) спектра в пределах одного объекта и допущение скачкообразного изменения спектра на границе двух однородных областей. Условие 4: При соблюдении первых трех условий, локальная энтропия восстановленного изображения должна быть максимизирована.
Литература
1. Гороховский К. Ю., Игнатьев В. Ю., Мурынин А. Б., Ракова К. О. Поиск оптимальных параметров вероятностного алгоритма повышения пространственного разрешения мультиспектральных спутниковых изображений // Известия РАН. Теория и системы управления, 2017, № 6.
Автор: Иван Алексеевич Матвеев

Задача 25

Название: Автоматическое детектирование и распознавание объектов на изображениях
Задача: Автоматическое детектирование и распознавание объектов на изображениях и видео является одной из основных задач компьютерного зрения. Как правило, эти задачи разбиваются на несколько подзадач: предобработка, выделение характерных свойств изображения объекта и классификация. Этап предобработки обычно включает некоторые операции с изображением, такие как фильтрация, выравнивание яркости, геометрические корректирующие преобразования для облегчения устойчивого выделения признаков.

Под характерными свойствами изображения объекта понимается некоторый набор признаков, приближённо описывающий интересующий объект. Признаки можно разбить на два класса: локальные и интегральные. Преимуществом локальных признаков является их универсальность, инвариантность по отношению к неравномерным изменениям яркости и освещённости, но они не уникальны. Интегральные признаки, характеризующие изображение объекта в целом, не устойчивы к изменению структуры объекта и сложным условиям освещения. Существует комбинированный подход — использование локальных признаков в качестве элементов интегрального описания, когда искомый объект моделируется набором областей, каждая из которых характеризуется своим набором признаков — локальным текстурным дескриптором. Совокупность таких дескрипторов характеризует объект в целом. Под классификацией понимают определение принадлежности объекта к тому или иному классу путём анализа вектора признаков, полученного на предыдущем этапе, разделения признакового пространства на подобласти, указывающие на соответствующий класс. Существует множество подходов к классификации: нейросетевые, статистические (Байеса, регрессия, Фишера и др.), решающие деревья и леса, метрические (ближайшие К-соседей, парзеновские окна и т. д.) и ядерные (SVM, RBF, метод потенциальных функций), композиционные (AdaBoost). Для задачи обнаружения объекта на изображении оценивается принадлежность двум классам — классу изображений, содержащих объект, и классу изображений, не содержащих объект (изображениям фона).

Литература и более подробно тут
Автор: Иван Алексеевич Матвеев

Задача 29

Название: Cross-Language Document Extractive Summarization with Neural Sequence Model.
Задача: Предлагается решить задачу переноса обучения для модели сокращения текста выделением предложением (extractive summarization) и исследовать зависимость качества сокращения текста от качества обучения модели перевода. Имея данные для обучения модели сокращения на английском языке и параллельный англо-русский корпус текстов построить модель для сокращения текста на русском языке. Решение задачи оценивается на небольшом наборе данных для тестирования модели на русском языке, качество решения задачи определяется отношением значений критериев ROUGE на английском и русском наборах.
Данные: Данные для обучения модели на английском языке (SummaRuNNer2016), параллельный корпус OPUS, данные для проверки на русском языке.
Литература: В статье (SummaRuNNer2016) дается описание базового алгоритма сокращения текста, в работе Neural machine translation by jointly learning to align and translate.(NMT2016) дается описание модели перевода. Идея совместного использования моделей представлена в статье Cross-Language Document Summarization Based on Machine Translation Quality Prediction (CrossSum2010).
Базовой алгоритм: Одна из идей базового алгоритма представлена в (CrossSum2010), модель перевода реализована (OpenNMT), предоставляется реализация модели сокращения текста (SummaRuNNer2016).
Решение: Предлагается исследовать идею решения, предложенную в статье (CrossSum2010) и варианты объединения моделей сокращения и перевода. Базовые модели и предобработка наборов данных реализованы (OpenNMT), библиотеки PyTorch и Tensorflow. Анализ ошибок по сокращению текста производится, как описано в (SummaRuNNer2016), анализ качества обучения моделей стандартными инструментами библиотек, .
Новизна: Для базовой модели применимость исследована на паре наборов данных, подтверждение возможности переноса обучения на набор данных на другом языке и указание условий для этого переноса расширит область применения модели и укажет необходимые новые доработки модели или предобработки данных.
Авторы: Алексей Романов (консультант), Антон Хританков (эксперт).

Задача 30

Название: Метод построения HG-LBP дескриптора на основе гистограмм градиентов для детектирования пешеходов.
Задача: Предлагается разработать новый дескриптор, обобщающий LBP дескриптор на основе гистограмм модулей градиентов, имеющий свойства композиции HOG-LBP для задачи детектирования пешеходов на изображении. В качестве анализа качества нового дескриптора предлагается использовать графики ошибок детектирования FAR/FRR на базе INRIA.
Данные: База данных пешеходов INRIA: http://pascal.inrialpes.fr/data/human/
Литература:
1. 1. T. Ojala and M. Pietikainen. Multiresolution Gray-Scale and Rotation Invariant Texture Classification with Local Binary Patterns, IEEE Trans on Pattern Analysis and Machine Intelligence, Vol. 24. No.7, July, 2002.
2. 2. T. Bouwmans, C. Silva, C. Marghes, M. Zitouni, H. Bhaskar, C. Frelicot,, «On the Role and the Importance of Features for Background Modeling and Foreground Detection», https://arxiv.org/pdf/1611.09099v1.pdf
3. 3. N. Dalal and B. Triggs, Histograms of Oriented Gradients for Human Detection // Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2005, pp.886-893
4. 4. T. Ahonen, A. Hadid, M. Pietikainen Face Description with Local Binary Patterns: Application to Face Recognition \\ IEEE Transactions on Pattern Analysis and Machine Intelligence, Volume:28 , Issue: 121.
5. 5. http://www.magicandlove.com/blog/2011/08/26/people-detection-in-opencv-again/
6. 6. http://www.cse.oulu.fi/CMV/Downloads/LBPMatlab2.
7. 7. http://www.mathworks.com/help/vision/ref/extractlbpfeatures.html3.
8. 8. http://www.codeproject.com/Articles/741559/Uniform-LBP-Features-and-Spatial-Histogram-Computa4.
9. 9. http://www.cse.oulu.fi/CMV/Research
Базовой алгоритм: Xiaoyu Wang, Tony X. Han, Shuicheng Yan. An HOG-LBP Human Detector with Partial Occlusion Handling \\ ICCV 2009
Решение: Одним из вариантов обобщения LBP может быть использование вместо гистограмм распределения точек по LBP-коду, гистограмм распределения модулей градиентов точек в блоке по LBP-коду (HG-LBP). Предлагается для основы экспериментов использовать библиотеку OpenCV, в которой реализованы алгоритмы HOG и LBP. Необходимо модифицировать исходный код реализации LBP и вставить подсчет модулей градиента и накопление соответствующей гистограммы по LBP. Необходимо написать программу чтения базы INRIA, обучения по ней метода линейного SVM на исходных и модифицированных дескрипторах, сбора статистики детектирования и построения DET-графиков FAR/FRR.
Новизна: Разработка вычислительно простых методов для выделения максимально информативных признаков в задачах распознавания является актуальной в области создания встроенных систем, обладающих малыми вычислительными ресурсами. Замена композиции дескрипторов одним, более информативным, чем каждый по отдельности может упростить решение задачи. Использование значений градиента в гистограммах дескриптора LPB является новым.
Авторы: Гнеушев Александр Николаевич

Задача 31

Название: Использование HOG дескриптора для обучения нейронной сети в задаче детектирования пешеходов
Задача: Предлагается заменить линейный SVM классификатор в классическом алгоритме HOG простой сверточной нейронной сетью небольшой глубины, при этом HOG дескриптор должен представляться трехмерным тензором, сохраняющим пространственную структуру локальных блоков. В качестве анализа качества нового дескриптора предлагается использовать графики ошибок детектирования FAR/FRR на базе INRIA.
Данные: База данных пешеходов INRIA: http://pascal.inrialpes.fr/data/human/
Литература:
1. 1. N. Dalal and B. Triggs, Histograms of Oriented Gradients for Human Detection // Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2005, pp.886-893
2. 3. Q. Zhu, S. Avidan, M.-C. Yeh, and K.-T. Cheng. Fast human detection using a cascade of histograms of oriented gradients. In CVPR, pages 1491—1498, 2006 O. Tuzel, F. Porikli, and P. Meer. Human detection via classification on riemannian manifolds. In CVPR, 2007
3. 4. P. Dollar, C. Wojek, B. Schiele and P. Perona Pedestrian Detection: An Evaluation of the State of the Art / IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), Vol 34. Issue 4, pp. 743—761
4. 5. Xiaoyu Wang, Tony X. Han, Shuicheng Yan, An HOG-LBP Human Detector with Partial Occlusion Handling, ICCV 2009 http://www.xiaoyumu.com/s/PDF/Wang_HOG_LBP.pdf
5. 6. https://en.wikipedia.org/wiki/Pedestrian_detection
6. 7. HOG person detector tutorial https://chrisjmccormick.wordpress.com/2013/05/09/hog-person-detector-tutorial/
7. 8. NavneetDalalThesis.pdf Navneet Dalal. Finding People in Images and Videos. PhD Thesis. Institut National Polytechnique de Grenoble / INRIA Rhone-Alpes, Grenoble, July 2006)
8. 9. People Detection in OpenCV http://www.magicandlove.com/blog/2011/08/26/people-detection-in-opencv-again/
9. 10. Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, Hartwig Adam. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
Базовой алгоритм:
1. 1. N. Dalal and B. Triggs, Histograms of Oriented Gradients for Human Detection // Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2005, pp.886-893
2. 2. Xiaoyu Wang, Tony X. Han, Shuicheng Yan, An HOG-LBP Human Detector with Partial Occlusion Handling, ICCV 2009
Решение: Одним из вариантов обобщения алгоритма HOG может быть использование вместо линейного алгоритма SVM другого классификатора, например какой-либо нейронной сети. Предлагается для основы экспериментов использовать библиотеку OpenCV, в которой реализован алгоритм HOG и классификатор SVM. Нужно проанализировать исходный код реализации HOG, формализовать внутреннюю структуру вектора HOG дескриптора в форме трехмерного тензора — две пространственные и одна спектральная размерности. Необходимо написать программу чтения базы INRIA, обучения по ней метода линейного SVM на HOG-дескрипторах, сбора статистики детектирования и построения DET-графиков FAR/FRR. Необходимо на основе какой-либо системы обучения нейросети (например, mxnet) собрать неглубокую (не более 2-3 сверточных слоев) сверточную нейросеть известной архитектуры, обучить ее на базе INRIA и на тензорных дескрипторах HOG, построить соответствующие графики FAR/FRR.
Новизна: Разработка вычислительно простых методов для выделения максимально информативных признаков в задачах распознавания является актуальной в области создания встроенных систем, обладающих малыми вычислительными ресурсами. Использование небольшого количества наиболее информативных дескрипторов может уменьшить вычислительную сложность, по сравнению с использованием большой композиции простых признаков, например в глубокой сверточной нейросети. Обычно классификаторы используют HOG дескриптор как вектор в целом, однако при этом теряется информация о локальной пространственной структуре и спектре признаков. Новизна заключается в использовании свойства локальности блоков в HOG дескрипторе и представление HOG в виде трехмерного тензора. Использование этой информации позволяет достичь устойчивости детектирования к перекрытию пешехода.
Авторы: Гнеушев Александр Николаевич

YEAR

Автор	Тема научной работы	Ссылка	Консультант	Рецензент	Доклад	Буквы	$\Sigma=3+13$
Гончаров Алексей (пример)	Метрическая классификация временных рядов	code, paper, slides	Мария Попова	Задаянчук Андрей	BMF	AILSBRCVTDSWH>
Астахов Антон	Восстановление структуры прогностической модели по вероятностному представлению	folder code paper	Александр Катруца	Кислинский Вадим	BHF	A-I-L0S0B0R0C0V0T0 [A-I-L-S-B0R0C0V0T0E0D0W0S] + [AILSBRCBTEDWS]	2+4
Гаврилов Юрий	Выбор интерпретируемых мультимоделей в задачах кредитного скоринга	folder code paper video	А.В. Гончаров	Остроухов Петр	BF	A+IL-S0B-R0 [A+ILSBRC-VT0E0D0W0S] + (W)	2+9+1
Гадаев Тамаз	Оценка оптимального объема выборки	folder code paper slides video	Александр Катруца	Шульгин Егор	BHF	A-IL>SB-R-C0V0T0 [AILSBR0CVT0E-D0W0S]	2+9
Гладин Егор	Экономия заряда акселерометра на основе прогнозирования временных рядов	folder code paper slides	Мария Владимирова	Козлинский Евгений review	.F	AILS [A-I-L-SB0R0C000V0T0E0D0W0S]	1+4
Грабовой Андрей	Автоматическое определение релевантности параметров нейросети.	folder code paper slides video	Бахтеев О.Ю.	Кульков Александр	BHMF	A+ILS+BRC+VTE>D> [AILSBRCVTEDWS] [ $\emptyset$ ]	3+13
Нурланов Жакшылык	Deep Learning for reliable detection of tandem repeats in 3D protein structures	folder code paper slides video	С. В. Грудинин, Guillaume Pages	Плетнев Никита Review	BHF	AILB [A-I-LS-BRC0V0T-E0D0W0S]	2+7
Рогозина Анна	Deep learning for RNA secondary structure prediction	folder code paper slides video	Мария Попова	Гадаев Тамаз	BHMF	AILSBR> [AILSBRC0V0T0E0D0W0S]+CW	3+9
Терехов Олег	Порождение признаков с помощью локально-аппроксимирующих моделей	folder code paper slides	С.Д. Иванычев, Р.Г.Нейчев	Гладин Егор review	BHM	AILSBRCVTDSW [AIL0SB0R0C0V0TE0D0W0S]	2+12
Шульгин Егор	Порождение признаков, инвариантных к изменению частоты временного ряда	folder code paper	Р.Г.Нейчев	Терехов Олег	BHM	AIL [AI-LS-BR0CV0T0E0D0W0S]	2+5
Малиновский Григорий	Предсказание графовой структуры нейросетевой модели	folder code paper slides video	Бахтеев О.Ю.	Грабовой Андрей review	BHMF	A+I+L+SBR>C>V>T>E>D> [AILSBRC0VTED0WS]+(C)	3+11
Кульков Александр	Декодирование сигналов мозга и прогнозирование намерений	folder code paper slides video	Р.В. Исаченко	Малиновский Григорий review	BHMF	AILSBR [AILSBRCVTED0W0S]	3+11
Плетнев Никита	Аппроксимация границ радужки глаза	paper slides [ video]	Александр Адуенко	Нурланов Жакшылык	BF	AILSB>R> [AILSTWS]	2+7
Остроухов Петр	Selection of models superposition for identification of a person on the basis of a ballistocardiogram	folder paper code slides	Александр Прозоров	Гаврилов Юрий review	BhF	AIL>S?B?R? [AILSBRCVT-E0D0W0S]	2+10
Кислинский Вадим	Предсказание музыкальных плейлистов пользователей в рекомендательной системе.	folder code slides paper video	Евгений Фролов	Астахов Антон	.F	(AIL)------(SB)---(RCVT)-- [AILS-BRCVTED0W0S]	1+11
Козлинский Евгений	Анализ банковских транзакционных данных физических лиц для выявления паттернов потребления клиентов.	folder code paper slides video	Роза Айсина	Рогозина Анна review	BHMF	AILSBR>CV> [AILSBR0C0V0TE0D0WS]+(С)	3+8+1

Задача 1

Название: Аппроксимация границ радужки глаза
Задача: По изображению человеческого глаза определить окружности, аппроксимирующие внутреннюю и внешнюю границу радужки.
Данные: Растровые монохромные изображения, типичный размер 640*480 пикселей (однако, возможны и другие размеры)[53], [54].
Литература:
- Адуенко А.А. Выбор мультимоделей в задачах классификации (научный руководитель В.В. Стрижов). Московский физико-технический институт, 2017. [55]
- К.А.Ганькин, А.Н.Гнеушев, И.А.Матвеев Сегментация изображения радужки глаза, основанная на приближенных методах с последующими уточнениями // Известия РАН. Теория и системы управления, 2014, № 2, с. 78–92.
- Duda, R. O. Use of the Hough transformation to detect lines and curves in pictures / R. O. Duda, P. E. Hart // Communications of the ACM. 1972. Vol. 15, no. 1. Pp.
Базовый алгоритм: Ефимов Юрий. Поиск внешней и внутренней границ радужки на изображении глаза методом парных градиентов, 2015.
Решение: См. Iris_circle_problem.pdf
Новизна: Предложен быстрый беспереборный алгоритм аппроксимации границ с помощью линейных мультимоделей.
Консультант: Александр Адуенко (автор Стрижов В.В., эксперт Матвеев И.А.)

Задача 2

Название: Оценка оптимального объема выборки
Задача: В условиях недостаточного числа дорогостоящих измерений требуется спрогнозировать оптимальный объем пополняемой выборки.
Данные: Выборки измерений в медицинской диагностике, в частности, выборка иммунологических маркеров.
Литература:
- Мотренко А.П. Материалы по алгоритмам оценки оптимального объема выборки в репозитории MLAlgorithms[56], [57].
Базовый алгоритм: Алгоритмы оценки объема выборки при .
Решение: Исследование свойств пространства параметров при пополнении выборки.
Новизна: Предложена новая методология прогнозирования объема выборки, обоснованная с точки зрения классической и байесовской статистики.
Авторы: А.М. Катруца, В.В. Стрижов, эксперт А.П. Мотренко

Задача 3

Название: Восстановление структуры прогностической модели по вероятностному представлению
Задача: Требуется восстановить дерево суперпозиции по порожденному графу вероятностей связей.
Данные: Сегменты временных, пространственно-временных рядов (и текстовые коллекции).
Литература:
- Работы Tommy Yakkola и других в LinkReview [58].
Базовый алгоритм: Метод ветвей и границ, динамическое пограммирование при построении полносвязного графа.
Решение: Построение модели в виде GAN, VAE порождает взвешенный граф, NN аппроксимирует структуру дерева.
Новизна: Предложен способ оштрафовать граф за то, что он не является деревом. Предложен способ прогнозирования структур прогностических моделей.
Авторы: А.М. Катруца, В.В. Стрижов

Задача 4

Название: Распознавание текста на основе скелетного представления толстых линий и сверточных сетей
Задача: Требуется построить две CNN, одна распознает растровое представление изображения, другая векторное.
Данные: Шрифты в растровом представлении.
Литература: Список работ [59], в частности arXiv:1611.03199 и
Базовый алгоритм: Сверточная сеть для растрового изображения.
Решение: Требуется предложить способ свертывания графовых структур, позволяющий породить информативное описание скелета толстой линии.
Новизна: Предложен способ повышения качества распознавания толстых линий за счет нового способа порождения их описаний.
Авторы: Л.М. Местецкий, И.А. Рейер, В.В. Стрижов

Задача 5

Название: Порождение признаков с помощью локально-аппроксимирующих моделей
Задача: Требуется проверить выполнимость гипотезы о простоте выборки для порожденных признаков. Признаки - оптимальные параметры аппроксимирующих моделей. При этом вся выборка не является простой и требует смеси моделей для ее аппроксимации. Исследовать информативность порожденных признаков - параметров аппроксимирующих моделей, обученных на сегментах исходного временного ряда.
Данные:
- WISDM (Kwapisz, J.R., G.M. Weiss, and S.A. Moore. 2011. Activity recognition using cell phone accelerometers. ACM SigKDD Explorations Newsletter. 12(2):74–82.), USC-HAD или сложнее. Данные акселерометра (Human activity recognition using smart phone embedded sensors: A Linear Dynamical Systems method, W Wang, H Liu, L Yu, F Sun - Neural Networks (IJCNN), 2014)
- (Временной ряд (библиотека примеров), раздел Accelerometry).
Литература:
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471-1483.[60]
- Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016.URL
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. URL
- Исаченко Р.В., Стрижов В.В. Метрическое обучение в задачах многоклассовой классификации временных рядов // Информатика и ее применения, 2016, 10(2) : 48-57. URL
- Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. URL
- Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. URL
- Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. URL
Базовый алгоритм: Описан в работе Кузнецова, Ивкина.
Решение: Требуется построить набор локально-аппроксимирующих моделей и выбрать наиболее адекватные.
Новизна: Создан стандарт построения локально-аппроксимирующих моделей.
Авторы: С.Д. Иванычев, Р.Г. Нейчев, В.В. Стрижов

Задача 6

Название: Декодирование сигналов мозга и прогнозирование намерений
Задача: Требуется построить модель, восстанавливающую движение конечностей по кортикограмме.
Данные: neurotycho.org [61]
Литература:
- Нейчев Р.Г., Катруца А.М., Стрижов В.В. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования // Заводская лаборатория. Диагностика материалов, 2016, 82(3) : 68-74. [62]
- MLAlgorithms: Motrenko, Isachenko (submitted)
Базовый алгоритм: Partial Least Squares[63]
Решение: Создать алгоритм выбора признаков, альтернативный PLS и учитывающий неортогональную структуру взаимозависимости признаков.
Новизна: Предложен способ выбора признаков, учитывающий закономерности как и независимой, так и в зависимой переменной.
Авторы: Р.В. Исаченко, В.В. Стрижов

Задача 7

Название: Автоматическое определение релевантности параметров нейросети.
Задача: Рассматривается задача нахождения устойчивой (и не избыточной по параметрам) структуры нейросети. Для отсечения избыточных параметров предлагается ввести априорные вероятностные предположения о распределении параметров и удалить из нейросети неинформативные параметры методом Белсли. Для настройки априорного распределения предлагается использовать градиентные методы.
Данные: Выборка рукописных цифр MNIST
Базовый алгоритм: Optimal Brain Damage, прореживание на основе вариацинного вывода. Структуру итоговой модели предлагается сравнивать с моделью, полученной алгоритмом AdaNet.
Литература:
- [64] Градиентные методы оптимизации гиперпараметров.
- [65] Градиентные методы оптимизации гиперпараметров.
- [66] Optimal Brain Damage.
- [67] AdaNet
- [68] Метод Белсли
Авторы: О.Ю. Бахтеев, В.В. Стрижов

Задача 8

Название: Предсказание графовой структуры нейросетевой модели.
Задача: Рассматривается задача нахождения устойчивой (и не избыточной по параметрам) структуры сверточной нейросети. Предлагается предсказывать структуру нейросети с использованием doubly-recurrent нейросетей. В качестве обучающей выборки предлагается использовать структуры моделей, показавших хорошее качество на подвыборках небольшой мощности.
Данные: Выборки MNIST, CIFAR-10
Базовый алгоритм: случайный поиск. Возможно сравнение с работами по обучению с подкреплением.
Литература:
- [69] doubly-recurrent нейросети.
- [70] Схожий подход с использованием обучения с подкреплением.
Авторы: О.Ю. Бахтеев. В.В. Стрижов

Задача 9

Название: Deep Learning for reliable detection of tandem repeats in 3D protein structures подробнее в PDF
Задача: Deep learning algorithms pushed computer vision to a level of accuracy comparable or higher than a human vision. Similarly, we believe that it is possible to recognize the symmetry of a 3D object with a very high reliability, when the object is represented as a density map. The optimization problem includes i) multiclass classification of 3D data. The output is the order of symmetry. The number of classes is ~10-20 ii) multioutput regression of 3D data. The output is the symmetry axis (a 3-vector). The input data are typically 24x24x24 meshes. The total amount of these meshes is of order a million. Biological motivation : Symmetry is an important feature of protein tertiary and quaternary structures that has been associated with protein folding, function, evolution, and stability. Its emergence and ensuing prevalence has been attributed to gene duplications, fusion events, and subsequent evolutionary drift in sequence. Methods to detect these symmetries exist, either based on the structure or the sequence of the proteins, however, we believe that they can be vastly improved.
Данные: Synthetic data are obtained by ‘symmetrizing’ folds from top8000 library (http://kinemage.biochem.duke.edu/databases/top8000.php).
Литература: Our previous 3D CNN: [71] Invariance of CNNs (and references therein): [72], [73]
Базовой алгоритм: A prototype has already been created using the Tensorflow framework [4], which is capable to detect the order of cyclic structures with about 93% accuracy. The main goal of this internship is to optimize the topology of the current neural network prototype and make it rotational and translational invariant with respect to input data. [4] [74]
Решение: The network architecture needs to be modified according to the invariance properties (most importantly, rotational invariance). Please see the links below [75],

[76] The code is written using the Tensorflow library, and the current model is trained on a single GPU (Nvidia Quadro 4000)of a desktop machine.

Новизна: Applications of convolutional networks to 3D data are still very challenging due to large amount of data and specific requirements to the network architecture. More specifically, the models need to be rotationally and transnationally invariant, which makes classical 2D augmentation tricks loosely applicable here. Thus, new models need to be developed for 3D data.
Авторы: эксперт Sergei Grudinin, консультанты Guillaume Pages, Vadim Strijov

Задача 10

Название: Semi-supervised representation learning with attention
Задача: обучение векторных представлений с использованием механизма attention, благодаря которому значительно выросло качество машинного перевода. Предлагается использовать его в сети архитектуры encoder-decoder для получения векторов фрагментов текста произвольной длины.
Данные: Предлагается рассмотреть две выборки: Microsoft Paraphrase Corpus (небольшой набор предложений, https://www.microsoft.com/en-us/download/details.aspx?id=52398) и PPDB(набор коротких сегментов, не всегда корректная разметка. http://sitem.herts.ac.uk/aeru/ppdb/en/)
Литература:

1. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention Is All You Need (https://arxiv.org/abs/1706.03762). 2. John Wieting, Mohit Bansal, Kevin Gimpel, Karen Livescu. Towards Universal Paraphrastic Sentence Embeddings (https://arxiv.org/abs/1511.08198). 3. Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun, Sanja Fidler. Skip-Thought Vectors (https://arxiv.org/abs/1506.06726). 4. Keras seq2seq (https://github.com/farizrahman4u/seq2seq).

Базовый алгоритм: решение [3] или векторные представления, полученные с использованием seq2seq [].
Решение: в задаче предлагается обучить векторные представления для фраз, используя механизм attention и метод частичного обучения. В качестве внутреннего функционала качества предлагается использовать усовершенствованную функцию ошибки из [2]. В качестве прикладной задачи можно рассмотреть задачу детектирования перефразирований и сентимент-анализ. Причем, исходя из результатов, полученный в [1], можно сделать предположение о том, что механизм attention в большей степени влияет на получение универсальных векторов для фраз, чем архитектура сети. Предлагается протестировать эту гипотезу с использованием двух различных архитектур - стандартной рекуррентной и feed-forward сети.
Новизна: новый метод.
Авторы: Рита Кузнецова, консультант

Задача 11

Название: Выбор интерпретируемых мультимоделей в задачах кредитного скоринга
Задача: Задача кредитного скоринга заключается в определении уровня кредитоспособности заемщика. Для этого используется анкета заемщика, содержащая как числовые (возраст, доход), так и категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли заемщик кредит. Данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), и для адекватной классификации потребуется несколько моделей. Необходимо определить оптимальное число моделей. По набору параметров моделей необходимо составить портрет заемщика.
Данные: Предлагается рассмотреть пять выборок из репозиториев UCI и Kaggle, мощностью от 50000 объектов.
Литература: Диссертация А.А. Адуенко \MLAlgorithms\PhDThesis; С. Bishop, Pattern recognition and machine learning, последняя глава; 20 years of Mixture experts.
Базовой алгоритм: Кластеризация и построение независимых моделей логистической регрессии, Адабуст, Решающий лес (с ограничениями на сложность), Смесь экспертов.
Решение: Предлагается алгоритм выбора мультимодели (смеси моделей или смеси экспертов) и определения оптимального числа моделей.
Новизна: Предлагается функция расстояния между моделями, в которых распределения параметров заданы на разных носителях.
Авторы: А.В. Гончаров, В.В. Стрижов.

Задача 12

Название: Порождение признаков, инвариантных к изменению частоты временного ряда.
Задача: Неформально: есть набор временных рядов определенной частоты (s1), причем интересующая нас информация различима и при меньшей частоте дискретизации (например, отсчеты происходят каждую миллисекунду, а интересующие нас события происходят на интервале 0.1 с). Данные ряды интегрируются, снижая частоту в 10 раз (т.е. каждые 10 значений просто суммируются) и получается набор временных рядов s2.Предлагается найти такие преобразования над временным рядом, зависящие от частоты, что временные ряды высокой частоты s1и более низкой частоты s2 будут описываться одинаково. Формально: Задан набор временных рядов s1, ..., sNSс высокой частотой дискретизации 1. Целевая информация (например, движение рукой/cуточное колебание цены/…) различима и при меньшей частоте дискретизации 2 < 1. Необходимо найти такое отображение f: S G, -частота ряда, что оно будет порождать похожие признаковые описания для рядов различной частоты. Т.е.

f* = argminf E(f1(s1) -f2(s2)) , где E- некоторая функция ошибки.

Данные: Наборы временных рядов физической активности людей с акселерометров; временные ряды ЭЭГ человека; временные ряды энергопотребления городов/промышленных объектов. Ссылка на выборку: репозиторий UCI, наши выборки по ЭЭГ и акселерометрам.
Литература: См выше про Акселерометры
Базовой алгоритм: Преобразование Фурье.
Решение: Построение автоэнкодера с частично фиксированным внутренним представлением в виде того же временного ряда с меньшей частотой.
Новизна: Для временных рядов отсутствует “общепринятый подход” к анализу, в отличие, например, от анализа изображений. Если посмотреть на проблему отвлеченно, сейчас кот определяется так же хорошо, как и кот, занимающий вдвое меньшее пространство на изображении. Напрашивается аналогия с временными рядами. Тем более, природа данных в картинках и во временных рядах похожа: в картинках иерархия между значениями есть по двум осям (x и y), а во временных рядах - по одной - по оси времени. Гипотеза заключается в том, что сходные с анализом изображений методы позволят получить качественные результаты. Полученное признаковое представление может в дальнейшем использоваться для классификации и предсказания временных рядов.
Авторы: Р. Г. Нейчев, В.В. Стрижов.

Задача 14

to be done

Название: Предсказание музыкальных плейлистов пользователей в рекомендательной системе.
Задача:
Данные: конкурса конференции RecSys'18.
Литература:
1. Воронцов К.В. Обзор вероятностных тематических моделей. 2017.
Базовой алгоритм:
Решение: построение тематической модели с помощью библиотеки BigARTM.
Новизна:
Авторы: К.В.Воронцов.

Задача 15

to be done

Название: Иерархическое тематическое моделирование текстовой коллекции
Задача: (варианты: новостной поток на русском / выпускные работы студентов на русском / научные статьи на английском / научпоп на русском).
Данные:
Литература:
1. Воронцов К.В. Обзор вероятностных тематических моделей. 2017.
Базовой алгоритм:
Решение: построение тематической модели с помощью библиотеки BigARTM.
Новизна:
Авторы: К.В.Воронцов

Задача 16

to be done

Название: Анализ банковских транзакционных данных физических лиц для выявления паттернов потребления клиентов.
Задача:
Данные:
Литература:
1. Воронцов К.В. Обзор вероятностных тематических моделей. 2017.
Базовой алгоритм:
Решение: построение тематической модели с помощью библиотеки BigARTM.
Новизна:
Авторы: К.В.Воронцов, консультанты Роза Айсина, Филипп Никитин.

Задача 17

to be done

Название: Анализ банковских транзакционных данных юридических лиц для выявления видов экономической деятельности компаний.
Задача:
Данные:
Литература:
1. Айсина Р.М. Тематическое моделирование финансовых потоков корпоративных клиентов банка по транзакционным данным.
Базовой алгоритм:
Решение: построение тематической модели с помощью библиотеки BigARTM.
Новизна: задача восстановления структуры товарно-денежных потоков в отрасли по банковским транзакционным данным ранее не ставилась.
Авторы: К.В.Воронцов, консультант Роза Айсина.

Задача 18

Название: Сравнение нейросетевых и непрерывно-морфологических методов в задаче детекции текста (Text Detection).
Задача: Automatically Detect Text in Natural Images.
Данные: синтетические сгенерированные данные + подготовленная выборка фотографий + COCO-Text dataset + Конкурс Avito 2014.
Литература: COCO benchmark, One of a state-of-the-art architecture
Базовой алгоритм: code + морфологические методы, Avito 2014 winner's solution.
Решение: Предлагается сравнить работы нескольких state-of-the-art алгоритмов, которым нужна обширная обучающая выборка, с морфологическими методы, требующие небольшого числа данных. Предлагается определить границы применимости тех или иных методов.
Новизна: предложить алгоритм, основанный на использовании как нейросетевых, так и морфологических методов (решение задачи word detection).
Авторы: И.Н. Жариков.
Эксперт: Л.М. Местецкий (морфологические методы).

YEAR

Задачи группы 594

Автор	Тема научной работы	Ссылка	Консультант	Рецензент	Доклад	Буквы	$\Sigma=3+13$
Гончаров Алексей (пример)	Метрическая классификация временных рядов	code, paper, slides	Мария Попова	Задаянчук Андрей	BMF	AILSBRCVTDSWH>
Белых Евгений Проскурин Александр	Классификация суперпозиций движений физической активности	paper slides code	Мария Владимирова, Александра Малькова	Романенко Илья, Поповкин Андрей, review video	MF	AILSBRC>V> [AILSBRC0VT0E0D0WS] CTD	2+9
Зуева Надежда	Style Change Detection	paper slides video	Рита Кузнецова	Игашов Илья, review	BHMF	AIL-S-B-R- [AILSBRCV0TE0D0WS]	3+10
Игашов Илья	Формулировка и решение задачи оптимизации, сочетающей классификацию и регрессию, для оценки энергии связывания белка и маленьких молекул.	paper slides video	Сергей Грудинин, Мария Кадукова	Манучарян Вардан, review, correction	BHMF	AILBS+BRHC>V> [AILSBRCVTE0D0WS]	3+11
Калугин Дмитрий	Предсказание графовой структуры нейросетевой модели	paper slides	Бахтеев Олег	Зуева Надежда review	BHM	AI-L-S--B0R0C0V0 [A-ILSBR0CVT0ED0WS]	2+11
Манучарян Вардан	Предсказание свойств и типов атомов в молекулярных графах при помощи сверточных сетей	paper, slides, code video	Сергей Грудинин, Мария Кадукова	Фаттахов Артур review	BMF	AILS>B> [AILSB0R0CV0TE0D0WS] VED	3+7
Муравьев Кирилл	Определение параметров нейросети, подлежащих оптимизации.	paper, slides, code video	Бахтеев Олег	Калугин Дмитрий review	BHMF	A+IL-S-B-RCVTED [AILSBRCV0TE0DWS]	3+12
Мурзин Дмитрий Данилов Андрей	Распознавание текста на основе скелетного представления толстых линий и свёрточных сетей	paper, slides, code [video]	Л. М. Местецкий, Иван Рейер, Жариков И. Н.	Муравьев Кирилл review	BHMF	A+IL> [AILSB0R0CV0TE0D0WS]	3+8
Поповкин Андрей Романенко Илья	Создание ранжирующих моделей для систем информационного поиска. Алгоритм прогнозирования структуры локально-оптимальных моделей	paper slides code video	Кулунчаков Андрей, В. В. Стрижов	Проскурин Александр, Белых Евгений, review	BHMF	AILS0BC>V> [AILSBRC0VTED0WS]	3+11
Фаттахов Артур	Style Change Detection	paper slides code video	Рита Кузнецова	Данилов Андрей, Мурзин Дмитрий, рецензия	BMF	AIL-S-B-R-CVTDSWH [AILSBRCVTE0D0WS]	3+11

Задача 1 (1-2)

Название: Классификация суперпозиций движений физической активности
Задача: Анализ поведения человека по измерениям датчиков мобильного телефона: по данным акселерометра определить движения человека. Данные акселерометра представляют собой сигнал, не имеющий точной периодики, который содержит неизвестную суперпозицию физических моделей. Будем рассматривать суперпозицию моделей: тело + рука/сумка/рюкзак.

Классификация видов деятельности человека по измерениям фитнес-браслетов. По измерениям акселерометра и гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. (Развитие: Характерная продолжительность движения — секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности — минуты. Требуется по описанию временного ряда и кластера восстановить вид деятельности.)

Данные:
- Собираются самостоятельно
- Данные строителей
- Временные ряды акселерометра WISDM (Временной ряд (библиотека примеров), раздел Accelerometry).
Литература:
- Карасиков М. Е., Стрижов В. В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016. [URL]
- Кузнецов М. П., Ивкин Н. П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471—1483. [URL]
- Исаченко Р. В., Стрижов В. В. Метрическое обучение в задачах многоклассовой классификации временных рядов // Информатика и ее применения, 2016, 10(2) : 48-57. [URL]
- Задаянчук А. И., Попова М. С., Стрижов В. В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. [URL]
- Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466—1476. [URL]
- Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. [URL]
Базовой алгоритм: Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] и [Кузнецов, Ивкин: 2014].
Решение: Найти оптимальный способ сегментации и оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
Новизна: Предложен способ классификации и анализа сложных движений (Развитие: Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.)
Авторы: Александра Малькова, Мария Владимирова, Р. Г. Нейчев, В. В. Стрижов,

Задача 2 (1)

Название: Сравнение нейросетевых и непрерывно-морфологических методов в задаче детекции текста (Text Detection).
Задача: Automatically Detect Text in Natural Images.
Данные: синтетические сгенерированные данные + подготовленная выборка фотографий + COCO-Text dataset + Конкурс Avito 2014.
Литература: COCO benchmark, One of a state-of-the-art architecture
Базовой алгоритм: code + морфологические методы, Avito 2014 winner’s solution.
Решение: Предлагается сравнить работы нескольких state-of-the-art алгоритмов, которым нужна обширная обучающая выборка, с морфологическими методы, требующие небольшого числа данных. Предлагается определить границы применимости тех или иных методов.
Новизна: предложить алгоритм, основанный на использовании как нейросетевых, так и морфологических методов (решение задачи word detection).
Авторы: И. Н. Жариков.
Эксперт: Л. М. Местецкий (морфологические методы).

Задача 3 (1-2)

Название: Распознавание текста на основе скелетного представления толстых линий и сверточных сетей
Задача: Требуется построить две CNN, одна распознает растровое представление изображения, другая векторное. (Развитие: порождение толстых линий нейросетями)
Данные: Шрифты в растровом представлении.
Литература: Список работ [77], в частности arXiv:1611.03199 и
Базовый алгоритм: Сверточная сеть для растрового изображения.
Решение: Требуется предложить способ свертывания графовых структур, позволяющий породить информативное описание скелета толстой линии.
Новизна: Предложен способ повышения качества распознавания толстых линий за счет нового способа порождения их описаний.
Авторы: Л. М. Местецкий, И. А. Рейер, В. В. Стрижов

Задача 4 (1-2)

Название: Создание ранжирующих моделей для систем информационного поиска. Алгоритм прогнозирования структуры локально-оптимальных моделей
Задача: Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, и на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Задача состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
Данные:
- Коллекция текстовых документов TREC (!)
- Набор временных рядов, который подразумевает восстановление функциональных зависимостей. Предлагается сначала использовать синтетические данные или сразу применить алгоритм к прогнозированию временных рядов 1) потребления электроэнергии 2) физической активности с последующим анализом получающихся структур.
Литература:
- (!) Kulunchakov A.S., Strijov V.V. Generation of simple structured Information Retrieval functions by genetic algorithm without stagnation // Expert Systems with Applications, 2017, 85 : 221—230.
- А. А. Варфоломеева Выбор признаков при разметке библиографических списков методами структурного обучения, 2013, [78]
- Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [79]
Базовой алгоритм: Конкретно к предлагаемой проблеме базового алгоритма нет. Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит.
Решение: Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) и получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
Авторы: Кулунчаков Андрей, В. В. Стрижов

Задача 5 (1)

Название: Определение параметров нейросети, подлежащих оптимизации.
Задача: Рассматривается задача оптимизации нейросети. Требуется разделить параметры модели на две группы:
- а) Параметры модели, подлежащие оптимизации
- б) Параметры модели, оптимизация которых завершилась. Дальнейшая оптимизация данных параметров не даст улучшения качества модели.

Предлагается рассматривать оптимизацию параметров как стохастический процесс. Основываясь на истории процесса найдем те параметры, чья оптимизация больше не требуется.

Данные: Выборка рукописных цифр MNIST
Базовый алгоритм: Случайный выбор параметров.
Литература:
- [80] SGD как стохастический процесс.
- [81] Вариационный вывод в нейросетях.
Новизна: полученный алгоритм позволит существенно снизить вычислительную стоимость оптимизации нейросетей. Возможным дальнейшим развитием метода является получение оценок на параметры сети, полученной из исходной операциями расширения, сжатия, добавления и удаления слоев.
Авторы: Бахтеев Олег, В. В. Стрижов

Задача 6 (1)

Название: Предсказание графовой структуры нейросетевой модели.
Задача: Рассматривается задача нахождения устойчивой (и не избыточной по параметрам) структуры сверточной нейросети. Предлагается предсказывать структуру нейросети с использованием doubly-recurrent нейросетей. В качестве обучающей выборки предлагается использовать структуры моделей, показавших хорошее качество на подвыборках небольшой мощности.
Данные: Выборки MNIST, CIFAR-10
Базовый алгоритм: случайный поиск. Возможно сравнение с работами по обучению с подкреплением.
Литература:
- [82] doubly-recurrent нейросети.
- [83] Схожий подход с использованием обучения с подкреплением.
Авторы: Бахтеев Олег, В. В. Стрижов

Задача 7 (1)

Название: Style Change Detection.
Задача: Дана коллекция документов, требуется определить, написан ли каждый документ одним автором, или несколькими (http://pan.webis.de/clef18/pan18-web/author-identification.html).
Данные: PAN 2018 (http://pan.webis.de/clef18/pan18-web/author-identification.html)

PAN 2017 (http://pan.webis.de/clef17/pan17-web/author-identification.html) PAN 2016 (http://pan.webis.de/clef16/pan16-web/author-identification.html)

Литература:

1. Ian Goodfellow. NIPS 2016 Tutorial: Generative Adversarial Networks (https://arxiv.org/pdf/1701.06547.pdf) 2. Jiwei Li, Will Monroe, Tianlin Shi, Sebastien Jean, Alan Ritter and Dan Jurafsky. Adversarial Learning for Neural Dialogue Generation(https://arxiv.org/pdf/1701.06547.pdf) 3. M. Kuznetsov, A. Motrenko, R. Kuznetsova, V. Strijov. Methods for Intrinsic Plagiarism Detection and Author Diarization (https://pdfs.semanticscholar.org/1011/6d82a8438c78877a8a142be47c4ee8662138.pdf) 4. K. Safin, R. Kuznetsova. Style Breach Detection with Neural Sentence Embeddings (https://pdfs.semanticscholar.org/c70e/7f8fbc561520accda7eea2f9bbf254edb255.pdf)

Базовый алгоритм: решение, описанное в [3, 4].
Решение: предлагается решать задачу, используя generative adversarial networks — генеративная модель порождает тексты в одном авторском стиле, дискриминативная модель — бинарный классификатор.
Новизна: предполагается, что решение этой задачи предлагаемым методом может дать прирост качества по сравнению с типичными методами решениями этой задачи, а также связанных с ней задач кластеризации авторов.
Авторы: Рита Кузнецова (консультант), В. В. Стрижов

Задача 8 (1)

Название: Получение оценок правдоподобия с использованием автокодировщиков
Задача: предполагается, что рассматриваемые объекты подчиняются гипотезе многообразия (manifold learning) — вектора высокий размерности сосредоточились вокруг некоторого подпространства меньшей размерности. Работы [1, 2] показывают, что некоторые модификации автокодировщиков ищут k-мерное многообразие в пространстве объектов, которое наиболее полно передает структуру данных. В работе [2] выводится оценка плотности вероятности данных с помощью автокодировщика. Требуется получить эту оценку на правдоподобие модели.
Данные: предлагается провести эксперимент на коротких текстовых фрагментах Google ngrams (http://storage.googleapis.com/books/ngrams/books/datasetsv2.html)
Литература:

1. Pascal Vincent, Hugo Larochelle, Isabelle Lajoie, Yoshua Bengio, Pierre-Antoine Manzagol. Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion (http://www.jmlr.org/papers/volume11/vincent10a/vincent10a.pdf).
2. Guillaume Alain, Yoshua Bengio. What Regularized Auto-Encoders Learn from the Data Generating Distribution (https://arxiv.org/pdf/1211.4246.pdf)
3. Hanna Kamyshanska, Roland Memisevic. The Potential Energy of an Autoencoder (https://www.iro.umontreal.ca/~memisevr/pubs/AEenergy.pdf)

Базовый алгоритм:
Решение: в задаче предлагается обучить векторные представления для фраз (n-грамм) с использованием автокодировщика, с помощью теоремы 2 в работе [2] получить оценку на правдоподобие выборки и, с помощью этой оценки, вывести правдоподобие модели. С помощью полученных оценок можно также рассмотреть процесс сэмплирования.
Новизна: получение оценок правдоподобия данных и правдоподобия модели, порождение текстов с помощью полученных оценок.
Авторы: Рита Кузнецова (консультант).

Задача 9 (1)

Название: Предсказание свойств и типов атомов в молекулярных графах при помощи сверточных сетей.
Задача: Multilabel classification using convolutional neural networks (CNN) on graphs.

Для предсказания взаимодействия молекул друг с другом зачастую необходимо правильно описать составляющие их атомы, поставив им в соответствие некоторые типы. Для маленьких молекул доступно не так много дескрипторов: координаты и химические элементы атомов, длины связей и величины углов между ними. Используя эти признаки, мы успешно предсказываем гибридизации атомов и типы связей. При таком подходе каждый атом рассматривается «по отдельности», информация о соседних атомах, необходимая для определения типа атома, практически не используется, и типы атомов определяются с помощью проверки большого числа условий. В то же время, молекулы представимы в виде трехмерных молекулярных графов, и было бы интересно использовать это для предсказания их типов методами машинного обучения, например, с помощью CNN. Необходимо предсказать типы вершин и рёбер молекулярных графов :

- тип атома (тип вершины графа, около 150 классов),
- гибридизацию атома (вспомогательный признак, тип вершины, 4 класса),
- тип связи (вспомогательный признак, тип ребра, 5 классов).

Тип атома (вершины графа) основан на информации о его гибридизации и свойствах соседних с ним атомов. Поэтому в случае успешного решения задачи классификации можно провести кластеризацию для поиска других способов определения типов атомов.

Данные: Около 15 тысяч молекул, представленных в виде молекулярных графов. Для каждой вершины (атома) известны 3D координаты и химический элемент. Дополнительно посчитаны длины связей, величины углов и двугранных углов между атомами (3D координаты графа), бинарные признаки, отражающие, входит ли атом в цикл и является ли он терминальным. Выборка размечена, однако в размеченных данных может содержаться ~5 % ошибок.

Если данных будет недостаточно, возможно увеличение выборки (до 200 тысяч молекул), сопряженное с увеличением неточности в разметке.

Литература:
Базовой алгоритм: Предсказание гибридизаций и порядков связей с помощью мультиклассового нелинейного SVM с небольшим числом дескрипторов. https://hal.inria.fr/hal-01381010/document
Решение: Предлагаемое решение задачи и способы проведения исследования.

Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма. На первом этапе нужно будет определить операции на графах, необходимые для построения архитектуры сети. Далее нужно будет обучить сеть для мульти-классовой классификации типов вершин (и ребер) входного графа. Для оценки качества алгоритма предполагается оценивать точность с помощью кросс-валидации. Для конечной публикации (в профильном журнале) нужно будет сделать специфический тест на качество предсказаний: на основе предсказанных типов связи молекула записывается в виде строки (в формате SMILES) и сравнивается с образцом. В этом случае для каждой молекулы предсказание будет считаться верным, только если типы всех связей в ней были предсказаны без ошибок.

Новизна: Предложенные молекулярные графы обладают 3D структурой и внутренней иерархией, что делает их идеальным объектом применения CNN.
Авторы: Сергей Грудинин, Мария Кадукова, В. В. Стрижов.

Задача 10 (1)

Название: Формулировка и решение задачи оптимизации, сочетающей классификацию и регрессию, для оценки энергии связывания белка и маленьких молекул. Описание задачи [87]
Задача:

С точки зрения биоинформатики, задача заключается в оценке свободной энергии связывания белка с маленькой молекулой (лигандом): наилучший лиганд в своем наилучшем положении имеет \textbf{наименьшую свободную энергию} взаимодействия с белком. (Далее большой текст, см. файл по ссылке вверху.)

Данные:
- Данные для бинарной классификации.

Около 12,000 комплексов белков с лигандами: для каждого из них есть 1 нативная поза и 18 ненативных. Основными дескрипторами являются гистограммы распределений расстояний между различными атомами белка и лиганда, размерность вектора дескрипторов ~ 20,000. В случае продолжения исследования и публикации в профильном журнале набор дескрипторов может быть расширен. Данные будут предоставлены в виде бинарных файлов со скриптом на python для чтения.

- Данные для регрессии.

Для каждого из представленных комплексов известно значение величины, которую можно интерпретировать как энергию связывания.

Литература:
- SVM [88]
- Ridge Regression [89]
- [90] (секция 1)
Базовой алгоритм: [91]

В задаче классификации мы использовали алгоритм, похожий на линейный SVM, связь которого с оценкой энергии, выходящей за рамки задачи классификации, описана в указанной выше статье. В задаче регрессии можно использовать различные функции потерь.

Решение: Необходимо связать использованную ранее оптимизационную задачу с задачей регрессии и решить стандартными методами. Для проверки работы алгоритма будет использована кросс-валидация.

Есть отдельный тестовый сет, состоящий из (1) 195 комплексов белков и лигандов, для которых нужно найти наилучшую позу лиганда (алгоритм получения положений лиганда отличается от используемого при обучении), (2) комплексов белков и лигандов, для нативных поз которых нужно предсказать энергию связывания, и (3) 65 белков, для которых нужно найти наиболее сильно связывающийся лиганд.

Новизна': В первую очередь, интерес представляет объединение задач классификации и регрессии.

Правильная оценка качества связывания белка и лиганда используется при разработке лекарства для поиска молекул, наиболее сильно взаимодействующих с исследуемым белком. Использование описанной выше задачи классификации для предсказания энергии связывания приводит к недостаточно высокой корреляции предсказаний с экспериментальными значениями, в то время как использование одной лишь задачи регрессии приводит к переобучению.

Авторы Сергей Грудинин, Мария Кадукова, В. В. Стрижов.

2017

Автор	Тема научной работы	Ссылка	Консультант	Рецензент	Доклад	Буквы
Гончаров Алексей (пример)	Метрическая классификация временных рядов	code, paper, slides	Мария Попова	Задаянчук Андрей	BMF	AILSBRCVTDSWH>
Алексеев Василий	Внутритекстовая когерентность как мера интерпретируемости тематических моделей текстовых коллекций	code data paper slides video	Виктор Булатов	Захаренков Антон	BMF	AILSB+RC+V+TDHW
Аникеев Дмитрий	Локальная аппроксимация временных рядов для построения прогностических метамоделей	code paper slides	В.В. Стрижов	Смердов Антон	BMF	AILS>B0R0C0V0T0D0H0W0
Гасанов Эльнур	Построение аппроксимирующего описания скалограммы в задаче прогнозирования движений по электрокортикограмме	code paper slides	Анастасия Мотренко	Ковалев Дмитрий	BMF	AILSBRCVTDH0W0
Захаренков Антон	Massively multitask deep learning for drug discovery	code paper slides video	Мария Попова	Алексеев Василий	BMF	AILSBRCVT>D>H0W0
Ковалев Дмитрий	Unsupervised representation for molecules	code paper slides	Мария Попова	Гасанов Эльнур	BMF	AILSBRCVT>D>H0W0
Новицкий Василий	Выбор признаков в задачах авторегрессионного прогнозирования биомедицинских сигналов	paper code slides	Александр Катруца		B - F	AILS>B0R0C0V0T0D0H0W0
Селезнева Мария	Агрегирование гетерогенных текстовых коллекций в иерархической тематической модели русскоязычного научно-популярного контента	paper code slides video	Ирина Ефимова	Шолохов Алексей	BMF	A+IL+SBRCVTDHW
Смердов Антон	Выбор оптимальной модели рекуррентной сети в задачах поиска парафраза	paper code slides video	Олег Бахтеев	Дмитрий Аникеев	BMF	AIL+SB+RC>V+M-T>D0H0W0
Уваров Никита	Оптимальный алгоритм для восстановления динамических моделей	paper slides code video	Юрий Максимов		BMF	AILS0B0R0C0V0T0D0H0W0
Усманова Карина	Multiple Manifold Learning (Joint diagonalization for 3D shapes - AJD on Hessian matrices)	paper slides code video	Михаил Карасиков	Иннокентий Шибаев	BMF	AILSBRC+VT+EDH>W
Шибаев Иннокентий	Convex relaxations for multiple structure alignment (synchronization problem for SO(3))	paper slides code video	Михаил Карасиков	Карина Усманова	BMF	AILS-BRCVT>D>H>W
Шолохов Алексей	Помехоустойчивость методов информационного анализа ЭКГ-сигналов	paper code slides video	Влада Бунакова	Селезнева Мария	BMF	AILSBRCVTDHW

Академ или новые

Автор	Тема научной работы	Ссылка	Консультант	Доклад	Буквы
Кульков Александр	Адаптивные релаксации NP трудных задач через машинное обучение	paper	Юрий Максимов	академ	A>I>L>B0R0C0V0T0D0H0W0
Калошин Павел	Применение сетей глубокого обучения для переноса моделей классификации в случае недостаточного объема данных.	paper code data	Антон Хританков	- MF	AIL-SBRC-VT+D>H>W0
Малиновский Григорий	Выбор интерпретируемых мультимоделей в задачах кредитного скоринга	paper code	Александр Адуенко	академ B - -	AILS-B>R>C>V>T0D0H0W0
Плетнев Никита	Детектирование внутреннего плагиата	paper	Рита Кузнецова	академ - - -	A-I-L-S>B0R0C0V0T0D0H0W0
Гревцев Александр	Параллельные алгоритмы параметрической идентификации потенциала Терсоффа для AlN	paper	Каринэ Абгарян
Зайцев Никита	Автоматическая классификация научных статей по кристаллографии	paper readme	Евгений Гаврилов
Дилигул Александр	Определение оптимальных параметров потенциала для модели Rosato-Guillope-Legrand (RGL) по экспериментальным данным и результатам квантово-механических расчетов	paper	Каринэ Абгарян
Дарья Фокина	Отбор кандидатов в задаче поиска текстовых заимствований с перефразированием, основанный на векторизации текстовых фрагментов		Алексей Романов		AILSB0R0C0V0T0D0H0W0

Задача 1

Название: Классификация видов деятельности человека по измерениям фитнес-браслетов.
Задача: По измерениям акселерометра и гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. Характерная продолжительность движения – секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности – минуты. Требуется по описанию временного ряда и кластера восстановить вид деятельности.
Данные: Временные ряды акселерометра WISDM (Временной ряд (библиотека примеров), раздел Accelerometry).
Литература:
- Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016. [URL]
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [URL]
- Исаченко Р.В., Стрижов В.В. Метрическое обучение в задачах многоклассовой классификации временных рядов // Информатика и ее применения, 2016, 10(2) : 48-57. [URL]
- Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. [URL]
- Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. [URL]
- Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. [URL]
Базовой алгоритм: Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] и [Кузнецов, Ивкин: 2014].
Решение: Найти оптимальный способ сегментации и оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
Новизна:: Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.
Авторы: В.В. Стрижов, М.П. Кузнецов, П.В. Левдик.

Задача 2

Название: Построение аппроксимирующего описания скалограммы в задаче прогнозирования движений по электрокортикограмме.
Задача: В рамках решения задачи декодирования сигналов ECoG решается задача классификации движений по временным рядам показаний электродов. Инструментами для извлечения признаков из временных рядов ECoG являются коэффициенты вейвлет-преобразования исследуемого сигнала [Макарчук 2016], на основе которых для каждого электрода строится скалограмма - двумерный массив признаков в пространстве частота-время. Объединение скалограмм для каждого электрода даёт признаки временного ряда в пространственно-частотно-временной области. Построенное таким образом признаковое описание заведомо содержит мультикоррелирующие признаки и является избыточным. Требуется предложить метод снижения размерности признакового пространства.
Данные: Измерения положений пальцев при совершении простых жестов. Описание экспериментов данные.
Литература:
- Макарчук Г.И., Задаянчук А.И. Стрижов В.В. 2016. Использование метода частичных наименьших квадратов для декодирования движения руки с помощью ECoG сигналов у обезьян. pdf
- Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016. [URL]
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483.
Базовой алгоритм: PLS

Chen C, Shin D, Watanabe H, Nakanishi Y, Kambara H, et al. (2013) Prediction of Hand Trajectory from Electrocorticography Signals in Primary Motor Cortex. PLoS ONE 8(12): e83534.

Решение: Для снижения размерности предлагается использовать метод локальной аппроксимации, предложенный в [Кузнецов 2015] использованный для классификации акселерометрических временных рядов [Карасиков 2016].
Новизна: Предложен новый метод восстановления движений на основе электрокортикограмм.
Авторы: В.В. Стрижов, А.П. Мотренко

Задача 3

Название: Multiple Manifold Learning (Joint diagonalization for 3D shapes - AJD on Hessian matrices).
Задача: Построение оптимального алгоритма для задачи Multiple Manifold Learning. Даны две конформации белка (две третичные труктуры). В окрестности каждого состояния задана модель эластичного тела (колебания структуры в окрестности данных состояний). Задача состоит в построении общей модели эластичного тела для нахождения промежуточных состояний с максимальным совпадением с данными моделями в окрестностях заданных конформаций. Пространство движений эластичного тела задается собственными векторами гессиана. Требуется найти общее low-rank приближение пространства движений двух эластичных тел.
Данные: Белковые структуры в двойных конформациях из PDB, около 100 наборов из статьи https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4677049/
Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты (недавняя статья, близкая по результатам), 3) основной информацией об исследуемой проблеме.

Tirion, M. M. (1996). Large amplitude elastic motions in proteins from a single-parameter, atomic analysis. Physical Review Letters, 77(9), 1905. Moal, I. H., & Bates, P. A. (2010). {SwarmDock} and the Use of Normal Modes in Protein-Protein Docking. IJMS, 11(10), 3623–3648. https://doi.org/10.3390/ijms11103623

Базовой алгоритм: AJD algorithm: http://perso.telecom-paristech.fr/~cardoso/jointdiag.html, AJD algorithms implemented as part of Shogun ML toolbox http://shogun-toolbox.org, http://shogun-toolbox.org/api/latest/classshogun_1_1CApproxJointDiagonalizer.html.
Решение: Вычисление гессианов (C++ код у Сергея), изучение и запуск стандартных алгоритмов совместной диагонализации для первых n нетривиальных собственных векторов, анализ функций потерь, адаптирование стандартного алгоритма для решения исходной задачи.
Новизна: При помощи простых моделей теории эластичности с одним или несколькими свободными параметрами можно описать тепловые флуктуации в белках. Однако такие модели не описывают переходы между несколькими стабильными конформациями в белках. Целью данной работы является доработка эластичной модели так, чтобы она также описывала пространство конформационных изменений.
Авторы: Грудинин Сергей, консультант: Карасиков Михаил / Максимов Юрий.

Задача 4

Название: Convex relaxations for multiple structure alignment (synchronization problem for SO(3)).
Задача: Найти преобразования для одновременного выравнивания третичных структур белков (простыми словами: найти ортогональные преобразования, совмещающие данные в R^3 молекулы, имеющие одинаковые химические формулы). Если структуры одинаковые (RMSD после выравнивания равно нулю, структуры совмещаются точно), то выравнивать можно попарно. Однако, если это не так, то базовый алгоритм, вообще говоря, не находит оптимум исходной задачи с функцией потерь для одновременного выравнивания.
Данные: Структуры белков в PDB формате в различных состояниях и системах координат.
Литература:
- Multiple structural alignment:
  1. Kearsley.S.K. (1990)7. Comput. Chem., 11, 1187-1192.
  2. Shapiro., BothaJ.D., PastorA and Lesk.A.M. (1992) Acta Crystallogr., A48, 11-14.
  3. Diamond,R. (1992) Protein Sci., 1, 1279-1287.
  4. May AC, Johnson MS, Improved genetic algorithm-based protein structure comparisons: pairwise and multiple superpositions. Protein Eng. 1995 Sep;8(9):873-82.
- Synchronisation problem:
  1. O. Özyeşil, N. Sharon, A. Singer, ``Synchronization over Cartan motion groups via contraction”, Available at arXiv.
  2. L. Wang, A. Singer, ``Exact and Stable Recovery of Rotations for Robust Synchronization”, Information and Inference: A Journal of the IMA, 2(2), pp. 145--193 (2013).
  3. Semidefinite relaxations for optimization problems over rotation matrices J Saunderson, PA Parrilo… - Decision and Control ( …, 2014 - ieeexplore.ieee.org
  4. Spectral synchronization of multiple views in SE (3) F Arrigoni, B Rossi, A Fusiello - SIAM Journal on Imaging Sciences, 2016 - SIAM
  5. Robust Rotation Synchronization via Low-rank and Sparse Matrix Decomposition, F Arrigoni, A Fusiello, B Rossi, P Fragneto - arXiv preprint arXiv: …, 2015 - arxiv.org
- Spectral relaxation for SO(2)
  1. A. Singer, Angular synchronization by eigenvectors and semidefinite programming, Applied and Computational Harmonic Analysis 30 (1) (2011) 20 – 36.
- Spectral relaxation for SO(3)
  1. M.Arie-Nachimson,S.Z.Kovalsky,I.Kemelmacher-Shlizerman,A.Singer,R.Basri,Global motion estimation from point matches, in: International Conference on 3D Imaging, Modeling, Processing, Visualization and Transmission, 2012, pp. 81–88.
  2. A. Singer, Y. Shkolnisky, Three-dimensional structure determination from common lines in cryo-em by eigenvectors and semidefinite programming, SIAM Journal on Imaging Sciences 4 (2) (2011) 543– 572.
Базовой алгоритм: Алгоритм локального (попарного) выравнивания. Kearsley.S.K. (1989) Acta Crystallogr., A45, 208-210 ; Rapid determination of RMSDs corresponding to macromolecular rigid body motions

Petr Popov, Sergei Grudinin, Journal of Computational Chemistry, Wiley, 2014, 35 (12), pp.950-956. <10.1002/jcc.23569> DOI : 10.1002/jcc.23569

Решение: Два варианта постановки оптимизационных задач (через матрицы поворота и через кватернионы). Релаксация полученных задач выпуклыми, сравнение решений задачи базовым алгоритмом и релаксациями (spectral relaxation, SDP).
Новизна: Метод, выравнивающий структуры, минимизируя функцию потерь, учитывающую все попарные потери.
Авторы: Грудинин Сергей, консультант: Карасиков Михаил.

Задача 5

Название: Локальная аппроксимация временных рядов для построения прогностических метамоделей.
Задача: Исследуется физическая активность человека по временным рядам - измерениям акселерометра. Целью проекта является создание инструмента для анализа проблемы созания моделей прогнозирования моделей - метамоделей. Исследуется сегмент временного ряда. Требуется спрогнозировать класс сегмента. (Вариант: спрогнозировать окончание сегмента, последующий сегмент, его класс. При этом класс последующего сегмента может отличаться от класса предыдущего).
Данные: Взять за основу выборку Santa Fe или WISDM (выборки состоят из сегментов со многими элементарными движениями и соответствующими сегментам метками классов), вариант OPPORTUNITY Activity Recognition Challenge.
Литература:
- Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016. [URL]
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [URL]
Базовой алгоритм: [Карасиков 2016]
Решение: См. описание задачи.
Новизна: При создании метапрогностических моделей (моделей прогнозирования прогностических моделей) остается открытой проблема использования значений параметров локальных моделей при создании метамоделей. Цель нижеприведенного проекта - создание инструмента для анализа этой проблемы.
Авторы: В.В. Стрижов

Задача 6

Название: Выбор оптимальной модели рекуррентной сети в задачах поиска парафраза
Задача: Задана выборка пар предложений с метками <<похожие>> и <<непохожие>>. Требуется построить рекуррентную сеть небольшой сложности (т.е. с небольшим количеством параметров), доставляющую минимум ошибке классификации пар предложений.
Данные: Предлагается рассмотреть две выборки: Microsoft Paraphrase Corpus (небольшой набор предложений) и PPDB (набор коротких сегментов, не всегда корректная разметка)
Литература:
- [1] Пошаговое описание реализации рекуррентной сети LSTM
- [2] Алгоритм прореживания, основанный на построении сети, обладающей минимальной длиной описания
- [3] Optimal Brain Damage
Базовый алгоритм: В качестве базового алгоритма могут выступать:
1. Решение без прореживания
2. Решение, описанное в [3]
3. Otimal Brain Damage
Решение: Предлагается рассмотреть метод прореживания, описанный в [3] с блочной матрицей ковариаций: в качестве блоков выступают либо нейроны, либо параметры с группировкой по входным признакам.
Новизна: Предложенный метод позволит эффективно снижать сложность рекуррентной сети с учетом взаимосвязи между нейронами или входными признаками.
Авторы: Олег Бахтеев, консультант

Задача 7

Название: Детектирование внутреннего плагиата
Задача: Решается задача выявления внутренних заимствований в тексте. Требуется проверить гипотезу о том, что заданный текст написан единственным автором, и в случае ее невыполнения выделить заимствованные части текста. Заимствованием считается часть текста, предположительно написанная другим автором и содержащая характерные отличия от стиля основного автора. Требуется разработать такую стилевую функцию, которая позволяет с высокой степенью достоверности отличить стиль основного автора текста от заимствований.
Данные: Предлагается рассмотреть корпус PAN-2011, PAN-2016
Литература:
- [1] Пошаговое описание реализации рекуррентной сети LSTM
- [2] Алгоритм кластеризации авторов
- [3] Statistical Language Models Based on Neural Networks
- [4] Methods for intrinsic plagiarism detection and author diarization
Базовый алгоритм: В качестве базового алгоритма может выступать решение, описанное в [4].
Решение: Предлагается рассмотреть метод, описанный в [2] и строить стилевую функцию, основываясь на выходах нейронной сети.
Новизна: Предполагается, что построение стилевой функции предлагаемым методом может дать прирост качества по сравнению с типичными решениями этой задачи.
Авторы: Рита Кузнецова, консультант

Задача 8

Название: Адаптивные релаксации NP трудных задач через машинное обучение
Задача: Современные задачи оптимизации потоков мощности в энергетических сетях приводят к невыпуклым задачам оптимизации с большим количеством ограничений. Аналогичные по структуре постановки возникают также в ряде других инженерных задач и в классических задачах комбинаторной оптимизации. Традиционный подход к решению подобных NP трудных задач состоит в написании их выпуклых релаксаций (semidefinite/SDP, second order conic/SOCP, etc), имеющих как правило существенно большее множество допустимых решений, чем в исходной задаче. И последующей проекцией полученного решения в область, где выполнены ограничения исходной задачи. Во многих практических случаях, качество полученного таким образом решения невелико. Альтернативные подходы, например MILP (mixed integer linear programming) релаксации, существенно более трудоемки по времени, но приводят к более точно у ответу.

Основная проблема состоит в невозможности применения известных методов для решения задач большой размерности (сети из 1000 узлов и более). Одним из ключевых препятствий является не столько размерность задачи, сколько большое число ограничений. Вместе с тем, в реальных задачах можно выделить небольшое множество ограничений такое, что множества допустимых точек в выделенном множестве и в исходном весьма близки. Это позволит заменить задачу на иную, с меньшим числом ограничений, что повысит скорость используемых алгоритмов. Предлагается использовать методы машинного обучения для построения указанного множества наиболее важных ограничений.

Литература: Методы семплинга/машинного обучения:
1. Beygelzimer, A., Dasgupta, S., & Langford, J. (2009, June). Importance weighted active learning. In Proceedings of the 26th annual international conference on machine learning (pp. 49-56). ACM.
2. Tong, S., & Koller, D. (2001). Support vector machine active learning with applications to text classification. Journal of machine learning research, 2(Nov), 45-66.
3. Owen, A., & Zhou, Y. (2000). Safe and effective importance sampling. Journal of the American Statistical Association, 95(449), 135-143.

Релаксации: Nagarajan, H., Lu, M., Yamangil, E., & Bent, R. (2016). Tightening McCormick Relaxations for Nonlinear Programs via Dynamic Multivariate Partitioning. arXiv preprint arXiv:1606.05806.

Данные: данные ieee + matpower содержащие описания энергетических сетей и режимов их функционирования.
Новизна: указанный подход, по видимому, является первым применением методов прикладной статистики/машинного обучения для решения трудных оптимизационных задач. Мы ожидаем существенный выигрыш в трудоемки стиль методов
Автор: консультант: Юрий Максимов, эксперт: Михаил Чертков

Задача 9

Название: Оптимальный алгоритм для восстановления динамических моделей.
Задача: Стандартная постановка задач машинного обучения в контексте обучения без учителя (unsupervised learning) предполагает, что примеры (samples) независимы и получены из одного распределения вероятности. Однако зачастую наблюдаемые данные имеют динамическое происхождение и являются коррелироваными. Задача состоит в разработке эффективного метода для восстановления динамической графической модели (графа и параметров модели) по наблюдаемым коррелированным динамическим конфигурациям. Эта задача важна с теоретической точки зрения и имеет массу приложений. Основой алгоритма будет служить адаптация нового оптимального метода экранирования взаимодействий (interaction screening), разработанного для модели Изинга. Процесс решения будет сочетать в себе знакомство с теоретическими методами компьютерных наук / машинного обучения и численные эксперименты.
Данные: Симулированные динамические конфигурации спинов в кинетической модели Изинга.
Литература:
1. Lokhov et al., "Optimal structure and parameter learning of Ising models", arXiv:1612.05024 (2016) {https://arxiv.org/abs/1612.05024}
2. Vuffray et al., "Interaction screening: efficient and sample-optimal learning of Ising models", NIPS 2016 {https://arxiv.org/abs/1605.07252}
3. Decelle and Zhang, "Inference of the sparse kinetic Ising model using the decimation method", Phys. Rev. E 2016 {https://arxiv.org/abs/1502.01660}
4. Bresler et al., "Learning graphical models from the Glauber dynamics", Allerton 2014 {https://arxiv.org/abs/1410.7659}
5. Zeng et al., "Maximum likelihood reconstruction for Ising models with asynchronous updates", Phys. Rev. Lett. 2013 {https://arxiv.org/abs/1209.2401}
Базовой алгоритм: Динамический метод экранирования взаимодействий. Сравнение с методом максимального правдоподобия.
Новизна: В настоящее время оптимальный (т.е. использующий минимальное возможное количество примеров) алгоритм для данной задачи неизвестен. Динамический метод экранирования взаимодействия имеет хорошие шансы окончательно "закрыть" эту задачу, т.к. является оптимальным для статической задачи.
Автор: Консультанты Андрей Лохов, Юрий Максимов. Эксперт Михаил Чертков

Задача 10

Название: Выбор интерпретируемых мультимоделей в задачах кредитного скоринга
Задача: Задача кредитного скоринга заключается в определении уровня кредитоспособности заемщика. Для этого используется анкета заемщика, содержащая как числовые (возраст, доход), так и категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли заемщик кредит. Данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), и для адекватной классификации потребуется несколько моделей. Необходимо определить оптимальное число моделей. По набору параметров моделей необходимо составить портрет заемщика.
Данные: Предлагается рассмотреть пять выборок из репозиториев UCI и Kaggle, мощностью от 50000 объектов.
Литература: Диссертация А.А. Адуенко \MLAlgorithms\PhDThesis; С. Bishop, Pattern recognition and machine learning, последняя глава; 20 years of Mixture experts.
Базовой алгоритм: Кластеризация и построение независимых моделей логистической регрессии, Адабуст, Решающий лес (с ограничениями на сложность), Смесь экспертов.
Решение: Предлагается алгоритм выбора мультимодели (смеси моделей или смеси экспертов) и определения оптимального числа моделей.
Новизна: Предлагается функция расстояния между моделями, в которых распределения параметров заданы на разных носителях.
Авторы: А.А. Адуенко, В.В. Стрижов.

Задача 11

Название: Выбор признаков в задачах авторегрессионного прогнозирования биомедицинских сигналов.
Задача: Решается задача прогнозирования биомедицинских сигналов и сигналов интернета вещей. Требуется спрогнозировать вектор – несколько следующих отсчетов сигнала. Предполагается, что собственную размерность пространства как прогнозируемой переменной, так и независимой переменной можно существенно снизить, увеличив тем самым устойчивость прогноза без существенной потери точности. Для этого используется подход Partial Least Squares в авторегрессионном прогнозировании.
Данные: Выборка биомедицинских временных рядов SantaFe, выборка сигналов интернета вещей.
Литература: Katrutsa A.M., Strijov V.V. Stresstest procedure for feature selection algorithms // Chemometrics and Intelligent Laboratory Systems, 2015, 142 : 172-183; : Katrutsa A.M., Strijov V.V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with applications, 2017; Kee Siong Ng A Simple Explanation of Partial Least Squares keesiong.ng@gopivotal.com Draft, April 27, 2013, http://users.cecs.anu.edu.au/~kee/pls.pdf
Базовой алгоритм: PLS, алгоритм квадратичной оптимизации для выбора признаков.
Решение: построить матрицу плана с субоптимальным набором объектов и признаков, предложить функцию ошибки квадратичной оптимизации (по возможности развить на случай тензорного представления матрицы плана).
Новизна: Обобщен алгоритм выбора признаков (опубликованный две недели назад) для случая PLS.
Авторы: А.М. Катруца, В.В. Стрижов.

Задача 12

Название: Massively multitask deep learning for drug discovery
Задача: Разработать мультитасковую рекурентную нейронную сеть для предсказания биологической активности. Для каждой пары "молекула-протеин" требуется предсказать бинарную величину 0/1, означающую, что молекула связывается/не связывается с протеином.
Данные: разреженные данные биологической активности для ~100K молекул против ~ 1000 протеинов. Молекулы представлены в формате SMILES строк (последовательность символов, кодирующая молекулу)
Литература: https://arxiv.org/pdf/1502.02072
Базовой алгоритм: мультитасковая нейросеть, предсказывающая активность по числовым признакам, однотасковая рекурентная нейросеть
Решение: Мультитасковость означает, что требуется построить модель, которая получается на вход молекулу и предсказывает её биологическую активность против всех протеинов в выборке.
Новизна: Существующие методы не показали существенного улучшения качества DL модели по сравнению со стандартными ML моделями
Авторы: эксперт -- Александр Исаев, консультант -- Мария Попова

Задача 13

Название: Unsupervised representation for molecules
Задача: Разработать unsupervised метод для репрезентации молекул
Данные: ~1.5M молекул в формате SMILES строк (последовательность символов, кодирующая молекулу)
Литература: https://www.cs.toronto.edu/~hinton/science.pdf
Базовой алгоритм: в настоящее время в качестве такой репрезентации используются выделенные вручную числовые признаки. Качество полученых репрезентаций можно сравнить с датасетом tox21 (10К молекул против 12 протеинов)
Решение: использовать свёрточные или рекуррентные сети для построения автоэнкодера.
Новизна: построение end-to-end модели для получения информативных признаков
Авторы: эксперт -- Александр Исаев, консультант -- Мария Попова

Задача 14

Название: Внутритекстовая когерентность как мера интерпретируемости тематических моделей текстовых коллекций.
Задача: Интерпретируемость – это субъективная характеристика качества тематических моделей, измеряемая с помощью экспертных оценок. Когерентность – это мера совстречаемости тематических слов, вычислимая по тексту автоматически и хорошо коррелирующая с интерпретируемостью, как показано в серии публикаций Ньюмана и Мимно. Первая задача – оценить репрезентативность последовательности слов текста, по которым оценивается когерентность. Вторая задача – сравнить несколько новых методов измерения интерпретируемости и когерентности, основанных на выделении наиболее репрезентативной последовательности слов в исходном тексте.
Данные: Коллекция научно-популярного контента ПостНаука, коллекция новостного контента.
Литература:
1. Воронцов К. В. Обзор вероятностных тематических моделей, 2017.
2. N.Aletras, M.Stevenson. Evaluating Topic Coherence Using Distributional Semantics, 2013.
3. D.Newman et al. Automatic evaluation of topic coherence, 2010
4. D.Mimno et al. Optimizing semantic coherence in topic models, 2011
5. http://palmetto.aksw.org/palmetto-webapp/
Базовой алгоритм: Стандартные методы оценивания интерпретируемости и когерентности тем в тематических моделях.
Решение: Новый метод измерения интерпретируемости и когерентности, эксперименты по поиску максимально коррелирующих мер интерпретируемости и когерентности, аналогичные [D.Newman, 2010].
Новизна: внутритекстовые меры интерпретируемости и когерентности ранее не предлагались.
Авторы: К.В.Воронцов. Консультанты: Виктор Булатов, Анна Потапенко, Артём Попов.

Задача 15

Название: Агрегирование гетерогенных текстовых коллекций в иерархической тематической модели русскоязычного научно-популярного контента.
Задача: Реализовать и сравнить несколько способов объединения текстовых коллекций из различных источников в одну иерархическую тематическую модель. Построить классификатор, определяющий наличие темы в источнике.
Данные: Коллекция научно-популярного контента ПостНаука, коллекция Википедии.
Литература:
1. Воронцов К. В. Обзор вероятностных тематических моделей, 2017.
2. Чиркова Н. А, Воронцов К. В. Аддитивная регуляризация мультимодальных иерархических тематических моделей // Машинное обучение и анализ данных, 2016. T. 2. № 2.
Базовой алгоритм: Алгоритм построения тематической иерархии в BigARTM, реализованный Надеждой Чирковой. Инструмент для разметки
Решение: Построить тематическую модель с модальностями источников и выделить темы, характерные только для одного из источников. Подготовить выборку для обучения классификатора, определяющего наличие темы в источнике.
Новизна: Аддитивная регуляризация тематических моделей к данной задаче ранее не применялась.
Авторы: К.В.Воронцов. Консультанты: Александр Романенко, Ирина Ефимова, Надежда Чиркова.

Задача 16

Название: Применение методов символьной динамики в технологии информационного анализа электрокардиосигналов.
Задача: Технология информационного анализа электрокардиосигналов, предложенная В.М.Успенским, предполагает преобразование сырого сигнала в символьную последовательность и поиск паттернов заболеваний в даннйо последовательности. До сих пор для поиска паттернов использовались преимущественно символьные n-граммы. В рамках данной работы предлагается расширить класс шаблонов, в котором производится поиск диагностических признаков заболеваний. Критерий качества -- AUC и MAP ранжирования диагнозов.
Данные: Выборка электрокардиограмм с известными диагнозами.
Литература:
1. Успенский В.М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов.- М.:«Экономика и информация», 2008. - 116с
2. Технология информационного анализа электрокардиосигналов.
Базовой алгоритм: Методы классификации .
Решение: Поиск логических закономерностей в символьных строках, методы символьной динамики, сравнение алгоритмов по критериям качества AUC и MAP (ранжирования диагнозов).
Новизна: До сих пор для поиска паттернов использовались преимущественно символьные n-граммы.
Авторы: К.В.Воронцов. Консультанты: Влада Целых.

Задача Воронцов +

Название: Динамическая иерархическая тематическая модель новостного потока.
Задача: Разработать алгоритм классификации тем в новостных потоках на новые и продолжающиеся. Применить полученные критерии создания новых тем на всех уровнях иерархии тематической модели при добавлении в текстовую коллекцию очередной порции данных (например, всех новостей за один день).
Данные: Коллекция новостей на русском языке. Подвыборка новостей, размеченных на два класса: новые и продолжающиеся темы.
Литература:
1. Воронцов К. В. Обзор вероятностных тематических моделей, 2017.
2. Чиркова Н. А, Воронцов К. В. Аддитивная регуляризация мультимодальных иерархических тематических моделей // Машинное обучение и анализ данных, 2016. T. 2. № 2.
Базовой алгоритм: Алгоритм построения тематической иерархии в BigARTM, реализованный Надеждой Чирковой. Известные алгоритмы Topic Detection & Tracking.
Решение: Использование BigARTM, подбор регуляризаторов и их параметров, использование регуляризатора отбора тем. Построение алгоритма классификации тем на новые и продолжающиеся.
Новизна: Аддитивная регуляризация тематических моделей к данной задаче ранее не применялась.
Авторы: К.В.Воронцов. Консультанты: Александр Романенко, Артём Попов.

Задача Антиплагиат +

Название: Отбор кандидатов в задаче поиска текстовых заимствований с перефразированием, основанный на векторизации текстовых фрагментов.
Задача: Поиск текстовых заимствований по коллекции документов предполагает отбор небольшого множества кандидатов для последующего детального анализа. Задача отбора кандидатов формулируется как поиск оптимального ранжирования документов коллекции по запросу относительно некоторой функции, являющейся оценкой для общей длины заимствований из документа коллекции в документ-запрос.
Данные: PAN
Литература:
1. Романов А.В., Хританков А.С. Отбор кандидатов при поиске заимствований в коллекции документов на иностранном языке pdf
Базовый алгоритм: метод шинглов с построением обратного индекса.
Решение: Векторизация фрагментов текста (word embeddings + свёрточные / рекуррентные нейронные сети) и последующий поиск ближайших объектов в многомерном метрическом пространстве.
Новизна: новый подход к решению задачи.
Авторы: Алексей Романов (консультант)

Дополнительные задачи

Задача Воронцов +

Название: Тематическое моделирование отрасли экономики по транзакционным данным банка.
Задача: Проверить гипотезу, что большая выборка транзакций между фирмами достаточно хорошо описывается относительно небольшим множеством видов экономической деятельности (они же темы). Задача сводится к разложению матрицы транзакционных данных «покупатели × продавцы» в произведение трёх неотрицательных матриц «покупатели × темы», «темы × темы», «темы × продавцы», при этом средняя матрица описывает направленный граф финансовых потоков в отрасли. Требуется сравнить несколько методов построения таких разложений и найти число тем, при котором наблюдаемое множество транзакций моделируется с достаточной точностью.
Данные: выборка транзакций между фирмами, вида «покупатель, продавец, объём».
Литература:
1. Воронцов К. В. Обзор вероятностных тематических моделей, 2017.
Базовой алгоритм: Стандартные методы неотрицательных матричных разложений.
Решение: Регуляризованный ЕМ-алгоритм для разреженных неотрицательных матричных разложений. Визуализация графа финансовых потоков. Тестирование алгоритма на синтетических данных, проверка гипотезы об устойчивости разреженных решений.
Новизна: тематическое моделирование ранее не применялось к анализу финансовых транзакционных данных.
Авторы: К.В.Воронцов. Консультанты: Виктор Сафронов, Роза Айсина.

Задача скоринг +

Название: Порождение и выбор признаков при построении модели кредитного скоринга.
Задача: Построение кредитных скоринговых моделей выполняется по шагам. В частности, выполняется ряд независимых преобразований отдельных признаков, порождаются новые признаки. На каждом шаге используется собственный критерий качества. Требуется построить скоринговую модель, адекватно описывающую выборку. Максимизация качества модели на каждом шаге не гарантирует максимального качества полученной модели. Предлагается отказаться от пошагового построения скоринговой модели. Для этого критерий качества должен включать все оптимизируемые параметры модели.
Данные: Вычислительный эксперимент будет выполнен на 5-7 выборках, которые требуется найти. Желательно, чтобы выборки имели одну природу, например, выборки анкет потребительского кредита.
Литература: Siddique N. Constructing scoring models, SAS. Hosmer D., Lemeshow S., Applied logistic regression, Wiley. Katrutsa A.M., Strijov V.V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with applications, 2017.
Базовой алгоритм: Алгоритм построения скоринговой модели, рекомендуемый SAS.
Решение: Каждый шаг процедуры представляется в виде задачи оптимизации. Оптимизируемые параметры объединяются, включается задача выбора признаков как задача смешанной оптимизации.
Новизна: Предложена функция ошибки, при использовании который порождение и выбор признаков, а также оптимизация параметров модели выполняются совместно.
Авторы: Т.В. Вознесенская, В.В. Стрижов.

Задача Попова +

Название: Representation of molecules in 3D
Задача: Разработать репрезентации 3D структуры молекул, которые обладали бы свойством вращательной и трансляционной инвариантности.
Данные: Миллионы молекул, заданные 3D координатами
Литература: https://arxiv.org/abs/1610.08935, http://journals.aps.org/prl/abstract/10.1103/PhysRevLett.98.146401
Базовой алгоритм: low rank matrix/tensor factorization
Решение: Молекулы имеют различное число атомов, и поэтому матрица их 3D координат имеет размерность Nx3. Нужно найти математическое преобразование, которое бы независило от N (N - число атомов).
Новизна: существующие алгоритмы зависят от числа атомов в молекуле
Авторы: эксперт -- Александр Исаев, консультант -- Мария Попова

Задача Максимов +

Название: Оптимальный алгоритм для восстановления блочных гамильтонианов (моделей XY и Гейзенберга).
Задача: Задача состоит в восстановлении блочных гамильтонианов с непрерывными спинами (обощение модели Изинга на двух- и трёхмерные спины) по наблюдаемым данным. Эта постановка представляет собой частный случай области машинного обучения, известной как обучение без учителя (unsupervised learning). Восстановление графической спиновой модели по данным наблюдений является важной задачей в физике. Основой алгоритма будет служить адаптация нового оптимального метода экранирования взаимодействий (interaction screening), разработанного для модели Изинга. Процесс решения будет сочетать в себе знакомство с теоретическими методами компьютерных наук / машинного обучения и численные эксперименты.
Данные: Симулированные конфигурации блочных спиновых моделей.
Литература:
1. Lokhov et al., "Optimal structure and parameter learning of Ising models", arXiv:1612.05024 (2016) {https://arxiv.org/abs/1612.05024}
2. Vuffray et al., "Interaction screening: efficient and sample-optimal learning of Ising models", NIPS 2016 {https://arxiv.org/abs/1605.07252}
3. Tyagi et al., "Regularization and decimation pseudolikelihood approaches to statistical inference in XY spin models", Phys. Rev. B 2016 {https://arxiv.org/abs/1603.05101}
Базовой алгоритм: Динамический метод экранирования взаимодействий. Сравнение с методом максимального псевдо-правдоподобия (pseudolikelihood).
Новизна: Алгоритм основанный на динамическом методе экранирования взаимодействия имеет хорошие шансы быть оптимальным для данной задачи, т.к. соотествующий метод является оптимальным для обратной задачи Изинга.
Автор: Консультанты Андрей Лохов, Юрий Максимов. Эксперт Михаил Чертков

Задача Хританкова (Transfer Learning)

Название: Применение сетей глубокого обучения для переноса моделей классификации в случае недостаточного объема данных.
Задача:
1. Разработать алгоритм вычисления набора скрытых признаков в задаче symmetric homogeneous transfer learning , решение задачи классификации в котором не зависит от исходной области, и который не хуже, чем при решении для каждого области отдельно (transfer error) для случая небольших размеров выборки с ошибками в разметке
2. Разработать алгоритм перехода к скрытому набору признаков без использования разметки (unsupervised domain adaptation)
Данные: teraPromise-CK (33 датасета с одинаковыми признаками, но разными распределениями).
Литература:Базовая статья: Xavier Glorot , Antoine Bordes , Yoshua Bengio. (2011) Domain Adaptation for Large-Scale sentiment classification: A Deep Learning approach / In Proceedings of the Twenty-eight International Conference on Machine Learning, ICML.

Статьи с идеями по доработкам алгоритма будут выданы на руки (несколько).

Базовой алгоритм: SDA (Stacked Denoising Autoencoder) – описан в статье базовой статье Glorot et al.
Решение: Взять базовый алгоритм, а) попробовать улучшить для применения к небольшим датасетам 100-1000 объектов (когда и применяется transfer learning) путем применения регуляризаторов, корректировкой архитектуры автокодировшика, корректировки алгоритма обучения (например, bootstrapping) б) исследовать модель на устойчивость к ошибкам в разметке (label corruption / noisy labels) и предложить доработку для повышения устойчивости (robustness).
Новизна: Получение устойчивого алгоритма переноса моделей классификации на небольших объемах данных с ошибками в разметке.
Авторы: Хританков

Задача INRIA-МТФИ +

Название: Оценка энергии связывания белка и маленьких молекул.
Задача: Моделирование связывания белка и маленькой молекулы (далее -- лиганда) основывается на том, что наилучший лиганд в своем наилучшем положении имеет наименьшую свободную энергию взаимодействия с белком. Необходимо оценить свободную энергию связывания белка и лиганда. Для обучения могут использоваться комплексы белков с лигандами, причем для каждого белка есть несколько положений лиганда: 1 правильное, "нативное", для которых энергия минимальна, и несколько сгенерированных неправильных. Для трети набора данных известны значения, пропорциональные искомой энергии связывания лигандов в нативных положениях с белком. Есть отдельный тестовый сет, состоящий из 1) комплексов белков и лигандов, для которых нужно найти наилучшую позу лиганда (алгоритм получения положений лиганда отличается от используемого при обучении), 2) комплексов белков и лигандов, для нативных поз которых нужно предсказать энергию связывания, и 3) белков, для которых нужно найти наиболее сильно связывающийся лиганд.
Данные: Около 10000 комплексов: для каждого из них есть 1 нативная поза и 18 (можно сгенерировать больше) ненативных. Основными дескрипторами являются гистограммы распределений расстояний между различными атомами белка и лиганда, размерность вектора дескрипторов ~ 20,000. Набор дескрипторов может быть расширен (можно генерировать позы с разным отклонением и использовать его как дескриптор, можно добавить свойства маленьких молекул: число связей, вокруг которых в молекуле возможен поворот, площадь ее поверхности, разбиение ее поверхности диаграммой Вороного. Данные будут предоставлены в виде бинарных файлов со скриптом на python для чтения.
Литература: PEPSI-Dock: a detailed data-driven protein–protein interaction potential accelerated by polar Fourier correlation Predicting Binding Poses and Affinities in the CSAR 2013―2014 Docking Exercises Using the Knowledge-Based Convex-PL Potential
Базовой алгоритм: Мы использовали линейный SVM (это просто lecture notes, я не вижу смысла тут давать Вапника, тем более что все это, включая эти lecture notes, гуглится), связь которого с оценкой энергии, выходящей за рамки задачей классификации, описана в перечисленных выше статьях. Для учета известных из эксперимента значений, пропорциональных энергии, предлагается использовать линейную регрессию SVR .
Решение: Необходимо свести использованную ранее задачу SVM к задаче регрессии и решить стандартными методами. Для проверки работы алгоритма будет использован как описанный выше тест, так и несколько других тестовых сетов с аналогичными задачами, но другими данными.
Новизна: Правильная оценка качества связывания белка и лиганда используется при разработке лекарства для поиска молекул, наиболее сильно взаимодействующих с исследуемым белком.

Особую важность представляет оценка значений энергии связывания белка с лигандом: определенный разными группами на предложенном тесте коэффициент корреляции (Пирсона) энергии с ее экспериментальными значениями не превышает 0.7. Предсказание наиболее сильно связывающегося лиганда из большого числа не связывающихся с белком молекул также вызывает трудности. Целью данной работы является получение метода, позволяющего достаточно точно оценивать связывание белка с лигандами. С точки зрения машинного обучения и оптимизации интерес представляет объединение задач классификации и регрессии.

Добавление Даны несколько наборов данных, описывающие атом в молекуле или связь между атомами, с маленьким feature вектором (обычно это 3-10 дескрипторов) и несколькими классами, соответствующими гибридизации атома или порядку связи. Самих данных может быть от ~ 100 до 20,000 векторов в зависимости от типа атома. Нужно протестировать на этом какое-нибудь мультиклассовое машинное обучение (random forests, нейронную сеть, что-то другое), можно что угодно делать с дескрипторами. Мы сейчас используем SVM. Важна не только точность, но и вычислительная сложность предсказания.
Авторы: Сергей Грудинин, Мария Кадукова

Задача Стрижова и Кулунчакова +

Название: Creation of delay-operators for multiscale forecasting by means of symbolic regression
Задача: Suppose that one needs to build a forecasting machine for a response variable. Given a large set of time series, one can advance a hypothesis that they are related to this variable. Relying upon this hypothesis, we can use given time series as features for the forecasting machine. However, the values of time series could be produced with different frequencies. Therefore, we should take into account not only the values, but the delays as well. The simplest model for forecast is a linear one. In the presence of large set of features this model can approximate the response quite well. To avoid the problem of multiscaling, we introduce a definition of delay-operators. Each delay-operator corresponds to one time series and represents continuous correlation function. This correlation function shows a dependence between the response variable and corresponding time series. Therefore, each delay-operator put weights on the values of corresponding time series depending on the greatness of the delay. Having these delay-operators, we avoid the problem of multiscaling. To find them, we use genetic programming and symbolic regression. If the resulted weighted linear regression model would produce poor approximation, we can use a nonlinear one instead. To find good nonlinear function, we would use symbolic regression as well.
Данные: Any data from the domain of multiscalse forecating of time series. See the full version of this introduction.
Литература: to be handed by V.V.Strijov
Базовой алгоритм: to be handed by V.V.Strijov
Решение: Use genetic algorithms applied to symbolic regression to create and test delay-operators in multiscale forecasting.
Новизна: to be handed by V.V.Strijov
Авторы: supervisor: V.V.Strijov, consultant: A.S. Kulunchakov

2016

Автор	Тема научной работы	Ссылка	Консультант	Рецензент	Доклад	Буквы	Оценка	Журнал
Гончаров Алексей (пример)	Метрическая классификация временных рядов	code, paper, slides	Мария Попова	Задаянчук Андрей	BMF	AILSBRCVTDSWH>	10	ИИП
Баяндина Анастасия	Тематические модели дистрибутивной семантики для выделения этнорелевантных тем в социальных сетях	paper slides video	Анна Потапенко	Олег Городницкий	BF	AILSB++RCVTDEWHS	10
Белозерова Анастасия	Согласование логических и линейных моделей классификации в информационном анализе электрокардиосигналов	code paper slides video	Влада Целых	Малыгин Виталий	BF	AILSB+RC+VTD>E0WH>S	10
Владимирова Мария	Бэггинг нейронных сетей в задаче предсказания биологической активности клеточных рецепторов	code paper slides vido	Мария Попова	Володин Сергей	BMF	AILSBRCVTD>E>WHS	10
Володин Сергей	Вероятностный подход для задачи предсказания биологической активности ядерных рецепторов	code paper slides video, itis	Мария Попова	Мария Владимирова	BMF	AILSBRCVTDEWHS	10
Городницкий Олег	Адаптивный нелинейный метод восстановления матрицы по частичным наблюдениям	code paper slides, itis	Михаил Трофимов	Анастасия Баяндина	M	A++I++L++S+B+R+C++VTDE+WH	10
Иванычев Сергей	Синергия алгоритмов классификации (SVM Multimodelling)	code paper slides	Александр Адуенко		BM	A+I+L++S+BRCVTDEW+H	10
Ковалева Валерия	Регулярная структура редких макромолекулярных кластеров	code paper slides video, itis	Ольга Вальба, Юрий Максимов	Дмитрий Федоряка	BM	A+IL+SBRCVTD0E0WH	10
Макарчук Глеб	Преобразования временных рядов для декодирование движения руки с помощью ECoG сигналов (electrocorticographic signals) у обезьян	code, paper slides video	Андрей Задаянчук		BF	AI+L+S+BRС>V>T+D>E0WH>S	10
Малыгин Виталий	Применение комбинаторных оценок переобучения пороговых решающих правил для отбора признаков в задаче медицинской диагностики методом В. М. Успенского	code, paper, slides	Шаура Ишкина	Белозёрова Анастасия	B	AILSBRCVTDEWH	10
Молибог Игорь	Использование методов снижения размерности при построении признакового пространства в задаче обнаружения внутреннего плагиата	paper, doc, slides, itis	Анастасия Мотренко	Сафин Камиль	BMF	AILSBRCVTDEWHS	10
Погодин Роман	Определение положения белков по электронной карте	code, paper, slides video, itis	Александр Катруца	Андрей Рязанов	BMF	AILSBRСVTDEWHS	10
Рязанов Андрей	Восстановление первичной структуры белка по геометрии его главной цепи	folder paper slides video, itis	Михаил Карасиков	Роман Погодин	BMF	AIL+SBRC++VTD+EWHS	10
Сафин Камиль	Определение заимствований в тексте без указания источника	code, paper slides video	Михаил Кузнецов	Молибог Игорь	BMF	AIL+SBRC>V>T>D>E0WHS	10
Федоряка Дмитрий	Смеси моделей векторной авторегрессии в задаче прогнозирования временных рядов	code, slides, paper	Радослав Нейчев	Ковалева Валерия	BM	AILSBRCV-T>D0E0WH>	10
Цветкова Ольга	Построение скоринговых моделей в системе SAS	code, paper slides	Раиса Джамтырова	Чигринский Виктор	BF	A+I+L+S+B+R+C+V0T0D0E0WH>S	10
Чигринский Виктор	Аппроксимация границ радужки глаза	code paper slides video	Юрий Ефимов		B	AI+L+SBRCV+TDEHFS	10

Задача 1

Данные: Синергия алгоритмов классификации. Данные из репозитория UCI, чтобы можно было сравнивать напрямую с другими работами, в частности работами Вапника.
Литература: существуют разные подходы к комбинированию SVM: например, bagging (http://www.ecse.rpiscrews.us/~cvrl/FaceProject/Homepage/Publication/ICPR04_final_cameraready_v4.pdf), также пробуют и boosting (http://www.researchgate.net/profile/Hong-Mo_Je/publication/3974309_Pattern_classification_using_support_vector_machine_ensemble/links/09e415091bdc559051000000.pdf).
Базовой алгоритм: Описан в постановке задачи
Решение: модификация базового алгоритма, или просто сам базовый алгоритм. Главное - сравнить с другими методами и сделать выводы, в частности о связи наличия улучшения в качестве и разнообразия множеств опорных объектов, построенных разными SVM ами.
Новизна: известно (например, из лекций Константина Вячеславовича), что строить короткие композиции из сильных классификаторов (например, SVM) с помощью бустинга не получается (хотя все же пробуют (см. литературу)). Поэтому предлагается вместо линейной комбинации строить нелинейную. Предполагается, что такая композиция может дать прирост качества по сравнению с одиночным SVM.
Консультант: Александр Адуенко

Задача 2

Название: Темпоральная тематическая модель коллекции пресс-релизов.
Задача: Разработка методов анализа тематической структуры большой текстовой коллекции и её динамики во времени. Проблемой является оценка качества построенной структуры. Требуется реализовать критерии устойчивости и полноты темпоральной тематической модели с использованием ручного отбора найденных тем по их интерпретируемости, различности и событийности.
Данные: Коллекция пресс-релизов внешнеполитических ведомств ряда стран за 10 лет, на английском языке.
Литература:
1. Дойков Н.В. Адаптивная регуляризация вероятностных тематических моделей. ВКР бакалавра, ВМК МГУ. 2015.
Базовой алгоритм: Классический LDA Д.Блэя c post-hoc анализом времени.
Решение: Реализация аддитивно регуляризованной тематической модели с помощью библиотеки BigARTM. Построение серий тематических моделей. Оценивание их интерпретируемости, устойчивости и полноты.
Новизна: Критерии устойчивости и полноты тематических моделей являются новыми.
Консультант: Никита Дойков, автор задачи К.В.Воронцов.

Задача 3

Название: Согласование логических и линейных моделей классификации в информационном анализе электрокардиосигналов.
Задача: Имеются логические классификаторы, основанные на выявлении диагностических эталонов для каждого заболевания и построенные экспертом в полуручном режиме. Для этих классификаторов определены оценки активностей заболеваний, которые уже много лет используются в диагностической системе и удовлетворяют пользователей-врачей. Мы строим линейные классификаторы, которые обучаются полностью автоматически и по качеству классификации опережают логические. Однако прямой перенос методики оценивания активности на линейные классификаторы оказался невозможен. Требуется построить линейную модель активности, настроив её на воспроизведение известных оценок активности логического классификатора.
Данные: Выборка более 10 тысяч электрокардиограмм с диагнозами по 32 заболеваниям.
Литература: выдадим :)
Базовой алгоритм: Линейный классификатор.
Решение: Методы линейной регрессии, линейной классификации, отбора признаков.
Новизна: Задача согласования двух моделей различной природы может рассматриваться как обучение с привилегированной информацией (learning with privileged information) — перспективное направление, предложенное классиком машинного обучения В.Н.Вапником несколько лет назад.
Консультант: Влада Целых, автор задачи К.В.Воронцов.

Задача 4

Название: Тематическая модель классификации для диагностики заболеваний по электрокардиограмме.
Задача: Технология информационного анализа электрокардиосигналов по В.М.Успенскому основана на преобразовании ЭКГ в символьную строку и выделении информативных наборов слов — диагностических эталонов каждого заболевания. Линейный классификатор строит один диагностический эталон для каждого заболевания. В системе скрининговой диагностики «Скринфакс» сейчас используется четыре эталона для каждого заболевания, построенных в полуручном режиме. Требуется полностью автоматизировать процесс построения диагностических эталонов и определять их оптимальное количество для каждого заболевания. Для этого предполагается доработать тематическую модель классификации С.Цыгановой, выполнить новую реализацию под BigARTM, расширить вычислительные эксперименты, улучшить качество классификации.
Данные: Выборка более 10 тысяч электрокардиограмм с диагнозами по 32 заболеваниям.
Литература: выдадим :)
Базовой алгоритм: Модели классификации В.Целых, тематическая модель С.Цыгановой.
Решение: Тематическая модель, реализованная с помощью библиотеки BigARTM.
Новизна: Тематические модели ранее не применялись для классификации дискретизированных биомедицинских сигналов.
Консультант: Светлана Цыганова, автор задачи К.В.Воронцов.

Задача 5

Название: Тематические модели дистрибутивной семантики для выделения этнорелевантных тем в социальных сетях.
Задача: Тематическое моделирование текстовых коллекций социальных медиа сталкивается с проблемой сверх-коротких документов. Не всегда ясно, где проводить границы между документами (возможные варианты: отдельный пост, стена пользователя, все сообщения данного пользователя, все сообщения за данный день в данном регионе, и т.д.). Тематические модели дают интерпретируемые векторные представления слов и документов, но их качество зависит от распределения длин документов. Модель word2vec независима от длин документов, так как учитывает лишь локальные контексты слов, но координаты векторных представлений не допускают тематическую интерпретацию. Задачей проекта является построение гибридной модели, объединяющей достоинства и свободной от недостатков обеих моделей.
Данные: Коллекции социальных сетей ЖЖ и ВК.
Литература: выдадим :)
Базовой алгоритм: Тематические модели, ранее построенные на этих данных.
Решение: Реализация регуляризатора дистрибутивной семантики, аналогичного языковой модели vord2vec, в библиотеке BigARTM.
Новизна: Пока в литературе нет языковых моделей, объединяющих основные преимущества вероятностных тематических моделей и модели word2vec.
Консультант: Анна Потапенко, по техническим вопросам Мурат Апишев, автор задачи К.В.Воронцов.

Задача 7

Название: определение положения белков по электронной карте
Задача: неформально --- есть наборы экспериментально определённых карт расположения белков в комплексах, часть из них известна в высоком разрешении, необходимо восстановить всю карту в высоком разрешении; формально --- есть матрицы и вектора энергий соответствующие каждой карте белкового комплекса, нужно определить какой набор белков минимизирует квадратичную форму, образованую матрицей и вектором.
Данные: экспериментальные данные с сайта http://www.emdatabank.org/ будуь преобразованы в матрицы в вектора энергий. Понимание биофизической природы не обязательно.
Литература: статьи по методам решения задач квадратичного программирования и различным релаксациям
Базовой алгоритм: методы квадратичного программирования с различными релаксациями
Решение: минимизация суммарной энергии белкового комплекса
Новизна: применение методов квадратичного программирования и исследование их точности в задачах восстановления электронных карт
Консультант: Александр Катруца, автор задачи: Сергей Грудинин.
Желательные навыки: понимание и интерес к методам оптимизации, работа с пакетом CVX

Задача 8

Название: Классификация физической активности: исследование изменения пространства параметров при дообучении и модификации моделей глубокого обучения
Задача: Дана модель классификации по выборке временных сегментов, записанных с акселерометра мобильного телефона. Модель представляет собой многослойную нейросеть. Требуется 1) исследовать дисперсию и матрицу ковариаций параметров нейросети при различных расписаниях оптимизации (т.е. при различных подходах к поэтапному обучению). 2) на основе полученной матрицы ковариаций параметров предложить эффективный способ модификации модели глубокого обучении.
Данные: Выборка WISDM http://www.cis.fordham.edu/wisdm/dataset.php.
Литература:
- Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf
- Попова М. С., Стрижов В.В. Построение сетей глубокого обучения для классификации временных рядов - http://strijov.com/papers/PopovaStrijov2015DeepLearning.pdf
- Бахтеев О.Ю., Попова М.С., Стрижов В.В. Системы и средства глубокого обучения в задачах классификации
- LeCun Y. Optimal Brain Damage - yann.lecun.com/exdb/publis/pdf/lecun-90b.pdf
- Работы по пред-обучению (pre-training) и дообучению (fine-tuning)
Базовой алгоритм: Базовая модель описана в статье "Построение сетей глубокого обучения для классификации временных рядов". Алгоритм можно реализовать как с помощью библиотеки PyLearn или keras (другие библиотеки и языки программирования также допустимы).
Решение: Анализ матрицы ковариаций, построение add-del метода на основе полученных данных.
Новизна: Методика исследования ковариационной матрицы большой размерности, а также полученный алгоритм модификации модели важны и будут использоваться в дальнейшем при анализе моделей глубокого обучения.
Консультант: Олег Бахтеев

Задача 9

Название: восстановление первичной структуры белка по геометрии его главной цепи
Задача: на основе главной цепи белка, то есть по сути его геометрии, надо восстановить первичную структуру белка, то есть какой последовательности аминокислот соотвествует заданная геометрия главной цепи. Предлагается это делать на основе минимизации суммарной энергии белка, выраженной квадратичной формой скорее всего не положительно определённой.
Данные: на выбор студента: собранные матрицы энергий для различных белков на основе их описаний в формате PDB или сами PDB-файлы; в последнем случае необходимо будет собрать матрицы для дальнейшей работы
Литература: статьи по методам решения задач квадратичного программирования и различным релаксациям
Базовой алгоритм: методы квадратичного программирования с различными релаксациями
Решение: минимизация суммарной энергии белка
Новизна: применение методов квадратичного программирования и исследование их точности
Консультант: Михаил Карасиков, автор задачи: Сергей Грудинин.
Желательные навыки: понимание и интерес к методам оптимизации, работа с пакетом CVX

Задача 10

Название: Multi-task learning подход для задачи предсказания биологической активности ядерных рецепторов
Задача: В задаче необходимо построить multi-task модель, предсказывающую взаимодействие двух типов молекул: рецепторов и протеинов. Решение этой задачи необходимо для разработки новых лекарств (drug design).
Данные: описание 8500+ протеинов и метки для 12 рецепторов
Литература: будет отправлена студенту
Базовой алгоритм: multi-task lasso регрессия из библиотеки python scikit-learn
Решение: обобщение линейной регрересси на случай multi-task в вероятностной интерпретации
Новизна: Multi-task learning подход является новаторским в области drug design
Консультант: Мария Попова
Желательные навыки: понимание и интерес к теории вероятности, готовность быстро разобраться в различных подходах к регрессии, знание или готовность к освоению Python

Задача 11

Название: Бэггинг нейронных сетей в задаче предсказания биологической активности ядерных рецепторов.
Задача: В задаче необходимо реализовать бэггинг (bootstrap aggregating) для двухслойной нейронной сети. Такая модель будет являться мультитасковой и предсказывать взаимодействие двух типов молекул: рецепторов и протеинов. Решение этой задачи необходимо для разработки новых лекарств (drug design).
Данные: описание 8500+ протеинов и метки для 12 рецепторов
Литература: будет отправлена студенту
Базовой алгоритм: двухслойная нейронная сеть
Решение: Композиция базовых классификаторов бэггинг
Новизна: Такой подход является новаторским в области drug design
Консультант: Мария Попова

Задача 12

Название: Смеси моделей в векторной авторегрессии в задаче прогнозирования (больших) временных рядов.
Задача: Имеется набор временных рядов длины T, содержащих показания различных датчиков, отражающих состояние устройства. Необходимо предсказать следующие t показаний датчиков. Практическая значимость: перед поломкой состояние устройства меняется, предсказание "аномального" поведения поможет своевременно принять меры и избежать поломки или минимизировать потери.
Данные: Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
Литература: Ключевые слова: mixture models, boosting, Adaboost, векторная авторегрессия.
- Александр Цыплаков. Введение в прогнозирование в классических моделях временных рядов. [92]
- Нейчев Р.Г., Катруца А.М., Стрижов В.В. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования[93]
- Christopher M. Bishop. Pattern Recognition and Machine Learning. Страница 667
Базовый алгоритм: Бустинг, алгоритм Adaboost.
Решение: Использовать для построения проноза смесь нескольких линейных моделей вместо одной сложной.
Новизна: Доработано пространство параметров для смеси моделей в векторной авторегрессии.
Консультант: Радослав Нейчев

Задача 13

Название: Отбор мультикоррелирующих признаков в задаче векторной авторегрессии.
Задача: Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Показания датчиков коррелируют между собой. Необходимо отобрать оптимальный набор признаков для решения задачи прогнозирования.
Данные: Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
Литература: Ключевые слова: bootstrap aggreagation, метод Белсли, векторная авторегрессия.
- Нейчев Р.Г., Катруца А.М., Стрижов В.В. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования[94]
Базовый алгоритм: метод Белсли для одномерной авторегрессии (см. статью из списка литературы).
Решение: Применить метод Белсли для обнаружения коррелирующих признаков.
Новизна: Метод Белсли применяется для векторной авторегрессии.
Консультант: Радослав Нейчев

Задача 14

Название: Порождение признаков в задаче прогнозирования.
Задача: Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Необходимо расширить пространство признаков с помощью нелинейных параметрический порождающих функций.
Данные: Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
Литература: Ключевые слова: криволинейная регрессия, порождение признаков, нелинейная регрессия, аппроксимация временных рядов.
- М.П. Кузнецов, В.В. Стрижов, М.М. Медведникова. Алгоритм многоклассовой классификации объектов, описанных в ранговых шкалах.[95]
Базовый алгоритм: Непараметрические порождающие функициии.
Решение: Применить к признакам квазилинейные и нелинейные преобразования зависящие от параметра.
Новизна: Предложен новый набор признаков для решения авторегрессионных задач.
Консультант: Роман Исаченко

Задача 15

Название: Преобразования временных рядов для декодирование движения руки с помощью ECoG сигналов (electrocorticographic signals) у обезьян.
Задача: Имеется набор временных рядов, записи ECoG сигналов. Необходимо выделить признаки с помощью преобразований временных рядов (например, оконного преобразования Фурье).
Данные: Многомерные временные ряды с показаниями ECOG и данные о движении обезьян [96]
Литература: Ключевые слова: выделение признаков, преобразования временных рядов, ECoG signal processing
- Zenas C. Chao, Yasuo Nagasaka and Naotaka Fujii. Long-term asynchronous decoding of arm motion using electrocorticographic signals in monkeys[97]
Базовый алгоритм: Вейвлет-преобразование (англ. Wavelet transform)
Решение: Выделение признаков из ECoG различными методами.
Новизна: Анализ оптимальности Вейвлет-преобразования в задачах обработки ECoG сигналов
Консультант: Задаянчук Андрей

Задача 16

Название: Адаптивный нелинейный метод восстановления матрицы по частичным наблюдениям
Задача: Пусть есть неизвестная (возможно многомерная) матрица A, позиция элемента в ней описывается целочисленным вектором p. Известны значения матрицы на некотором подмножестве ее элементов. Требуется найти параметризацию и параметры такие, что на некотором некотором подмножестве элементов минимизируется квадратичное отклонение. Более подробное описание по ссылке [98]
Данные: модельные данные, Netflix Prize Data Set, MovieLens 20M Dataset, Criteo Display Advertising Challenge Dataset
Литература:
- "ACCAMS: Additive Co-Clustering to Approximate Matrices Succinctly" (Beutel, Amr Ahmed, Smola)
- "Non-linear Matrix Factorization with Gaussian Processes" (Neil D. Lawrence)
- "Low-rank matrix completion using alternating minimization" (Prateek Jain, Praneeth Netrapalli, Sujay Sanghavi)
Базовый алгоритм: Низкоранговое приближение
Решение: И параметры, и параметризацию искать из данных.
Новизна: Обобщение работ в данной области; предложена новая модель, эфективность которой предлагается проверить
Консультант: Михаил Трофимов
Желательные навыки: python

Задача 17

Название: Построение скоринговых моделей в системе SAS (либо MATLAB).
Задача: Описать основные этапы построения скоринговых моделей. На этапе подготовки данных решается задача фильтрации выборов (удаления шумовых объектов). Так как выборка содержит значительное число признаков, не коррелирующих с платежеспособностью, необходимо решать задачу отбора признаков. Кроме того, в силу неоднородности данных (например, по регионам) предлагается строить смесь моделей, в которой каждая модель описывает свое подмножество выборки. При этом различным компонентам смеси могут соответствовать разные наборы признаков.
Данные: Кредитная история/анкеты потенциальных заемщиков [99], [100].
Литература:
- Хосмер, Лемешов. Логистическая регрессия (англ.)
- Siddiqi. Constructing scorecards
- Материалы по построению скоринговых карт
Базовый алгоритм: Логистическая регрессия
Решение: Смесь моделей
Новизна: Описан способ построения скоринговых карт, в котором в задачу оптимизации включены как порождение признаков, так и мультимоделирование.
Консультант: Раиса Джамтырова
Желательные навыки: SAS

Задача 18

Название: Аппроксимация границ радужки глаза.
Задача: По изображению человеческого глаза определить окружности, аппроксимирующие внутреннюю и внешнюю границу радужки.
Данные: Растровые монохромные изображения, типичный размер 640*480 пикселей (однако, возможны и другие размеры)

[101], [102].

Литература:
- К.А.Ганькин, А.Н.Гнеушев, И.А.Матвеев Сегментация изображения радужки глаза, основанная на приближенных методах с последующими уточнениями // Известия РАН. Теория и системы управления, 2014, № 2, с. 78–92.
- Duda, R. O. Use of the Hough transformation to detect lines and curves in pictures / R. O. Duda, P. E. Hart // Communications of the ACM. 1972. Vol. 15, no. 1. Pp.
Базовый алгоритм: Ефимов Юрий. Поиск внешней и внутренней границ радужки на изображении глаза методом парных градиентов, 2015.
Решение: См. Iris_circle_problem.pdf
Новизна: Предложен быстрый беспереборный алгоритм аппроксимации границ с помощью линейных мультимоделей.
Консультант: Юрий Ефимов (автор Стрижов, эксперт Матвеев)

Задача 19

Название: Аппроксимация комбинаторных оценок переобучения для отбора признаков в задаче медицинской диагностики.
Задача: Технология информационного анализа электрокардиосигналов по В. М. Успенскому применяется для диагностики заболеваний внутренних органов по электрокардиограмме. Линейный наивный байесовский классификатор с отбором признаков хорошо зарекомендовал себя в этой задаче. Однако для отбора признаков до сих пор использовались только очень простые жадные стратегии. Предлагается использовать более интенсивные переборные стратегии, чтобы найти лучшие и более короткие диагностические наборы признаков. Однако чем интенсивнее перебор, тем выше вероятность переобучения. Для сокращения переобучения предлагается использовать комбинаторные оценки переобучения пороговых решающих правил. Для эффективного вычисления этих оценок предлагается использовать суррогатное моделирование.
Данные: Выборки векторов признаковых описаний ЭКГ, полученные с помощью системы скрининговой диагностики «Скринфакс». Будут выданы.
Литература:
- Успенский В. М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. – М.: Экономика и информатика, 2008. – 116 с.
- Воронцов К. В. Теория надёжности обучения по прецедентам. Курс лекций ВМК МГУ и МФТИ. 2011.
- Ишкина Ш. Х. Комбинаторные оценки обобщающей способности как критерии отбора признаков в синдромном алгоритме. - Тезисы 58-научной конференции МФТИ. URL: http://conf58.mipt.ru/static/reports_pdf/755.pdf
- MVR Composer http://www.machinelearning.ru/wiki/index.php?title=MVR_Composer
Базовой алгоритм: линейный наивный байесовский классификатор с отбором признаков.
Решение: Для оценивания переобучения используются точные комбинаторные формулы. Для аппроксимации (суррогатного моделирования) этих формул используется MVR Composer. Для отбора признаков используются эвристические полужадные алгоритмы комбинаторной оптимизации.
Новизна: Ранее для отбора признаков комбинаторные оценки переобучения не применялись. Данный метод позволяет сокращать диагностические наборы признаков и улучшать качество классификации.
Консультант: Ишкина Шаура, Кулунчаков Андрей (MVR Composer), автор задачи: К.В.Воронцов

Задача 20

Название: Модель порождения объектов в задаче прогнозирования временных рядов
Задача: Построить модель порождения объектов для задачи прогнозирования, которая будет создавать качественную выборку для последующего решения задачи прогнозирования.
Данные: Временные ряды потребления электроэнергии, временные ряды акселерометра мобильного телефона
Литература:
- Keogh E. J., Pazzani M. J. Scaling up dynamic time warping to massive datasets
- Salvador S., Chan P. Fastdtw: Toward accurate dynamic time warping in linear time and space
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию
- Карасиков М. Е. Классификация временных рядов в пространстве параметров порождающих моделей [103]
Базовой алгоритм: Различные эвристики
Постановка задачи: Формулировка и подробное описание задачи приведено по ссылке [104]
Новизна: рассмотрение модели порождения данных в подобной задаче
Консультант: Гончаров Алексей

Задача 21

Название: Алгоритм прогнозирования структуры локально-оптимальных моделей
Задача: Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, и на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Задача состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
Данные: Набор временных рядов, который подразумевает восстановление функциональных зависимостей. Предлагается сначала использовать синтетические данные или сразу применить алгоритм к прогнозированию временных рядов 1) потребления электроэнергии 2) физической активности с последующим анализом получающихся структур.
Литература:
- А. А. Варфоломеева Выбор признаков при разметке библиографических списков методами структурного обучения, 2013, [105]
- Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [106]
Базовой алгоритм: Конкретно к предлагаемой проблеме базового алгоритма нет. Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит.
Решение: Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) и получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
Консультант: Кулунчаков Андрей

Задача 22

Название: Определение заимствований в тексте без указания источника
Задача: Решается задача выявления внутренних заимствований в тексте. Требуется проверить гипотезу о том, что заданный текст написан единственным автором, и в случае ее невыполнения выделить заимствованные части текста. Заимствованием считается часть текста, предположительно написанная другим автором и содержащая характерные отличия от стиля основного автора. Требуется разработать такую стилевую функцию, которая позволяет с высокой степенью достоверности отличить стиль основного автора текста от заимствований.
Данные: Коллекция конкурса PAN-2011.
Литература:
1. Oberreuter, G., L’Huillier, G., Rıos, S. A., & Velásquez, J. D. (2011). Approaches for intrinsic and external plagiarism detection. Proceedings of the PAN.
Базовый алгоритм, решение: На текущий момент реализован базовый метод выявления зависимостей, основанный на анализе частотностей слов и символьных n-грамм в предложении. Для каждого текста формируется словарь, в котором каждому слову (n-грамме) поставлено в соответствие значение его встречаемости в тексте. На основе значений встречаемости формируется признаковое описание каждого сегмента-предложения. Выполняется классификация сегментов текста на основе экспертной разметки заимствований. Качество базового алгоритма составляет 0.29 по F1-мере (Pladget 0.21) на коллекции PAN-2011, в то время как качество лучшего алгоритма, принимавшего участие в соревновании 2011 года [Oberreuter], составляет 0.32 по F1-мере (Pladget 0.32). Предлагается реализовать этот алгоритм и сравнить его с базовым методом.
Консультант: Михаил Кузнецов

Задача 23

Название: Использование методов снижения размерности при построении признакового пространства в задаче обнаружения внутреннего плагиата
Задача: Для более эффективного решения задачи обнаружения внутреннего плагиата использовать методы снижения размерности, сохраняющие расстояние между объектами. Требуется доработать метод tSNE [2], включив в модель информацию о разметке данных и возможность добавления ранее не рассмотренных объектов в пространство сниженной размерности. Подробнее см. [1]
Данные: Коллекция конкурса PAN-2011.
Литература:
1. Problem_statement_dim_reduce.pdf‎
2. Laurens van der Maaten. Visualizing Data using t-SNE Journal of Machine Learning Research, 9 (2008) 2579-2605.
3. Julian Brooke and Graeme Hirst. Paragraph Clustering for Intrinsic Plagiarism Detection using a Stylistic Vector-Space Model with Extrinsic Features, 2012.
Базовой алгоритм, решение: См. [1]
Консультант: Мотренко Анастасия

Задача 25

Название: Устойчивость дискретизации электрокардиосигналов относительно частотной фильтрации.
Задача: Технология информационного анализа электрокардиосигналов по В.М.Успенскому основана на преобразовании электрокардиограммы в символьную строку (кодограмму) и выделении информативных наборов слов — диагностических эталонов каждого заболевания. Проблема в том, что для дискретизации необходимо достаточно точно определять амплитуду R-пиков. На амплитуду может влиять частотная фильтрация сигнала, которая производится электрокардиографом на аппаратном или программном уровне. Задача заключается в том, чтобы оценить, насколько сильно различные частотные фильтры (например, фильтр 50.4Гц, подавляющий воздействие электрической сети, высокочастотный фильтр) могут влиять на частоты слов в кодограмме и на качество классификации.
Данные: электрокардиограммы в формате KDM.
Литература: выдадим :)
Базовой алгоритм: Линейный классификатор.
Решение: Прямое и обратное преобразование Фурье, алгоритм детекции R-пиков на электрокардиограмме, алгоритм определения амплитуды R-пиков.
Новизна: Исследование устойчивости кодограмм по отношению к частотной фильтрации с различными параметрами ранее не проводилось в информационном анализе электрокардиосигналов.
Консультант: Виктор Сафронов (Научный центр им. В.И.Кулакова)

Задача 26

Название: Построение отображений с минимальной деформацией для сравнения изображений с эталоном.
Задача: Применить вариационный метод построения квазиизометрических отображений для решения классической задачи геометрической морфологии и регистрации изображений - построения двумерной или трехмерной деформации для сравнения с эталоном.
Данные: Изображения в формате bmp. На первом этапе можно задавать простые тела посредством ч/б раскраски декартовой решетки.
Литература:
1. Michael I. Miller, Alain Trouve, Laurent Younes. ON THE METRICS AND EULER-LAGRANGE EQUATIONS OF COMPUTATIONAL ANATOMY. Annu. Rev. Biomed. Eng. 2002. 4:375–405
2. Beg MF, Miller MI, Trouve A, Younes L. Computing large deformation metric mappings via geodesics flows of diffeomorphisms. International Journal of Computer Vision. 2005; V.61(2):139-157.
3. Trouve A. An approach of pattern recognition through infinite dimensional group action. Research report LMENS-95-9. 1995.
4. Garanzha VA. Maximum norm optimization of quasi-isometric mappings. Num. Linear Algebra Appl. 2002; V.9(6-7):493--510.
5. Garanzha V.A., Kudryavtseva L.N., Utyzhnikov S.V. Untangling and optimization of spatial meshes // Journal of Computational and Applied Mathematics. -- 2014. -- October. -- V. 269 -- P. 24--41.
Базовой алгоритм: Использовать вариационный метод построения отображений, который ранее был предложен для построения пространственных отображений с заданным отображением границы [4], [5], в случае, когда задается мера близости функций, описывающих геометрические тела, например, как среднеквадратичная мера близости функций яркости.
Решение: Для существующего кода, который реализует вариационный метод построения двумерных отображений с минимальным искажением, необходимо дописать модуль, реализующий добавку к функционалу, являющуюся мерой близости геометрических тел. Это включает вычисление самого функционала, его градиента, и поправки к предобусловливателю.
Новизна: Сравнить полученный метод с методом геодезического потока диффеоморфизмов, предложенного в работах Алэна Труве (см. ссылки [1]-[3]). Оценить качество приближения и быстродействие полученного алгоритма.
Консультант: Владимир Анатольевич Гаранжа (ВЦ РАН).

Задача 27

Название: Кросс-язычный тематический поиск научных публикаций.
Задача: Содание прототипа поискового сервиса, который принимает в качестве запроса текст научной статьи на русском языке и выдаёт в качестве результата поиска тематически близкие статьи на английском языке из коллекции arXiv.org.
Данные: Коллекция текстов arXiv.org, двуязычная коллекция текстов Википедии.
Литература: выдадим.
Базовой алгоритм: Тематическая модель, построенная по объединённой коллекции англоязычного arXiv и двуязычной англо-русской Википедии.
Решение: Построение регуляризованной тематической модели средствами библиотеки BigARTM. Применение стандартных средств построения инвертированных индексов.
Новизна: Такого сервиса в русскоязычном интернете пока нет.
Консультант: Марина Суворова.

Задача 28

Название: Поиск резонансных частот в растворах полимеров.
Задача: Математически задача сводиться к поиску спектральной плотности случайных графов в окрестности точки перколяции.
Данные: Симуляционные данные (графы Эрдеша-Реньи в окрестности точки перколяции).
Литература: Nazarov L. I. et al. A statistical model of intra-chromosome contact maps //Soft matter. – 2015. – Т. 11. – №. 5. – С. 1019-1025.
Базовой алгоритм: Монте-Карло.
Новизна: В настоящее известен алгоритм оценка спектральной плотности линейных цепочек, вопрос с оценкой спектральной плотности ансамблей деревьев открытый.
Консультант: Ольга Вальба, Юрий Максимов, Автор задачи: Нечаев Сергей.

YEAR

Автор	Тема научной работы	Ссылка	Консультант	Рецензент	Доклад	Буквы	Оценка	Журнал
Гончаров Алексей (пример)	Метрическая классификация временных рядов	code, paper, slides	Мария Попова	Задаянчук Андрей	BMF	AILSBRCVTDSW	10	ИИП
Ахтямов Павел	Отбор мультикоррелирующих признаков в задаче векторной авторегрессии	code, paper, slides	Радослав Нейчев	Медведева Анна	BF	AI+LSB++R+CVTDEH	10
Батаев Владислав	Тематическая модель классификации для диагностики заболеваний по электрокардиограмме	code, paper	Светлана Цыганова		B	AIL-S++B>R>C0V0T0D0E0W0H>	>26.05 (7)
Иванов Илья	Классификация физической активности: исследование изменения пространства параметров при дообучении и модификации моделей глубокого обучения	code, paper, slides	Олег Бахтеев		BF	A+ILS+B+R++C+VT+DEW0H	10
Медведева Анна	Модель порождения объектов в задаче прогнозирования временных рядов	code paper slides	Гончаров Алексей	Ахтямов Павел	BF	AILS-BRCVTD0EWS	10
Персиянов Дмитрий	Темпоральная тематическая модель коллекции пресс-релизов	code paper slides	Никита Дойков		BF	A+I+L+S++B+R+C+V+T0DEW0H	10
Семененко Денис	Алгоритм прогнозирования структуры локально-оптимальных моделей	code paper	Кулунчаков Андрей		B	AI+L+SB0R0C0V0T0D0E0W0H0
Софиенко Александр	Согласование логических и линейных моделей классификации в информационном анализе электрокардиосигналов	code, paper	Влада Целых		B	A-I-L-S-C0V0T0D0E0W0H>	>26.05
Яронская Любовь	Sparse Regularized Regression on Protein Complex Data	code paper slides	Александр Катруца			A-I-L-SB-R-CVT--D-EW0H>	>26.05
Аксенов Сергей	Кросс-язычный тематический поиск научных публикаций.	code paper slides	Марина Суворова			AILS0B0R0C0V0T0D0E0W0H>	>26.05 (7)
Хисматуллин Тимур	Анализ и классификация интерфейса комплекса ДНК-белок	code paper slides	Владимир Гаранжа		F	AILSBRCVT>H>	>26.05 (7)

Задача 6

Название: Sparse Regularized Regression on Protein Complex Data
Задача: найти лучшую модель регрессии на данных связывания белковых комплексов
Данные: признаковое описание белковых комплексов и константы связывания для них
Литература: статьи по регрессии и сравнению методов на схожих данных
Базовой алгоритм: регуляризованная линейная регрессия (Lasso, Ridge, ...), SVR, kernel methods, etc..
Решение: сравнение различных алгоритмов регрессии на данных, выбор оптимальной модели и оптимизация параметров
Новизна: получение лучшей модели регрессии для данных связывания белковых комплексов
Консультант: Александр Катруца, автор задачи: Сергей Грудинин.
Желательные навыки: готовность быстро разобраться в различных подходах к регрессии, знание или готовность к освоению С++ на среднем уровне (для более полного исследования нужно будет попробовать библиотеки на С++)

Задача 8

Название: Классификация физической активности: исследование изменения пространства параметров при дообучении и модификации моделей глубокого обучения
Задача: Дана модель классификации по выборке временных сегментов, записанных с акселерометра мобильного телефона. Модель представляет собой многослойную нейросеть. Требуется 1) исследовать дисперсию и матрицу ковариаций параметров нейросети при различных расписаниях оптимизации (т.е. при различных подходах к поэтапному обучению). 2) на основе полученной матрицы ковариаций параметров предложить эффективный способ модификации модели глубокого обучении.
Данные: Выборка WISDM http://www.cis.fordham.edu/wisdm/dataset.php.
Литература:
- Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf
- Попова М. С., Стрижов В.В. Построение сетей глубокого обучения для классификации временных рядов - http://strijov.com/papers/PopovaStrijov2015DeepLearning.pdf
- Бахтеев О.Ю., Попова М.С., Стрижов В.В. Системы и средства глубокого обучения в задачах классификации
- LeCun Y. Optimal Brain Damage - yann.lecun.com/exdb/publis/pdf/lecun-90b.pdf
- Работы по пред-обучению (pre-training) и дообучению (fine-tuning)
Базовой алгоритм: Базовая модель описана в статье "Построение сетей глубокого обучения для классификации временных рядов". Алгоритм можно реализовать как с помощью библиотеки PyLearn или keras (другие библиотеки и языки программирования также допустимы).
Решение: Анализ матрицы ковариаций, построение add-del метода на основе полученных данных.
Новизна: Методика исследования ковариационной матрицы большой размерности, а также полученный алгоритм модификации модели важны и будут использоваться в дальнейшем при анализе моделей глубокого обучения.
Консультант: Олег Бахтеев

Задача 13

Название: Отбор мультикоррелирующих признаков в задаче векторной авторегрессии.
Задача: Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Показания датчиков коррелируют между собой. Необходимо отобрать оптимальный набор признаков для решения задачи прогнозирования.
Данные: Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
Литература: Ключевые слова: bootstrap aggreagation, метод Белсли, векторная авторегрессия.
- Нейчев Р.Г., Катруца А.М., Стрижов В.В. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования[107]
Базовый алгоритм: метод Белсли для одномерной авторегрессии (см. статью из списка литературы).
Решение: Применить метод Белсли для обнаружения коррелирующих признаков.
Новизна: Метод Белсли применяется для векторной авторегрессии.
Консультант: Радослав Нейчев

Задача 25

Название: Устойчивость дискретизации электрокардиосигналов относительно частотной фильтрации.
Задача: Технология информационного анализа электрокардиосигналов по В.М.Успенскому основана на преобразовании электрокардиограммы в символьную строку (кодограмму) и выделении информативных наборов слов — диагностических эталонов каждого заболевания. Проблема в том, что для дискретизации необходимо достаточно точно определять амплитуду R-пиков. На амплитуду может влиять частотная фильтрация сигнала, которая производится электрокардиографом на аппаратном или программном уровне. Задача заключается в том, чтобы оценить, насколько сильно различные частотные фильтры (например, фильтр 50.4Гц, подавляющий воздействие электрической сети, высокочастотный фильтр) могут влиять на частоты слов в кодограмме и на качество классификации.
Данные: электрокардиограммы в формате KDM.
Литература: выдадим :)
Базовой алгоритм: Линейный классификатор.
Решение: Прямое и обратное преобразование Фурье, алгоритм детекции R-пиков на электрокардиограмме, алгоритм определения амплитуды R-пиков.
Новизна: Исследование устойчивости кодограмм по отношению к частотной фильтрации с различными параметрами ранее не проводилось в информационном анализе электрокардиосигналов.
Консультант: Виктор Сафронов (Научный центр им. В.И.Кулакова)

2015

Автор	Тема научной работы	Ссылка	Консультант	Рецензент	ДЗ-1	ДЗ-2 (Номер задачи)	Буквы	Сумма	Оценка
Бернштейн Юлия	Методы определения характеристик фибринолиза по последовательности изображений крови in vitro	Матвеев И. А.	Соломатин	1	3 (8)	AILSBRCVTDE	11	10
Бочкарев Артем	Структурное обучение при порождении моделей	[108] (no code), paper, slides	Варфоломеева Анна, Бахтеев Олег	Исаченко	2	2 (7)	A+I++LS+BRCVT+DS	9.25	10	Гончаров Алексей	Метрическая классификация временных рядов	code, paper, slides	Мария Попова	Задаянчук	1.5	1 (4)	AILSBRCVTDSW	12	10
Двинских Дарина	Повышение качества прогнозирования с использованием групп товаров	code, paper, slides	Каневский Д. Ю.	Смирнов	0.5	3 (7)	AILSBRCVTDEHS	14	10
Ефимов Юрий	Поиск внешней и внутренней границ радужки на изображении глаза методом парных градиентов	code, paper, slides	Матвеев И. А.	Нейчев			AILSBRCVTDEW	12	10
Жариков Илья	Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» и оценка качества электрокардиограмм.	code, paper, slides	Ишкина Шаура	Бочкарев	3.5	3 (5)	AIL+SBRCVTDEHSW	14.25	10
Задаянчук Андрей	Выбор оптимальной модели классификации физической активности	code, paper, slides	Мария Попова	Гончаров	2	0 (17)	AI-LSB+RCVTD	10	10
Златов Александр	Построение иерархической модели крупной конференции	code, paper, slides	Арсентий Кузьмин	Двинских	1.5	3 (14)	AI+L+SBRC++V+TDESW	14.25	10
Исаченко Роман	Метрическое обучение и снижение размерности пространства в задачах кластеризации временных рядов	code, paper, slides	Катруца Александр	Жариков	3.5	3 (14)	A-I+L+S-BR+CVTDEHSW	14.25	10
Нейчев Радослав	Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов	code, paper, slides	Катруца Александр	Ефимов	1	3 (9)	AI-L-SBRCVTDEHSW	13.5	10
Подкопаев Александр	Прогнозирование четвертичных структур белков	code, paper, slides	Ю. В. Максимов	Решетова	3.5	3 (11)	AILS+B+RCVTDEHS	13.5	10
Решетова Дарья	Методы многоклассовой классификации с улучшенными оценками сходимости в задачах частичного обучения	code, paper, slides	Максимов Юрий	Камзолов	2.5	3 (10)	AIL++SB+RCVT++DEHS-	14	10
Смирнов Евгений	Тематическая модель интересов постоянных пользователей мобильного приложения	code, paper, slides	Виктор Сафронов	Златов	1	1 (4)	AILSBRCVTWDE	11.25	10
Соломатин Иван	Определение области затенения радужки классификатором локальных текстурных признаков	code, paper, slides	Матвеев И. А.	Бернштейн		3 (9)	AILSBRCVTDE	11	10
Черных Владимир	Тестирование непараметрических алгоритмов прогнозирования временных рядов в условиях нестационарности	code, paper, slides	Стенина Мария	Шишковец	3.5	3 (4)	A+I+LSBRCVT+DE++H++	13.75	10
Шишковец Светлана	Регуляризация линейного наивного байесовского классификатора.	code, paper, slides	Михаил Усков, Константин Воронцов	Черных	3.5	2 (9)	A+I+L+SBR+CV+TD+E+H+S	15	10
Камзолов Дмитрий	Новые алгоритмы для задачи ранжирования веб-страниц	—	Александр Гасников, Юрий Максимов	Подкопаев			AILSB+RCVT+DEHS--	13	8
Сухарева Анжелика	Классификация научных текстов по отраслям знаний	code, paper, slides	Сергей Царьков		0.5		AILSBRCVTDEH		9

Задача 1

Название: Повышение качества прогнозирования спроса с использованием групп товаров
Задача:

Дано:

1. Временные ряды продаж нескольких группам товаров в одном гипермаркете. Также для каждого товара известны периоды дефицита, периоды воздействия на спрос календарных праздников и периоды проведения. маркетинговых акций. Также известен товарный классификатор: дерево групп товаров, где сами товары являются листьями.
2. Алгоритм прогнозирования, который используется для построения прогнозов спроса по этим товарам: самоадаптивное экспоненциальное сглаживание (модель Тригга-Лича, см. [1])
3. Функция потерь, по которой измеряется качество прогнозов: MAPE.
4. Требования к построению прогнозов: прогнозы требуется строить понедельно на 4 недели вперёд (в начале текущей недели требуется построить прогноз суммарного спроса на следующую неделю, неделю через одну, через две, через 3).

Гипотеза: спрос на отдельные товары слишком неустойчив, чтобы выявить характерную для них сезонность. Предлагается использовать данные о группах товаров, чтобы точнее определить параметры сезонности. Замечание: возможны и другие варианты повышения качества прогнозирования за счёт работы с группами товаров. Задача заключается в повышении качества прогнозирования в рамках поставленной задачи путём учёта эффекта взаимозаменяемости товаров, по сравнению с базовым алгоритмом. Результат можно считать достигнутым, если показано статистически значимое повышение качества при построении серии прогнозов (не менее 20) по каждому временному ряду скользящим контролем.

Данные:
1. Данные о продажах нескольких товарных групп в гипермаркете крупной торговой сети: https://drive.google.com/file/d/0B5YjPespcL83X3pHaE1aRzBUaDg/view?usp=sharing
Литература:
1. Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
2. http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C_%D0%A2%D1%80%D0%B8%D0%B3%D0%B3%D0%B0-%D0%9B%D0%B8%D1%87%D0%B0
3. Nitin Patel, Mahesh Kumar, Rama Ramakrishnan. Clustering models to improve forecasts in retail merchandising. http://www.cytel.com/Papers/INFORMS_Prac_%2004.pdf
4. Kumar M., Error-based Clustering and Its Application to Sales Forecasting in Retail Merchandising. PhD Thesis. http://books.google.ru/books/about/Error_based_Clustering_and_Its_Applicati.html?id=6252NwAACAAJ&redir_esc=y
Базовой алгоритм: Предлагется использовать модель сезонности [3] в сочетании с моделью Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] и [2]). При этом возможны 3 варианта алгоритма, в зависимости от способа оценки сезонности:
1. Сезонность оценивается по самому ряду продаж. Для товаров с "короткой" историей оценка сезонности не выполняется.
2. Сезонность оценивается по группе товаров, исходя из классификатора товарных групп (нижний уровень классификатора)
3. Сезонность оценивается по кластерам, исходя из методики [3], [4].
Решение: Требуется реализовать объединение модели сезонности [3] и модели Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] и [2]), с 3-мя вариантами анализа сезонности, описанными выше. При построение сезонных профилей необходимо исключать периоды маркетинговых акций (иначе может быть существенное искажение сезонности). Дальше понадобится серия экспериментов с анализом качества на реальных данных. При анализе качества можно исключать периоды проведения праздников и маркетинговых акций. По итогам экспериментов, возможно, потребуется адаптация алгоритма кластеризации.
Новизна: Построение самоадаптивного алгоритма прогнозирования с учётом сезонности, выявляемой путём кластерного анализа.
Консультант: Каневский Д.Ю.

Задача 2

Название: Исследование связи онкологических заболеваний и экологической ситуации по пространственно-временной выборке
Задача: Дана матрица с оценками экологической обстановки и данными по средней заболеваемости онкологией для каждого района Ростовской области за несколько лет. Оценки экологической обстановки содержат значительное количество шума. Оценки экологической обстановки выполнены в ранговых шкалах. Требуется построить регрессионную модель для оценки количества онкозаболеваний, которая бы учитывала экологическую обстановку в районе, соседство с другими районами и тенденцию изменения параметров на протяжении временного ряда.
Данные: таблица с данными об экологической ситуации и количестве онкологических заболеваний в Ростовской области.
Литература:
- http://www.scielosp.org/pdf/aiss/v47n2/v47n2a10.pdf - Ecological studies of cancer incidence in an area interested by dumping waste sites in Campania (Italy)
- http://lasi.lynchburg.edu/shahady_t/public/Breast%20Cancer.pdf - Incidence of human cancer in correlation with ecological integrity in a metropolitan population
- http://homepages.inf.ed.ac.uk/rbf/CVonline/LOCAL_COPIES/SUBBARAO1/HeivReview.pdf - Heteroscedastic Errors-in-Variables Regression
- http://en.wikipedia.org/wiki/Errors-in-variables_models - википедия: модели с ошибками в независимых переменных
- http://www.cardiff.ac.uk/maths/resources/Gillard_Tech_Report.pdf - An Historical Overview of Linear Regression with Errors in both Variables
- http://arxiv.org/pdf/1212.5049v1.pdf - A Partial Least Squares Algorithm Handling Ordinal Variables Also In Presence Of A Small Number Of Categories
- [109] - википедия: Расстояние Махаланобиса
- http://see.stanford.edu/materials/aimlcs229/cs229-hmm.pdf - Hidden Markov Models Fundamentals
Базовой алгоритм: Сравнений с базовым алгоритмом проводить не предполагается
Решение: Один из алгоритмов регрессии из обзора (3-й пункт литературы). Трансформацию порядковых признаков в линейные можно найти в пункте 4 литературы
Новизна: В отличие от существующих работ, в основном использующих только наборы признаков, но не географическое соседство с загрязненными районами и динамику изменения окружающей среды, в данной работе предлагается провести анализ проблемы с учетом этих факторов.
Консультант: Олег Бахтеев.

Задача 3

Название: Получение оценки разреженной ковариационной матрицы для нелинейных моделей (нейросетей).
Задача: Предложить метод оценки ковариационной матрицы параметров модели общего вида для случая линейной регрессии, логистической регрессии, общих нелинейных моделей, включая нейросети. Предложить способ учета структуры матрицы (разреженность, зависимости между коэффициентами и т.д.)
Данные: Синтетические данные и тесты.
Литература:
- Зайцев А.А., Стрижов В.В., Токмакова А.А. Оценка гиперпараметров регрессионных моделей методом максимального правдоподобия // Информационные технологии, 2013, 2 — 11-15.
- Kuznetsov M.P., Tokmakova A.A., Strijov V.V. Analytic and stochastic methods of structure parameter estimation // Preprint, 2015.
- Адуенко А. А. Презентация по Evidence, 2015. aduenko_presentation_russian.pdf
- Bishop C. M. Pattern Recognition and Machine Learning, pp. 161-172, 2006.
Базовой алгоритм: Оценка диагональной матрицы, см. папку MLAlgorithms/HyperOptimization.
Решение:
Новизна: Предложен быстрый алгоритм получения оценок ковариационной матрицы общего вида для нелинейных моделей, исследованы свойства разреженных матриц.
Консультант: Александр Адуенко.

Задача 4

Название: Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов
Задача: постановка задачи из [110] формула (32)
Данные: временные ряды с ценами на электроэнергию.
Литература:
- Ключевые слова: Hourly Price Forward Curve, краткосрочное прогнозирование временных рядов, выбор признаков, метод Add-Del, (не)линейная регрессия.
- Основные статьи:
1. [111] - исследование влияния цен в одной стране на цену в другой и как это учесть при прогнозировании.
2. [112] - обзор терминов и процессов, всплывающих в прогнозировании HPFC + мотивация
3. [113] - тоже про прогнозирование цен, но тут про спотовые цены
Базовой алгоритм:
1. LAD-Lasso estimation из [114]
2. Статья Сандуляну про модификацию Add-Del: [115].
Решение: применить в качестве метода отбора признаков модифицрованный метод Add-Del.
Новизна: сравнение базвого и предложенного методов, анализ свойств предложенного метода.
Консультант: Александр Катруца.

Задача 5

Название: Разработка алгоритма распознавания изображений при поиске параметров фибринолиза.
Задача: Задан набор снимков роста фибринового сгустка, полученных в процессе исследования тромбодинамики и [116]. Требуется разработать алгоритм поиска координат отрезка и угла наклона линии активатора по серии снимков. Протестировать разработанный алгоритм на разных видах фибринолиза и примерах, где данный процесс отсутствует.
Данные: Массив снимков для каждого исследования формата tiff 16 бит c моментами времени от начала в сек.
Литература
- Описание прикладной задачи и техническое задание: по запросу.
Базовой алгоритм: Преобразование Хафа [117], обсуждается.
Консультант: И.А. Матвеев

Задача 6

Название: Прогнозирование четвертичных структур белков: нивелирование
Задача: Задача заключается в предсказании упаковки белковых молекул в мультимерный комплекс в приближении жестких тел. Одна из формклировок задачи записывается как невыпуклая оптимизация.

Нужно исследовать эту формулировку и предложить алгоритм решения. Suppose we have $N$ proteins in an assembly, such that each protein $i$ can be located in one of $P$ positions $x_{p}^{i}$ . $N$ is ~ 10, $P$ ~ 100. To each two vectors $x_{i}^{p}$ and $x_{j}^{q}$ , we can assign an energy function $q_{0}$ , which is the overlap integral in the simplest approximation. Each protein position also has an associated score $b_{0}$ . Thus, the optimal packing problem can be formulated as $\begin{align} x^{T}Q_{0}x+b_{0}^{T}x &\rightarrow& \textrm{min}\\ \textrm{w.r.t}. &&\left\Vert x^{k}\right\Vert _{\infty}=1\;\forall k \\ && x_{i}^{k}\geq0\;\forall i,k \end{align}$

Данные: Собираются при помощи одного из стандартных комплексов решенных при помощи электронной микроскопии. Значения энергий и интегралов перекрытия вычисляются при помощи модификации одного из стандартных пакетов, например, HermiteFit. Данные генерируются за ~ 1 минуту, модификация кода и подготовка данных займет ~ 1 неделю.
Литература: Ю.Е. Нестеров Введение в выпуклую оптимизацию (доступна на сайте PreMoLab)
Замечания по коду: Замечания по программной реализации
Базовый алгоритм: Хочется попробовать выпуклые релаксации.
Новизна: Выпуклые релаксации не применялись ранее в таких задачах на данных белков
Консультант: Ю.В. Максимов

Задача 7

Название: Метрическое обучение и снижение размерности пространства в задачах классификации временных рядов
Задача: постановка задачи из базовой статьи, возможна некоторая модификация функции ошибки из-за специфики временных рядов
Данные: временные ряды цен на электроэнергию
Литература:
1. [118] - базовая статья
2. [119] - отличный обзор методов Metric Learning
3. [120] - ещё обзор
Базовой алгоритм: алгоритм Франка-Вольфа (условного градиентного спуска)
Решение: применить прореживание целевой матрицы с помощью метода Belsley для удаления мультиколлинерности
Новизна: применение методов Metric Learning в задаче кластеризации временных рядов, анализ свойств предложенного метода
Консультант: Александр Катруца

Задача 8

Название: Структурное обучение при порождении моделей
Задача: Решается задача поиска ранжирующей функции в задачах информационного поиска. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой вида G: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных и параметров {x, y, k}. Предлагается решать задачу порождения ранжирующей модели в два этапа, используя в качестве обучающей выборки историю восстановления структуры модели.
Данные: Подколлекции TREC.
Описание коллекции данных, используемых для оценки функций, и процедуры оценки. [121]
Литература
- Jaakkola T. Scaled structured prediction.
- Tommi Jaakkola “Scaling structured prediction”
- Найти все работы учеников TJ по данной тематике.
- Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
Базовой алгоритм: Парантапа, BM25 - модели для сравнения.
Решение: Предлагается кластеризовать коллекцию и породить модели для кластеров документов. Затем методом структурного обучения найти модели, обобщающие объединения кластеров вплоть до самой коллекции.
Новизна: Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике.
* Консультант: Анна Варфоломеева, Олег Бахтеев

Задача 9

Название: Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» и оценка качества электрокардиограмм.
Задача: Решается задача проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» [1—4] на основе сравнения электрокардиограмм (ЭКГ) одних и тех же пациентов, зарегистрированных обоими приборами по схеме АВАВ, где А – первый прибор, В – второй. Также решается задача автоматического выявления некачественных электрокардиограмм, не удовлетворяющих требованиям диагностической системы.
Данные: Выборка состоит из записей со значениями ЭКГ, зарегистрированными прибором, для которого проводится проверка, и прибором, используемым в системе диагностики «Скринфакс» (данные с подробным описанием формата записей будут предоставлены выбравшему задачу). Для тестирования алгоритмов обнаружения R-пиков и оценивания уровня шума можно использовать http://www.physionet.org/physiobank/database/ptbdb/
Литература:
1. Информационный портал Диагностической системы «Скринфакс». URL: http://skrinfax.ru/автор-метода/
2. Технология информационного анализа электрокардиосигналов
3. Успенский В.М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. М.: Экономика и информатика, 2008. 116с.
4. Успенский В.М. Информационная функция сердца. // Клиническая медицина. 2008. Т.86. №5. С.4–13.
5. Naseri H., Homaeinezhad M.R. Electrocardiogram signal quality assessment using an artificially reconstructed target lead // Computer Methods in Biomechanics and Biomedical Engineering. 2015. Vol.18, No. 10. Pp. 1126-1141.
6. Zidelmal Z., Amirou A., Ould-Abdeslam D., Moukadem A., Dieterlen A. QRS detection using S-Transform and Shannon energy. // Comput Methods Programs Biomed. 2014. Vol. 116, No. 1. Pp. 1-9. URL: https://yadi.sk/i/-kD00y1VepB3q
7. Sarfraz M., Li F. F., Khan A. A. Independent Component Analysis Methods to Improve Electrocardiogram Patterns Recognition in the Presence of Non-Trivial Artifacts // Journal of Medical and Bioengineering. 2015. Vol. 4, No. 3. Pp. 221—226. URL: https://yadi.sk/i/-kD00y1VepB3q
8. Meziane N. et al. Simultaneous comparison of 1 gel with 4 dry electrode types for electrocardiography // Physiol. Meas. 2015. Vol. 36, No. 513.
9. Allana S., Aversa J., Varghese C., et al. Poor quality electrocardiograms negatively affect the diagnostic accuracy of ST segment elevation myocardial infarction. // J Am Coll Cardiol. 2014. Vol. 63, No. 12_S. doi:10.1016/S0735-1097(14)60172-8.
Базовой алгоритм: Оценивание качества ЭКГ – [4], обнаружение R-пиков – [5], оценивание уровня шума в данных – [6].
Решение: Задачу проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» предлагается решать путем построения перестановочных статистических тестов по сравнению значений RR-интервалов и R-амплитуд и выявленных кодовых последовательностей (вычисляются по амплитудам и интервалам) для каждого заболевания. Здесь возникает задача обнаружения R-пиков. В задаче обнаружения некачественных электрокардиограмм возникает задача оценивания уровня шума. Кроме того, необходимо научиться отсеивать ЭКГ с неинформативными значениями амплитуд или большим разбросом значений интервалов, поскольку методика анализа электрокардиосигналов неприменима к диагностике аритмии.
Новизна: Задачу проверки соответствия электрокардиографа требованиям диагностической системы можно рассматривать как задачу сравнения приборов регистрации ЭКГ, возникающей, например, при сравнении различных видов электродов, и в качестве критериев выбираются уровень шума в значениях электрокардиосигналов, наличие дрейфа базовой линии и некоторые другие признаки [7].
Консультант: Ишкина Шаура

Задача 10

Название: Simplification of the IR models structure
Задача: To achieve the acceptable quality of the information retrieval models, modern search engines use models of very complex structure. In current research we propose to simplify the model structure and make it interpretable without decreasing the model accuracy. To do this, we follow the idea from (Goswami et al., 2014) of constructing the set of nonlinear IR functions of simple structure and admissible accuracy. However, each of this functions is expected to have lower accuracy while comparing with the best IR model of complex structure. Thus, we propose to approximate this complex model with the linear combination of simple nonlinear functions and expect to obtain the comparable quality of solution.
Данные: TREC collections.
Литература
- P. Goswami et Al. Exploring the Space of IR Functions // Advances in Information Retrieval. Lecture Notes in Computer Science. 8416:372-384, 2014.
- Problem statement
Базовой алгоритм: Gradient boosting machine for constructing a model of high complexity. Exaustive search of superpositions from a set of elementary functions for approximation and simplification.
Решение: The optimal functions for the linear combination can be found by the greedy algorithm.
Новизна: A new ranking function of simple structure competitive with traditional ones.
Консультант: Mikhail Kuznetsov.

Задача 11

Название: Тестирование непараметрических алгоритмов прогнозирования временных рядов в условиях нестационарности
Задача: Одним из ключевых предположений о распределении данных при непараметрическом является предположение о стационарности временного ряда. Адекватность прогнозов при невыполнении этого требования не гарантируется. Требуется разработать метод определения выполнения условия локальной стационарности временного ряда исследовать применимость основных алгоритмов непараметрического прогнозирования в отсутствии стационарности. Рассмотреть основные методы непараметрической регрессии, такие как ядерное сглаживание, сглаживание сплайнами, авторегрессия, скользящее среднее и др.
Данные: Данные о грузовых железнодорожных перевозках (РЖД)
Литература:
- Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. — 2012. — № 4.
- Dickey D. A. and Fuller W. A. Distribution of the Estimators for Autoregressive Time Series with a Unit Root / Journal of the American Statistical Association. — 74. — 1979. — p. 427—-431.
Базовой алгоритм: ARMA, Hist.
Решение: В качестве базового метода для проверки рядов на нестационарность использовать тест Дики-Фуллера. Предлагается также рассмотреть такие источники нестационарности, как тренд и сезонность.
Новизна: Разработан и обоснован метод определения выполнения условия локальной стационарности временного ряда.
Консультант: Стенина Мария

Задача 12

Название: Обучение метрик в задачах полного и частичного обучения
Задача: состоит в программной реализации комплекса методов выпуклой и DC-оптимизации для задачи выбора оптимальной метрики в задачах распознавания. Иными словами, в построении метрики такой, что классификация методом ближайших соседей дает высокую точность.
Данные: Birds и Fungus коллекции ImageNet с извлеченными Deep features(предоставляется консультантом). Первичные тесты можно проводить на данных представленных здесь
Литература: Список литературы и описание подробное задачи приведены в файле
Замечания к коду: Замечания по программной реализации
Базовый алгоритм: 1) выпуклая релаксация задачи решаемая внутренней точкой через CVX 2) SVM на модифицированной выборке, состоящей из пар объектов
Консультант: Ю.В. Максимов

Задача 13

Название: Построение иерархической тематической модели крупной конференции
Задача: Ежегодно, программный комитет крупной конференции EURO (более 2000 докладов) сталкивается с задачей построения иерархической модели тезисов конференции. В силу того, что структура конференции слабо меняется из года в год, предлагается построить тематическую модель будущей конференции, используя экспертные модели конференций прошлых лет. При этом возникают следующие подзадачи:

Классификация тезисов новой конференции.
Прогнозирование изменений структуры конференции.

Данные: Тезисы и экспертные модели конференций EURO 2010, 2012, 2013.
Литература: Alexander A. Aduenko, Arsentii A. Kuzmin, Vadim V. Strijov. Adaptive thematic forecasting of major conference proceedings текст статьи
Базовой алгоритм:
Решение: Для решения подзадач

предлагается объединить экспертные модели конференций прошлых лет в одну, и для каждого тезиса новой конференции найти в полученной объединенной модели наиболее подходящий кластер, например, с помощью взвешенной косинусной меры близости.
исследовать изменения в структуре конференций из года в год и определить порог значений внутрикластерного сходства, при котором для некоторого набора тезисов эксперты создают новый кластер, а не добавляют эти тезисы в уже существующие кластеры.

Новизна: Взвешенная косинусная мера близости, учитывающая иерархичность структуры кластеров. Прогнозирование изменений иерархической структуры/тематики конференции
Консультант: Арсентий Кузьмин

Задача 14

Название: Регуляризация линейного наивного байесовского классификатора.
Задача: Построение линейного классификатора является одной из классических и самых хорошо изученных задач машинного обучения. Линейный наивный байесовский (LNB) классификатор имеет сильное преимущество — он строится за время, линейное по длине выборки, и сильное ограничение — при его выводе предполагается, что признаки независимы. На некоторых данных LNB работает удивительно хорошо, несмотря на явное нарушение гипотезы о независимости признаков. Линейная машина опорных векторов (SVM) считается очень успешным методом, но на больших выборках работает долго. Оба эти метода работают в одном и том же пространстве линейных классификаторов. Идея исследования состоит в том, чтобы путём незначительных поправок LNB приблизить его к SVM по качеству, но без утраты эффективности.
Данные: Один из трёх наборов данных, по выбору: классификация текстов на научные и ненаучные, классификация авторефератов по областям науки, классификация кодограмм ЭКГ на больных и здоровых.
Литература:
1. Larsen (2005) Generalized Naive Bayes Classifiers.
2. Abraham, Simha, Iyengar (2009) Effective Discretization and Hybrid feature selection using Naïve Bayesian classifier for Medical datamining.
3. Lutu (2013) Fast Feature Selection for Naive Bayes Classification in Data Stream Mining.
4. Zaidi, Carman, Cerquides, Webb (2014) Naive-Bayes Inspired Effective Pre-Conditioner for Speeding-up Logistic Regression.
5. + спросить у К.В.Воронцова.
Базовой алгоритм: любые готовые реализации LNB и SVM. Плюс наивный отбор признаков для LNB.
Решение: Выводим поправочные формулы для весов LNB при использовании margin-maximization регуляризатора, аналогичного SVM. Строим итерационный процесс, в котором на каждом шаге вычисляется поправка, ещё немного приближающая LNB к SVM. Строятся ROC-кривые и зависимости Hold-out AUC от номера итерации.
Новизна: Сообщество ML до сих пор не осознало, что любой линейный классификатор эквивалентен какому-то наивному байесовскому.
Консультант: Михаил Усков. Гиперконсультант: К.В.Воронцов.

Задача 15

Название: Тематическая модель интересов постоянных пользователей мобильного приложения.
Задача: Мобильное приложение для изучения английских слов предлагает пользователю слова одно за другим. Пользователь может либо добавить слово к изучаемым, либо откинуть. Чтобы начать учить слова, нужно набрать, как минимум, 10 слов. Требуется построить вероятностную модель генерации слов, адаптирующуюся под интересы пользователя.
Данные: Для каждого пользователя имеются списки добавленных и откинутых слов. Кроме того, предполагается использовать большую внешнюю коллекцию текстов, например, Википедию, для устойчивого определения тематики.
Литература:
1. Vorontsov K. V., Potapenko A. A. Additive Regularization of Topic Models // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”. 2014. Русский перевод
2. + попросить у К.В.Воронцова
Базовой алгоритм: Алгоритм случайного отбора слов.
Решение: Тематическая модель для каждого пользователя определяет тематический профиль его интересов p(t|u). Для генерации слов используются распределения слов из распределений p(w|t) тем данного пользователя. Строятся зависимости функционалов качества тематической модели от номера итерации. Основной функционал качества — способность модели предсказывать, какие слова пользователь оставит, а какие откинет.
Новизна: Особенностью модели является наличие откинутых слов. Разработанные методы могут быть также применены в рекомендательных системах с лайками и дизлайками.
Консультант: Виктор Сафронов. Гиперконсультант: К.В.Воронцов.

2015

Автор	Тема научной работы	Ссылка	Консультант	Рецензент	ДЗ-1	ДЗ-2 (Номер задачи)	Буквы	Сумма	Оценка
Бернштейн Юлия	Методы определения характеристик фибринолиза по последовательности изображений крови in vitro	Матвеев И. А.	Соломатин	1	3 (8)	AILSBRCVTDE	11	10
Бочкарев Артем	Структурное обучение при порождении моделей	[122] (no code), paper, slides	Варфоломеева Анна, Бахтеев Олег	Исаченко	2	2 (7)	A+I++LS+BRCVT+DS	9.25	10
Гончаров Алексей	Метрическая классификация временных рядов	code, paper, slides	Мария Попова	Задаянчук	1.5	1 (4)	AILSBRCVTDSW	12	10
Двинских Дарина	Повышение качества прогнозирования с использованием групп товаров	code, paper, slides	Каневский Д. Ю.	Смирнов	0.5	3 (7)	AILSBRCVTDEHS	14	10
Ефимов Юрий	Поиск внешней и внутренней границ радужки на изображении глаза методом парных градиентов	code, paper, slides	Матвеев И. А.	Нейчев			AILSBRCVTDEW	12	10
Жариков Илья	Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» и оценка качества электрокардиограмм.	code, paper, slides	Ишкина Шаура	Бочкарев	3.5	3 (5)	AIL+SBRCVTDEHSW	14.25	10
Задаянчук Андрей	Выбор оптимальной модели классификации физической активности	code, paper, slides	Мария Попова	Гончаров	2	0 (17)	AI-LSB+RCVTD	10	10
Златов Александр	Построение иерархической модели крупной конференции	code, paper, slides	Арсентий Кузьмин	Двинских	1.5	3 (14)	AI+L+SBRC++V+TDESW	14.25	10
Исаченко Роман	Метрическое обучение и снижение размерности пространства в задачах кластеризации временных рядов	code, paper, slides	Катруца Александр	Жариков	3.5	3 (14)	A-I+L+S-BR+CVTDEHSW	14.25	10
Нейчев Радослав	Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов	code, paper, slides	Катруца Александр	Ефимов	1	3 (9)	AI-L-SBRCVTDEHSW	13.5	10
Подкопаев Александр	Прогнозирование четвертичных структур белков	code, paper, slides	Ю. В. Максимов	Решетова	3.5	3 (11)	AILS+B+RCVTDEHS	13.5	10
Решетова Дарья	Методы многоклассовой классификации с улучшенными оценками сходимости в задачах частичного обучения	code, paper, slides	Максимов Юрий	Камзолов	2.5	3 (10)	AIL++SB+RCVT++DEHS-	14	10
Смирнов Евгений	Тематическая модель интересов постоянных пользователей мобильного приложения	code, paper, slides	Виктор Сафронов	Златов	1	1 (4)	AILSBRCVTWDE	11.25	10
Соломатин Иван	Определение области затенения радужки классификатором локальных текстурных признаков	code, paper, slides	Матвеев И. А.	Бернштейн		3 (9)	AILSBRCVTDE	11	10
Черных Владимир	Тестирование непараметрических алгоритмов прогнозирования временных рядов в условиях нестационарности	code, paper, slides	Стенина Мария	Шишковец	3.5	3 (4)	A+I+LSBRCVT+DE++H++	13.75	10
Шишковец Светлана	Регуляризация линейного наивного байесовского классификатора.	code, paper, slides	Михаил Усков, Константин Воронцов	Черных	3.5	2 (9)	A+I+L+SBR+CV+TD+E+H+S	15	10
Камзолов Дмитрий	Новые алгоритмы для задачи ранжирования веб-страниц	—	Александр Гасников, Юрий Максимов	Подкопаев			AILSB+RCVT+DEHS--	13	8
Сухарева Анжелика	Классификация научных текстов по отраслям знаний	code, paper, slides	Сергей Царьков		0.5		AILSBRCVTDEH		9

Задача 1

Название: Повышение качества прогнозирования спроса с использованием групп товаров
Задача:

Дано:

1. Временные ряды продаж нескольких группам товаров в одном гипермаркете. Также для каждого товара известны периоды дефицита, периоды воздействия на спрос календарных праздников и периоды проведения. маркетинговых акций. Также известен товарный классификатор: дерево групп товаров, где сами товары являются листьями.
2. Алгоритм прогнозирования, который используется для построения прогнозов спроса по этим товарам: самоадаптивное экспоненциальное сглаживание (модель Тригга-Лича, см. [1])
3. Функция потерь, по которой измеряется качество прогнозов: MAPE.
4. Требования к построению прогнозов: прогнозы требуется строить понедельно на 4 недели вперёд (в начале текущей недели требуется построить прогноз суммарного спроса на следующую неделю, неделю через одну, через две, через 3).

Данные:
1. Данные о продажах нескольких товарных групп в гипермаркете крупной торговой сети: https://drive.google.com/file/d/0B5YjPespcL83X3pHaE1aRzBUaDg/view?usp=sharing
Литература:
1. Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
2. http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C_%D0%A2%D1%80%D0%B8%D0%B3%D0%B3%D0%B0-%D0%9B%D0%B8%D1%87%D0%B0
3. Nitin Patel, Mahesh Kumar, Rama Ramakrishnan. Clustering models to improve forecasts in retail merchandising. http://www.cytel.com/Papers/INFORMS_Prac_%2004.pdf
4. Kumar M., Error-based Clustering and Its Application to Sales Forecasting in Retail Merchandising. PhD Thesis. http://books.google.ru/books/about/Error_based_Clustering_and_Its_Applicati.html?id=6252NwAACAAJ&redir_esc=y
Базовой алгоритм: Предлагется использовать модель сезонности [3] в сочетании с моделью Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] и [2]). При этом возможны 3 варианта алгоритма, в зависимости от способа оценки сезонности:
1. Сезонность оценивается по самому ряду продаж. Для товаров с "короткой" историей оценка сезонности не выполняется.
2. Сезонность оценивается по группе товаров, исходя из классификатора товарных групп (нижний уровень классификатора)
3. Сезонность оценивается по кластерам, исходя из методики [3], [4].
Решение: Требуется реализовать объединение модели сезонности [3] и модели Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] и [2]), с 3-мя вариантами анализа сезонности, описанными выше. При построение сезонных профилей необходимо исключать периоды маркетинговых акций (иначе может быть существенное искажение сезонности). Дальше понадобится серия экспериментов с анализом качества на реальных данных. При анализе качества можно исключать периоды проведения праздников и маркетинговых акций. По итогам экспериментов, возможно, потребуется адаптация алгоритма кластеризации.
Новизна: Построение самоадаптивного алгоритма прогнозирования с учётом сезонности, выявляемой путём кластерного анализа.
Консультант: Каневский Д.Ю.

Задача 2

Название: Исследование связи онкологических заболеваний и экологической ситуации по пространственно-временной выборке
Задача: Дана матрица с оценками экологической обстановки и данными по средней заболеваемости онкологией для каждого района Ростовской области за несколько лет. Оценки экологической обстановки содержат значительное количество шума. Оценки экологической обстановки выполнены в ранговых шкалах. Требуется построить регрессионную модель для оценки количества онкозаболеваний, которая бы учитывала экологическую обстановку в районе, соседство с другими районами и тенденцию изменения параметров на протяжении временного ряда.
Данные: таблица с данными об экологической ситуации и количестве онкологических заболеваний в Ростовской области.
Литература:
- http://www.scielosp.org/pdf/aiss/v47n2/v47n2a10.pdf - Ecological studies of cancer incidence in an area interested by dumping waste sites in Campania (Italy)
- http://lasi.lynchburg.edu/shahady_t/public/Breast%20Cancer.pdf - Incidence of human cancer in correlation with ecological integrity in a metropolitan population
- http://homepages.inf.ed.ac.uk/rbf/CVonline/LOCAL_COPIES/SUBBARAO1/HeivReview.pdf - Heteroscedastic Errors-in-Variables Regression
- http://en.wikipedia.org/wiki/Errors-in-variables_models - википедия: модели с ошибками в независимых переменных
- http://www.cardiff.ac.uk/maths/resources/Gillard_Tech_Report.pdf - An Historical Overview of Linear Regression with Errors in both Variables
- http://arxiv.org/pdf/1212.5049v1.pdf - A Partial Least Squares Algorithm Handling Ordinal Variables Also In Presence Of A Small Number Of Categories
- [123] - википедия: Расстояние Махаланобиса
- http://see.stanford.edu/materials/aimlcs229/cs229-hmm.pdf - Hidden Markov Models Fundamentals
Базовой алгоритм: Сравнений с базовым алгоритмом проводить не предполагается
Решение: Один из алгоритмов регрессии из обзора (3-й пункт литературы). Трансформацию порядковых признаков в линейные можно найти в пункте 4 литературы
Новизна: В отличие от существующих работ, в основном использующих только наборы признаков, но не географическое соседство с загрязненными районами и динамику изменения окружающей среды, в данной работе предлагается провести анализ проблемы с учетом этих факторов.
Консультант: Олег Бахтеев.

Задача 3

Название: Получение оценки разреженной ковариационной матрицы для нелинейных моделей (нейросетей).
Задача: Предложить метод оценки ковариационной матрицы параметров модели общего вида для случая линейной регрессии, логистической регрессии, общих нелинейных моделей, включая нейросети. Предложить способ учета структуры матрицы (разреженность, зависимости между коэффициентами и т.д.)
Данные: Синтетические данные и тесты.
Литература:
- Зайцев А.А., Стрижов В.В., Токмакова А.А. Оценка гиперпараметров регрессионных моделей методом максимального правдоподобия // Информационные технологии, 2013, 2 — 11-15.
- Kuznetsov M.P., Tokmakova A.A., Strijov V.V. Analytic and stochastic methods of structure parameter estimation // Preprint, 2015.
- Адуенко А. А. Презентация по Evidence, 2015. aduenko_presentation_russian.pdf
- Bishop C. M. Pattern Recognition and Machine Learning, pp. 161-172, 2006.
Базовой алгоритм: Оценка диагональной матрицы, см. папку MLAlgorithms/HyperOptimization.
Решение:
Новизна: Предложен быстрый алгоритм получения оценок ковариационной матрицы общего вида для нелинейных моделей, исследованы свойства разреженных матриц.
Консультант: Александр Адуенко.

Задача 6

Название: Прогнозирование четвертичных структур белков: нивелирование
Задача: Задача заключается в предсказании упаковки белковых молекул в мультимерный комплекс в приближении жестких тел. Одна из формклировок задачи записывается как невыпуклая оптимизация.

Нужно исследовать эту формулировку и предложить алгоритм решения.

Suppose we have $N$ proteins in an assembly, such that each protein $i$ can be located in one of $P$ positions $x_{p}^{i}$ . $N$ is ~ 10, $P$ ~ 100. To each two vectors $x_{i}^{p}$ and $x_{j}^{q}$ , we can assign an energy function $q_{0}$ , which is the overlap integral in the simplest approximation. Each protein position also has an associated score $b_{0}$ . Thus, the optimal packing problem can be formulated as

$\begin{align} x^{T}Q_{0}x+b_{0}^{T}x &\rightarrow& \textrm{min}\\ \textrm{w.r.t}. &&\left\Vert x^{k}\right\Vert _{\infty}=1\;\forall k \\ && x_{i}^{k}\geq0\;\forall i,k \end{align}$

Данные: Собираются при помощи одного из стандартных комплексов решенных при помощи электронной микроскопии. Значения энергий и интегралов перекрытия вычисляются при помощи модификации одного из стандартных пакетов, например, HermiteFit. Данные генерируются за ~ 1 минуту, модификация кода и подготовка данных займет ~ 1 неделю.
Литература: Ю.Е. Нестеров Введение в выпуклую оптимизацию (доступна на сайте PreMoLab)
Замечания по коду: Замечания по программной реализации
Базовый алгоритм: Хочется попробовать выпуклые релаксации.
Новизна: Выпуклые релаксации не применялись ранее в таких задачах на данных белков
Консультант: Ю.В. Максимов

Задача 8

Название: Структурное обучение при порождении моделей
Задача: Решается задача поиска ранжирующей функции в задачах информационного поиска. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой вида G: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных и параметров {x, y, k}. Предлагается решать задачу порождения ранжирующей модели в два этапа, используя в качестве обучающей выборки историю восстановления структуры модели.
Данные: Подколлекции TREC.
Описание коллекции данных, используемых для оценки функций, и процедуры оценки. [124]
Литература
- Jaakkola T. Scaled structured prediction.
- Tommi Jaakkola “Scaling structured prediction”
- Найти все работы учеников TJ по данной тематике.
- Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
Базовой алгоритм: Парантапа, BM25 - модели для сравнения.
Решение: Предлагается кластеризовать коллекцию и породить модели для кластеров документов. Затем методом структурного обучения найти модели, обобщающие объединения кластеров вплоть до самой коллекции.
Новизна: Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике.
* Консультант: Анна Варфоломеева, Олег Бахтеев

Задача 9

Название: Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» и оценка качества электрокардиограмм.
Задача: Решается задача проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» [1—4] на основе сравнения электрокардиограмм (ЭКГ) одних и тех же пациентов, зарегистрированных обоими приборами по схеме АВАВ, где А – первый прибор, В – второй. Также решается задача автоматического выявления некачественных электрокардиограмм, не удовлетворяющих требованиям диагностической системы.
Данные: Выборка состоит из записей со значениями ЭКГ, зарегистрированными прибором, для которого проводится проверка, и прибором, используемым в системе диагностики «Скринфакс» (данные с подробным описанием формата записей будут предоставлены выбравшему задачу). Для тестирования алгоритмов обнаружения R-пиков и оценивания уровня шума можно использовать http://www.physionet.org/physiobank/database/ptbdb/
Литература:
1. Информационный портал Диагностической системы «Скринфакс». URL: http://skrinfax.ru/автор-метода/
2. Технология информационного анализа электрокардиосигналов
3. Успенский В.М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. М.: Экономика и информатика, 2008. 116с.
4. Успенский В.М. Информационная функция сердца. // Клиническая медицина. 2008. Т.86. №5. С.4–13.
5. Naseri H., Homaeinezhad M.R. Electrocardiogram signal quality assessment using an artificially reconstructed target lead // Computer Methods in Biomechanics and Biomedical Engineering. 2015. Vol.18, No. 10. Pp. 1126-1141.
6. Zidelmal Z., Amirou A., Ould-Abdeslam D., Moukadem A., Dieterlen A. QRS detection using S-Transform and Shannon energy. // Comput Methods Programs Biomed. 2014. Vol. 116, No. 1. Pp. 1-9. URL: https://yadi.sk/i/-kD00y1VepB3q
7. Sarfraz M., Li F. F., Khan A. A. Independent Component Analysis Methods to Improve Electrocardiogram Patterns Recognition in the Presence of Non-Trivial Artifacts // Journal of Medical and Bioengineering. 2015. Vol. 4, No. 3. Pp. 221—226. URL: https://yadi.sk/i/-kD00y1VepB3q
8. Meziane N. et al. Simultaneous comparison of 1 gel with 4 dry electrode types for electrocardiography // Physiol. Meas. 2015. Vol. 36, No. 513.
9. Allana S., Aversa J., Varghese C., et al. Poor quality electrocardiograms negatively affect the diagnostic accuracy of ST segment elevation myocardial infarction. // J Am Coll Cardiol. 2014. Vol. 63, No. 12_S. doi:10.1016/S0735-1097(14)60172-8.
Базовой алгоритм: Оценивание качества ЭКГ – [4], обнаружение R-пиков – [5], оценивание уровня шума в данных – [6].
Решение: Задачу проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» предлагается решать путем построения перестановочных статистических тестов по сравнению значений RR-интервалов и R-амплитуд и выявленных кодовых последовательностей (вычисляются по амплитудам и интервалам) для каждого заболевания. Здесь возникает задача обнаружения R-пиков. В задаче обнаружения некачественных электрокардиограмм возникает задача оценивания уровня шума. Кроме того, необходимо научиться отсеивать ЭКГ с неинформативными значениями амплитуд или большим разбросом значений интервалов, поскольку методика анализа электрокардиосигналов неприменима к диагностике аритмии.
Новизна: Задачу проверки соответствия электрокардиографа требованиям диагностической системы можно рассматривать как задачу сравнения приборов регистрации ЭКГ, возникающей, например, при сравнении различных видов электродов, и в качестве критериев выбираются уровень шума в значениях электрокардиосигналов, наличие дрейфа базовой линии и некоторые другие признаки [7].
Консультант: Ишкина Шаура

Задача 12

Название: Обучение метрик в задачах полного и частичного обучения
Задача: состоит в программной реализации комплекса методов выпуклой и DC-оптимизации для задачи выбора оптимальной метрики в задачах распознавания. Иными словами, в построении метрики такой, что классификация методом ближайших соседей дает высокую точность.
Данные: Birds и Fungus коллекции ImageNet с извлеченными Deep features(предоставляется консультантом). Первичные тесты можно проводить на данных представленных здесь
Литература: Список литературы и описание подробное задачи приведены в файле
Замечания к коду: Замечания по программной реализации
Базовый алгоритм: 1) выпуклая релаксация задачи решаемая внутренней точкой через CVX 2) SVM на модифицированной выборке, состоящей из пар объектов
Консультант: Ю.В. Максимов

Задача 13

Название: Построение иерархической тематической модели крупной конференции
Задача: Ежегодно, программный комитет крупной конференции EURO (более 2000 докладов) сталкивается с задачей построения иерархической модели тезисов конференции. В силу того, что структура конференции слабо меняется из года в год, предлагается построить тематическую модель будущей конференции, используя экспертные модели конференций прошлых лет. При этом возникают следующие подзадачи:

Классификация тезисов новой конференции.
Прогнозирование изменений структуры конференции.

Данные: Тезисы и экспертные модели конференций EURO 2010, 2012, 2013.
Литература: Alexander A. Aduenko, Arsentii A. Kuzmin, Vadim V. Strijov. Adaptive thematic forecasting of major conference proceedings текст статьи
Базовой алгоритм:
Решение: Для решения подзадач

предлагается объединить экспертные модели конференций прошлых лет в одну, и для каждого тезиса новой конференции найти в полученной объединенной модели наиболее подходящий кластер, например, с помощью взвешенной косинусной меры близости.
исследовать изменения в структуре конференций из года в год и определить порог значений внутрикластерного сходства, при котором для некоторого набора тезисов эксперты создают новый кластер, а не добавляют эти тезисы в уже существующие кластеры.

Новизна: Взвешенная косинусная мера близости, учитывающая иерархичность структуры кластеров. Прогнозирование изменений иерархической структуры/тематики конференции
Консультант: Арсентий Кузьмин

Задача 14

Название: Регуляризация линейного наивного байесовского классификатора.
Задача: Построение линейного классификатора является одной из классических и самых хорошо изученных задач машинного обучения. Линейный наивный байесовский (LNB) классификатор имеет сильное преимущество — он строится за время, линейное по длине выборки, и сильное ограничение — при его выводе предполагается, что признаки независимы. На некоторых данных LNB работает удивительно хорошо, несмотря на явное нарушение гипотезы о независимости признаков. Линейная машина опорных векторов (SVM) считается очень успешным методом, но на больших выборках работает долго. Оба эти метода работают в одном и том же пространстве линейных классификаторов. Идея исследования состоит в том, чтобы путём незначительных поправок LNB приблизить его к SVM по качеству, но без утраты эффективности.
Данные: Один из трёх наборов данных, по выбору: классификация текстов на научные и ненаучные, классификация авторефератов по областям науки, классификация кодограмм ЭКГ на больных и здоровых.
Литература:
1. Larsen (2005) Generalized Naive Bayes Classifiers.
2. Abraham, Simha, Iyengar (2009) Effective Discretization and Hybrid feature selection using Naïve Bayesian classifier for Medical datamining.
3. Lutu (2013) Fast Feature Selection for Naive Bayes Classification in Data Stream Mining.
4. Zaidi, Carman, Cerquides, Webb (2014) Naive-Bayes Inspired Effective Pre-Conditioner for Speeding-up Logistic Regression.
5. + спросить у К.В.Воронцова.
Базовой алгоритм: любые готовые реализации LNB и SVM. Плюс наивный отбор признаков для LNB.
Решение: Выводим поправочные формулы для весов LNB при использовании margin-maximization регуляризатора, аналогичного SVM. Строим итерационный процесс, в котором на каждом шаге вычисляется поправка, ещё немного приближающая LNB к SVM. Строятся ROC-кривые и зависимости Hold-out AUC от номера итерации.
Новизна: Сообщество ML до сих пор не осознало, что любой линейный классификатор эквивалентен какому-то наивному байесовскому.
Консультант: Михаил Усков. Гиперконсультант: К.В.Воронцов.

Планы на следующий год:

Расширить тест по матлабу и давать его вместе с пробным программированием в качестве первого задания.

2014

Автор	Тема научной работы	Ссылка	Консультант	ДЗ-1	Буквы	Сумма	Оценка
Газизуллина Римма	Прогнозирование объемов железнодорожных грузоперевозок по парам веток	[125], pdf	Стенина Мария	$\frac{15}{15}+\frac{10}{16}$	[MF]TAI+L+SBR+CV+T>DEH(J)	16	10
Гринчук Алексей	Выбор оптимальных структур прогностических моделей методами структурного обучения	[126], pdf	Варфоломеева Анна	$\frac{7}{15}+\frac{2}{16}$	[F]TA+I+LSBR+СV+T+D+E(F)	14,5	9
Гущин Александр	Последовательное порождение существенно нелинейных моделей в задачах ранжирования документов	[127], pdf	Кузнецов Михаил	$\frac{5}{15}+\frac{2}{16}$	[F]TAI+L+SBRCVTDEHS(F)	15,5	9
Ефимова Ирина	Дифференциальная диагностика заболеваний по электрокардиограмме	[128], pdf	Целых Влада	$\frac{15}{15}+\frac{12}{16}$	[MF]T+A+I+L+SB++R+CV+TDE+H(J ed)	17,25	10
Жуков Андрей	Построение рейтингов вузов: панельный анализ и оценка устойчивости	[129], pdf	Кузнецов Михаил	$\frac{8}{15}+0$	[F]TAIL+SBRCVTDEHS(F)	15,25	9
Игнатов Андрей	Обучение многообразий для прогнозирования наборов квазипериодических временных рядов	[130], pdf	Ивкин Никита	$0+\frac{7}{16}$	[MF]TA+I+L+S+B+R+C+VTD>E+HS (J if ed)	18	10
Карасиков Михаил	Поиск эффективных методов снижения размерности при решении задач мультиклассовой классификации путем её сведения к решению бинарных задач	[131], pdf	Ю.В. Максимов	$0+0$	[MF]TAI+L+SBRC+V+TDESH(J)	15	10
Кулунчаков Андрей	Обнаружение изоморфных структур существенно нелинейных прогностических моделей	[132], pdf	Сологуб Роман, Кузнецов Михаил	$\frac{10}{15}+\frac{14}{16}$	[F]T+AI+L+S+BR+CVT++D+EHS(J ed-ed)	17	10
Липатова Анна	Обнаружение закономерностей в наборе временных рядов методами структурного обучения	[133], pdf	А. П. Мотренко	$\frac{8}{15}+\frac{6}{16}$	[MF]TA+I+LSBR-CVTDE (J when ed)	14,25	10
Макарова Анастасия	Использование нелинейного прогнозирования при поиске зависимостей между временными рядами	[134], pdf	Мотренко Анастасия	$0+0$	[F]TAI-LSB+R-CVTD>E>(F)	12,75	9
Плавин Александр	Оптимизация числа тем в вероятностных тематических моделях с помощью регуляризатора строкового разреживания	[135], pdf	Потапенко Анна	$\frac{13}{15}+\frac{14}{16}$	[F]T+A+I+L+S+BR++CVTD+>>(?)	14	10
Попова Мария	Выбор оптимальной модели прогнозирования физической активности человека по измерениям акселерометра	[136], pdf	Токмакова Александра	$\frac{11}{15}+\frac{6}{16}$	[MF]T+AI+L++SB++R+CV+TD+(JV ed)	15,25	10
Швец Михаил	Интерпретация мультимоделей при обработке социологических данных	[137], pdf	Адуенко Александр	$\frac{11}{15}+\frac{4}{16}$	[M+F]T+A+I+L+S+B+R+CVTD+E(F)	16,25	9
Шинкевич Михаил	Влияние регуляризаторов разреживания, сглаживания и декорреляции на устойчивость вероятностной тематической модели	[138], pdf	Дударенко Марина	$\frac{15}{15}+\frac{9}{16}$	[MF]T+AIL+S+BR+CV+T+D+E+H(J ed)	17	10

1. Оптимизация числа тем в вероятностных тематических моделях с помощью регуляризатора строкового разреживания

Консультант: А.А. Потапенко

Задача: Вероятностная тематическая модель описывает вероятности появления слов $w\in W$ в документах $d\in D$ через латентные темы $t\in T$ :

$p(w|d) = \sum_{t\in T} p(w|t)p(t|d) = \sum_{t\in T} \phi_{wt}\theta_{td}.$

Требуется проверить гипотезу, что, накладывая ограничения на матрицу $\Theta$ с помощью регуляризатора строкового разреживания, возможно определить оптимальное число тем.

Данные: Коллекция документов задаётся частотами слов. Поскольку для решения задачи необходимо знать <<истинное>> число тем, эксперименты производятся на реалистичных модельных или полумодельных данных.

Литература:

Описание задачи и предлагаемые пути решения
Воронцов К. В. Аддитивная регуляризация тематических моделей коллекций текстовых доку-

ментов // Доклады РАН. 2014. — Т. 455, №3 (в печати).

Воронцов К. В. Вероятностное тематическое моделирование. — 2014.

http://www.MachineLearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf

Teh Y. W., Jordan M. I., Beal M. J., Blei D. M. Hierarchical Dirichlet processes // Journal of the

American Statistical Association. — 2006. — Vol. 101, no. 476. — Pp. 1566–1581.

Базовый алгоритм: Для решения оптимизационной задачи используется регуляризованный EM-алгоритм [2014: Воронцов]. Может быть использована рациональная, стохастическая или онлайновая версия EM-алгоритма.

Новизна: Для оптимизации числа тем обычно используется модель иерархического процесса Дирихле HDP [2006: Teh et Al]. Она определяет число тем неустойчиво, и при этом сложна как для понимания, так и для реализации. Аддитивная регуляризация тематических моделей (ARTM) --- это новый подход к тематическому моделированию, сочетающий универсальность, гибкость и простоту. Задача оптимизации числа тем ещё не рассматривалась в рамках ARTM.

2. Дифференциальная диагностика заболеваний по электрокардиограмме

Консультант: В.Р. Целых

Задача: Предлагается решить типичную задачу классификации. Признаками являются 216 характеристик, вычисляемых по электрокардиограмме. Необходимо провести оценку качества классификации по отложенной контрольной выборке. Для этого вычисляются доли ошибок первого и второго рода. Под ошибкой первого рода подразумевается отнесение здоровых к классу больных, второго рода – отнесение больных к классу здоровых. Предпочтение отдается минимизации ошибок второго рода.

Данные: Для каждой из 5 болезней есть 2 типа выборок. Эталонные – более надежные, специально отобранные случаи. Остальные – случаи, когда диагнозы устанавливались врачами менее надежно, эти выборки предлагается использовать для контроля.

Литература:

Воронцов К. В. Метрические алгоритмы классификации. Лекции по машинному обучению. — 2014. http://www.MachineLearning.ru/wiki/images/c/c3/Voron-ML-Metric-slides.pdf
Успенский В. М. Информационная функция сердца // Клиническая медицина, 2008. — Т. 86, № 5. — С. 4–13.
Успенский В. М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. — М.: «Экономика и информация», 2008. — 116 с.

Базовый алгоритм: Для решения задачи предлагается использовать метрический алгоритм с жадным отбором признаков.

Новизна: Данные подготовлены по уникальной технологии информационного анализа электрокардиосигналов, разработанной проф. д.м.н. В.М.Успенским. Предложен алгоритм классификации и исследована его обобщающая способность.

3. Влияние регуляризаторов разреживания, сглаживания и декорреляции на устойчивость вероятностной тематической модели

Консультант: М.A. Дударенко

Задача:Вероятностная тематическая модель описывает вероятности появления слов $w\in W$ в документах $d\in D$ через латентные темы $t\in T$ :

$p(w|d) = \sum_{t\in T} p(w|t)p(t|d) = \sum_{t\in T} \phi_{wt}\theta_{td}.$

Представление матрицы $\|p(w|d)\|_{W\times D}$ в виде произведения двух матриц меньшего размера ${\Phi=\|\phi_{wt}\|_{W\times T}}$ и ${\Theta=\|\theta_{dt}\|_{T\times D}}$ не единственно: $\Phi \Theta = (\Phi S)(S^{-1}\Theta) = \Phi'\Theta'$ для некоторых невырожденных $S$ . Требуется проверить гипотезу, что, накладывая ограничения на матрицы $\Phi, \Theta$ с помощью регуляризаторов, возможно повысить устойчивость их восстановления.

Данные: Коллекция документов задаётся частотами слов. Поскольку для решения задачи необходимо знать «истинные» матрицы $\Phi, \Theta,$ эксперименты производятся на реалистичных модельных или полумодельных данных, удовлетворяющих гипотезам разреженности, слабой коррелированности тем и наличия фоновых тем.

Литература:

Воронцов К. В. Аддитивная регуляризация тематических моделей коллекций текстовых документов // Доклады РАН. 2014. — Т. 455, №3 (в печати).
Воронцов К. В. Вероятностное тематическое моделирование. — 2014. http://www.MachineLearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf.

Новизна: Аддитивная регуляризация тематических моделей (ARTM) предложена в [2014: Воронцов] как универсальный способ повышения устойчивости и интерпретируемости тематических моделей. Однако вопрос о том, какое именно сочетание регуляризаторов повышает устойчивость, пока остаётся открытым. Данное исследование направлено на решение этой проблемы.

4. Построение рейтингов вузов: панельный анализ и оценка устойчивости

Консультант: М.П. Кузнецов

Задача: Рейтинг вуза изменяется от года к году. Это изменение может быть вызвано плохим качеством методики подсчета рейтинга, случайными изменениями в показателях вуза и целенаправленным изменением состояния вуза. Требуется предложить такую устойчивую к случайным изменениям методику рейтингования, которая бы позволяла интерпретировать изменение состояния вуза.

Данные: Данные по ста ведущим мировым университетам за восемь лет.

Литература:

Стрижов В.В. Уточнение экспертных оценок с помощью измеряемых данных // Заводская лаборатория. Диагностика материалов, 2006, 72(7) — 59-64.
Стрижов В.В. Уточнение экспертных оценок, выставленных в ранговых шкалах, с помощью измеряемых данных // Заводская лаборатория. Диагностика материалов, 2011, 77(7) — 72-78.
Kuznetsov M.P., Strijov V.V. Methods of expert estimations concordance for integral quality estimation // Expert Systems with Applications, 2014.
Черновик статьи POF по запросу.

Базовой алгоритм: Методика построения рейтинга RUR и один из избыточно устойчивых алгоритмов для ранговых шкал.

Новизна: Введено понятие интерпретируемости изменения позиции рейтинга. Решена задача выбора и оптимальной локально-монотонной коррекции показателей. Предложена методика построения рейтинга, позволяющевого интерпретировать изменение состояния вуза с целью мониторинга. Вариант: решена обратная задача управления: как изменить показатели вуза, чтобы достичь заданной цели.

5. Обнаружение закономерностей в наборе временных рядов методами структурного обучения

Консультант: А.П. Мотренко

Задача: Для повышения качества прогноза временных рядов хочется использовать экспертные высказывания о наличии причинно-следственной связи между событиями. Для этого необходимо уметь оценивать достоверность экспертных высказываний. Доказать наличие причинно-следственной связи статистическими методами невозможно. Исследователь может лишь проверить наличие определенной структуры связи. Целью задачи является, опираясь на экспертные высказывания о наличии связи между событиями, исследовать временные ряды на наличие различных структурных связей и найти структуру, наиболее согласованную с мнением эксперта.

Литература:

R. B. Kline, Principles and Practice of Structural Equation Modeling. New York: Guilford. 2005.
J. Pearl, Graphs, Causality and Structural Equation Models. Sociological Methods and Research, 27-2(1998), 226-284.
J. Pearl, E. Bareinboim, Transportability of Causal and Statistical Relations: A Formal Approach // Proceedings of the 25th AAAI Conference on Artificial Intelligence, August 7-11, 2011, San Francisco. 247-254
Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 505-518.
Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. 2012. T. 1, № 4. C. 448-465.

Базовой алгоритм: моделирование структурных уравнений, SEM

Новизна: Предложен метод оценки достоверности экспертных высказываний о влиянии биржевых цен на основные инструменты на объем железнодорожных грузоперевозок. Предложены различные структуры связей между временными рядами. Введено понятие сложности структуры. Исследована связь между сложностью структуры и оценкой достоверности высказывания.

18. Использование нелинейного прогнозирования при поиске зависимостей между временными рядами

Консультант: А.П. Мотренко

Задача: (Как часть исследования, посвященного обнаружению закономерностей в наборах временных рядов) Предлагается отказаться при поиске зависимостей между временными рядами от стандартных предположений о стационарности временного ряда и исследовать временные ряды с точки зрения теории динамических систем, в рамках которой рассматриваются нерегулярные временные зависимости, определенные структурой фазового пространства. Требуется изучить набор подходов к анализу динамических данных и выявлению связей между ними; описать границы применимости базового алгоритма и предложить новые варианты выявляемых структурных связей. Данные: Синтетические данные, исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.

Литература:

Tools for the Analysis of Chaotic Data. HENRY D. I. ABARBANEL
Nonlinear forecasting as a way of distinguishing chaos from measurement error in time series, G. Sugihara, R.M. May.
George Sugihara et al. Detecting Causality in Complex Ecosystems. Science 338, 496 (2012);
Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 505-518.
Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. 2012. T. 1, № 4. C. 448-465.

Базовой алгоритм: convergent cross mapping

Новизна: Предложены различные структуры связей между временными рядами и метод проверки наличия связей

6. Последовательное порождение существенно нелинейных моделей в задачах ранжирования документов

Консультант: М.П. Кузнецов

Задача: Предложить и протестировать на тестовых и реальных данных алгоритм порождения существенно нелинейных моделей. Алгоритм должен порождать 1) полный набор моделей 2) выбирать оптимальный шаг для фиксированной структуры модели (добавление элемента суперпозиции).

Данные: Синтетические данные, данные по текстовым коллекциям LIG.

Литература:

Goswami P., Moura1 S., Gaussier E., Amini M.R. Exploring the Space of IR Functions //
Рудой Г.И., Стрижов В.В. Алгоритмы индуктивного порождения суперпозиций для аппроксимации измеряемых данных // Информатика и её применения, 2013, 7(1) — 17-26.
Рудой Г.И., Стрижов В.В. Упрощение суперпозиций элементарных функций при помощи преобразований графов по правилам // Интеллектуализация обработки информации. Доклады 9-й международной конференции, 2012 — 140-143.
Vladislavleva E.,Smith G., Hertog D., Order of Nonlinearity as a Complexity Measure for Models Generated by Symbolic Regression via Pareto Genetic Programming // IEEE Transactions on Evolutionary Computation, 2009. Vol. 13(2). Pp. 333-349.
Vladislavleva E. Model-based Problem Solving through Symbolic Regression via Pareto Genetic Programming: PhD thesis, Tilburg University, Tilburg, the Netherlands, 2008.

Базовой алгоритм: Алгоритм полного перебора допустимых суперпозиций порождающих функций.

Новизна: Предложен алгоритм последовательного добавления элементы суперпозиций. Предложена функция расстояния между суперпозициями, исследованы ее свойства. Введено понятие сложности суперпозиции и понятие смежных суперпозиций, отличающихся по сложности на единицу. Предложен алгоритм порождения смежных суперпозиций.

7. Обнаружение изоморфных структур существенно нелинейных прогностических моделей

Консультант: Р.А. Сологуб, М.П. Кузнецов

Задача: Развить алгоритм поиска изоморфных подграфов для деревьев (вариант - для ориентированных ациклических графов). Сравнить сложность алгоритма проверки изоморфности двух суперпозиций для предлагаемого алгоритма и для алгоритма поэлементного сравнения отображений.

Данные: Данные по биржевым опционам: зависимость волатильности опциона от цены и времени его исполнения.

Литература:

Рудой Г.И., Стрижов В.В. Алгоритмы индуктивного порождения суперпозиций для аппроксимации измеряемых данных // Информатика и её применения, 2013, 7(1) — 17-26.
Рудой Г.И., Стрижов В.В. Упрощение суперпозиций элементарных функций при помощи преобразований графов по правилам // Интеллектуализация обработки информации. Доклады 9-й международной конференции, 2012 — 140-143.
Ehrig H., Ehrig G., Prange U.,Taentzer. G. Fundamentals of Algebraic Graph Transformation. Springer, 2006.
Ehrig H., Engels G. Handbook of Graph Grammars and Computing by Graph Transformation. World Scientific Publishing, 1997.
Стрижов В.В., Сологуб Р.А. Индуктивное порождение регрессионных моделей предполагаемой волатильности для опционных торгов // Вычислительные технологии, 2009, 14(5) — 102-113.

Базовой алгоритм: Алгоритм поэлементного сравнения отображений.

Новизна: Предложен быстрый алгоритм упрощения суперпозиций и поиска изоморфных моделей. Используется матрица инцидентности набора порождающих функций.

8. Построение прогностических моделей как суперпозиций экспертно-заданных функций

Консультант: Н.П. Ивкин

Задача: Требуется отнести набор временных рядов к одному из нескольких классов. Предлагается это сделать с помощью процедуры автоматизированного порождения признаков. Для этого экспертно создается набор порождающих функций, которые 1) преобразуют временной ряд (например, сглаживают, раскладывают по главным компонентам), 2) извлекают из временного ряда его агрегированные описания (например, среднее, дисперсию, число экстремумов). Возможно порождение значительного количества признаков путем построения суперпозиций порождающих функций. Полученные признаки используются для классификации набора временных рядов (например, методом ближайших соседей).

Данные: данные с акселерометра мобильного телефона.

Литература:

Постановка задачи \MLAlgorithms\Group074\Kuznetsov2013SSAForecasting\doc
Хайкин С. Нейронные сети. Вильямс, 2006.

Базовой алгоритм: нейронная сеть (вариант: нейронная сеть глубокого обучения).

Новизна: Предложен способ извлечения признаков с помощью автоматически построенных суперпозиций экспертно-заданных функций.

Сравнение структурной и топологической сложности в задачах классификации.

9. Обучение многообразий для прогнозирования наборов квазипериодических временных рядов

Консультант: Н.П. Ивкин

Задача: Решается задача классификации человеческой активности на основании данных с акселерометра мобильного телефона. Данные с акселерометра представляются квазипериодическими временными рядами. Требуется отнести временной ряд к одному из видов активности: бег, ходьба и др. Для решения задачи классификации рядов предлагается метод на основе ближайших соседей в пространстве многообразий.

Данные: данные с акселерометра мобильного телефона.

Литература:

Mi Zhang; Sawchuk, A.A., "Manifold Learning and Recognition of Human Activity Using Body-Area Sensors," Machine Learning and Applications and Workshops (ICMLA), 2011 10th International Conference on , vol.2, no., pp.7,13, 18-21 Dec. 2011

Базовой алгоритм: нейронная сеть

Новизна: предложен способ классификации квазипериодических временных рядов на основе многообразий

10. Интерпретация мультимоделей при обработке социологических данных

Консультант: А.А. Адуенко

Задача: Задача кредитного скоринга заключается в определении уровня кредитоспособности заемщика, подавшего заявку на кредит. Для этого используется анкета заемщика, содержащая как числовые данные (возраст, доход, время проживания в стране), так и категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли кредит рассматриваемый клиент. Таким образом, требуется решить задачу классификации. Так как данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), данные могут описываться не одной, а несколькими моделями. В данной работе предлагается сравнить два метода построения мультимоделей: смеси логистических моделей и градиентный бустинг.

Данные: данные по потребительским кредитам (\mlalgorithms\BSThesis\Aduenko2013\data).

Литература:

смеси моделей (\mlalgorithms\BSThesis\Aduenko2013\doc, Bishop)
бустинг (лекция «Композиционные методы классификации и регрессии» Воронцова)

Базовой алгоритм: бустинг.

Новизна: Выявление и объяснение сходств и различий решений, полученных двумя указанными алгоритмами.

11. Выбор оптимальных структур прогностических моделей методами структурного обучения

Консультант: А.А. Варфоломеева

Задача: Предлагается решать задачу прогнозирования в два этапа: сначала по историям построения успешных прогнозов восстанавливается структура прогностической модели. Затем параметры модели оптимизируются; с помощью модели строится прогноз временного ряда.

Данные: синтетическая выборка, биомедицинские временные ряды, результаты измерений акселерометра.

Литература:

Jaakkola T. Scaled structured prediction.
URL: http://video.yandex.ru/users/ya-events/view/486/user-tag/научный%20семинар/
Найти все работы учеников TJ по данной тематике.
Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva

Базовой алгоритм: алгоритм метапрогнозирования, описанный в дипломной работе.

Новизна: Предложен метод восстановления структур моделей с использованием априорных предположений об этих структурах.

12. Инварианты при прогнозировании квазипериодических рядов

Консультант: А.А. Кузьмин

Задача: Решается задача почасового прогнозирования цен/потребления электроэнегрии на сутки вперед. При построении матрицы плана предлагается использовать не исходный отрезок временного временной ряда, а его инвариантное представление.

Данные: почасовые данные о ценах и объема потребления электроэнергии (вставить ссылку).

Литература:

Сандуляну Л.Н., Стрижов В.В. Выбор признаков в авторегрессионных задачах прогнозирования // Информационные технологии, 2012, 7 — 11-15.
(взять из последней статьи Фадеева)

Базовой алгоритм: авторегрессионное прогнозирование, описанное в работе Сандуляну.

Новизна: Предложен алгоритм совместной оценки параметров инвариантов и авторегрессионной модели, позволяющий существенно повысить точность прогнозирования.

13. Прогнозирование объемов железнодорожных грузоперевозок по парам веток

Консультант: М.М. Стенина (Медведникова)

Задача: Спрогнозировать объемы перевозок с ветки на ветку, сравнить с базовым алгоритмом прогноза отправления вагонов с ветки. Проверить гипотезу о том, что прогноз перевозок с ветки на ветку точнее, чем прогноз при помощи базового алгоритма. Исследовать ряды на тренд/периодичность. Если тренд/периодичность есть, то включить в модель. Подготовить алгоритм прогнозирования для использования.

Данные: посуточные данные за полтора года о перевозках 38 типов грузов по Омской области.

Литература:

Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. — 2012. — № 4.

Базовый алгоритм: гистограммное прогнозирование, описанное в статье.

Новизна: предлагается повысить качество прогноза путем разделения данных на меньшие части и прогнозирования перевозок по конкретным веткам вместо прогноза отправления вагонов.

14. Выбор оптимальной модели прогнозирования физической активности человека по измерениям акселерометра

Консультант: А.А. Токмакова

Задача: Предложить алгоритм последовательной модификации нейронной сети. Цель - найти наиболее простую, устойчивую и точную конфигурацию сети, позволяющую решить задачу двухклассового (вариант: многоклассового) прогнозирования физической активности.

Данные: Набор временных рядов измерений акселерометра.

Литература:

Прореживание нейронных семей на сайте Machinelearning.ru.
Хайкин С. Нейронные сети. Вильямс, 2006.

Базовой алгоритм: Optimal Brain Damage/Optimal Brain Surgery.

Новизна: Предложен способ последовательного порождения нейронных сетей оптимальной сложности. Исследована устойчивость порождаемых моделей.

15. Метапрогнозирование временных рядов

Консультант: А.С. Инякин, Н.П. Ивкин

Задача: Задан набор алгоритмов прогнозирования временных рядов. По предъявленному временному ряду требуется указать алгоритм, который доставляет наиболее точный прогноз. При этом сам алгоритм выполнять не предполагается. Для решения этой задачи предлагается построить набор признаков, описывающих временной ряд Экспертно создается набор порождающих функций, которые 1) преобразуют временной ряд (например, сглаживают, раскладывают по главным компонентам), 2) извлекают из временного ряда его агрегированные описания (например, среднее, дисперсию, число экстремумов). Возможно порождение значительного количества признаков путем построения суперпозиций порождающих функций.

Данные: Библиотека квазипериодических и апериодических временных рядов

Литература:

Кузнецов М.П., Мафусалов А.А., Животовский Н.К., Зайцев Е., Сунгуров Д.С. Сглаживающие алгоритмы прогнозирования // Машинное обучение и анализ данных. 2011. T. 1, № 1. C. 104-112.
Фадеев И.В., Ивкин Н.П., Савинов Н.А., Корниенко А.И., Кононенко Д.С., Джамтырова Р.Б. Авторегрессионные алгоритмы прогнозирования // Машинное обучение и анализ данных. 2011. T. 1, № 1. C. 92-103.

Базовой алгоритм: Использовать алгоритм SAS/SPSS.

Новизна: Предложен метод быстрого выбора оптимального прогностического алгоритма по описанию временного ряда.

16. Идентификация человека по изображению радужной оболочки глаза

Консультант: И.А. Матвеев

Задача: В проблеме идентификации человека по изображению радужной оболочки глаза (радужке) важнейшую роль играет выделение области радужки на исходном снимке (сегментация радужки). Однако, изображение радужки как правило частично закрыто (затенено) веками, ресницами, бликами, то есть часть радужки не может быть использована для распознавания и более того, использование данных с затенённых участков может порождать ложные признаки и снижать точность. Поэтому одним из важных этапов сегментации изображения радужки является отбраковка затенённых участков.

Данные: растровое монохромное изображение, типичный размер 640*480 пикселей (однако, возможны и другие размеры) и координаты центров и радиусы двух окружностей, аппроксимирующих зрачок и радужку.

Литература:

Описание задачи и предлагаемые пути решения
Monro D. University of Bath Iris Image Database // http:// www.bath.ac.uk/ elec-eng/ research/ sipg/ irisweb/
Chinese academy of sciences institute of automation (CASIA) CASIA Iris image database // http://www.cb-sr.ia.ac.cn/IrisDatabase.htm, 2005.
MMU Iris Image Database: Multimedia University // http:// pesonna.mmu.edu.my/ ccteo/
Phillips P.J., Scruggs W.T., O’Toole A.J. et al. Frvt2006 and ice2006 large–scale experimental results // IEEE PAMI. 2010. V. 32. № 5. P. 831–846.
G.Xu, Z.Zhang, Y.Ma Improving the performance of iris recogniton system using eyelids and eyelashes detection and iris image enhancement // Proc. 5Th Int. Conf. Cognitive Informatics. 2006. P.871-876.

Базовый алгоритм: метод, использующий скользящее окно и текстурные признаки [2006: Xu, Zhang, Ma].

Новизна: построена маска открытой области радужки.

17. Поиск эффективных методов снижения размерности при решении задач мультиклассовой классификации путем её сведения к решению бинарных задач

Консультант: Ю.В. Максимов

Задача: Исследовать различные подходы к решению задач классификации с многими классами и сравнить их эффективность.

Данные: Данные с различным числом классов. 0. Toy example: Shuttle dataset. http://archive.ics.uci.edu/ml/datasets/Statlog+(Shuttle). Маленькая выборка, 7 классов. Не надо делать подготовку данных. 1. Текстовые данные коллекции Reuters http://www.daviddlewis.com/resources/testcollections/reuters21578/. 2. Данные нашего конкурса Kaggle от LIG http://www.kaggle.com/c/lshtc

Литература:

Описание задачи и предлагаемые пути решения
Xia lecture. http://courses.washington.edu/ling572/winter2012/slides/ling572_class13_multiclass.pdf
Rifkin lecture http://www.mit.edu/~9.520/spring08/Classes/multiclass.pdf
Tax, Duin. Using two-class classiﬁers for multiclass classiﬁcation. Pattern Recognition, 2002. Proceedings. 16th International Conference on (Volume:2). http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.19.7063&rep=rep1&type=pdf
Dietterich, Bakiri. Solving Multiclass Learning Problems via Error-Correcting Output Codes. 1995. http://arxiv.org/pdf/cs/9501101
Allwein, Schapire, Singer. Reducing Multiclass to Binary:A Unifying Approach for Margin Classiﬁers. Journal of Machine Learning Research 1 (2000) 113-141. http://machinelearning.wustl.edu/mlpapers/paper_files/AllweinSS00.pdf

Базовые алгоритмы: SVM с различными ядрами, Adaboost. Базовые подходы: one vs all(combined), one vs one(uncombined)

Домашнее задание-2: пробное программирование

Задача	Кто делает	Номер
Дана выборка "Вина различных регионов". Требуется определить кластеры (регионы происхождения вин) и нарисовать результат: цветной точкой обозначен объект кластера; цветным кружком обозначен класс этого объекта, взятый из выборки. Вариант задания: определить число кластеров. Вариант задания: использовать два алгоритма, например k-means и EM, и показать сравнение результатов кластеризации на графике.	Плавин	1
Предложить способы визуализации наборов четырехмерных векторов, например для Fisher's iris data.	Записать свою фамилию тут.	2
Дан временной ряд, описывающий потребление электричества. Приблизить ряд несколькими криволинейными моделями и нарисовать спрогнозированные и исходный ряды на одном графике.	Кулунчаков Андрей.	3
Сгладить временной ряд Цены (объемы) на основные биржевые инструменты методом экспоненциального сглаживания. Нарисовать цветные графики сглаженных с различным $\alpha$ рядов и исходного ряда.	Авдюхов	4
Аппроксимация выборки замкнутой кривой [139]: проверить, лежат ли точки на окружности? Сгенерировать данные самостоятельно.	Газизуллина Римма	5
Дан временной ряд с пропусками, например [140]. Предложить способы заполнения пропусков в данных, заполнить пропуски. Для каждого способа построить гистограмму. Вариант: взять выборку без пропусков, удалить случайным образом часть данных, заполнить пропуски, сравнить с гистограммой исходной выборки.	Игнатов Андрей	6
Дана выборка "Вина различных регионов". Выбрать два признака. Рассмотреть различные функции расстояния при классификации с помощью метода ближайшего соседа. Для каждой изобразить результат классификации в пространстве выбранных признаков.	Попова Мария	7
Для различных видов зависимости $y = f(x) + \epsilon$ (линейная, квадратичная, логарифмическая) построить линейную регрессию и нарисовать на графике SSE-отклонения (среднеквадратичные отклонения-?). Данные сгенерировать самостоятельно или взять данные "Цена на хлеб".	Ефимова Ирина	8
Оценить площадь единичного круга методом Монте-Карло. Построить график зависимости результата от размера выборки.	Шинкевич Михаил	9
Построить выпуклую оболочку точек на плоскости. Нарисовать график: точки и их выпуклая оболочка – замкнутая ломаная линия.	Макарова Анастасия	10
Дана выборка: ирисы Фишера. Реализовать процедуру классификации методом решающего дерева. Проиллюстрировать результаты классификации на плоскости в пространстве двух признаков.	Жуков Андрей	11
Задан временной ряд – объемы почасового потребления электроэнергии (выбрать любые два дня). Аппроксимировать ряд полиномиальными моделями различных степеней (1-7). *Предложить метод определения оптимальной степени полинома.	Карасиков Михаил	12
Задано два одномерных временных ряда различной длины. Вычислить расстояние между рядами методом динамического выравнивания.	Гринчук Алексей	13
Сгенерировать набор точек на плоскости. Выделить и визуализировать главные компоненты.	Липатова	14
Аппроксимировать выборку цены на хлеб полиномиальной моделью. Нарисовать график. Пометить объекты, являющиеся выбросами, используя правило трех сигм.	Швец Михаил	15
Разделить выборку ирисы Фишера на кластеры. Проиллюстрировать на графике результаты кластеризации, выделить кластеры разными цветами.	Гущин Александр	16
И еще задания на выбор
Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки).		17
Сгладить временной ряд (см. библиотеку) скользящим средним. Взять несколько окон разной длины и наложить результат на графике друг на друга.	Костюк	18
Дан временной ряд (см. библиотеку). По его вариационному ряду построить гистограмму из $n$ перцентилей, нарисовать ее. Какое значение временного ряда встречается чаще всего?	Гиззатуллин Анвар	19
Показать разницу в скорости выполнения матричных операций и операций в цикле. Можно использовать в качестве примера Сингулярное разложение и другие методы линейной алгебры. Показать эффективность параллельных вычислений (parfor).		20
Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p. Вариант: приблизить полученными полиномами временной ряд цен на хлеб (данные).

2013

Моя первая публикация с кросс-рецензированием

Задачи

Название задачи	Автор	Ссылка	MAIPVTDCHSJ
Определение напечатанного изображения	Пушняков Алексей	[141]	MAIPVTDCHSJ
Сравнение быстрых алгоритмов кластеризации	Катруца Александр	[142]	MAIPVTDCHS
Векторная авторегрессия и управление макроэкономическими показателями	Кащеева Мария	[143]	MAIPVTDCHS
Разметка библиографических записей с помощью логических алгоритмов	Рыскина Мария	[144]	MAIPVTDCHS
Определение точной границы зрачка	Чинаев Николай	[145]	MAIPV.DCHS
Векторная авторегрессия и управление макроэкономическими показателями	Гринчук Олег	[146]	MAIPVTD.HS
Порождение нейронных сетей с экспертно-заданными функциями активации	Перекрестенко Дмитрий	[147]	MAIPVTDСHS
Сравнительный анализ алгоритмов выбора признаков: точность, устойчивость, сложность регрессионных моделей	Яшков Даниил	[148]	MAI.VTD.HS
Инвариантные преобразования в задачах локального прогнозирования	Костин Александр	[149]	MAI.VT..HS
Алгоритм генетического программирования для решения задачи прогнозирования	Воронов Сергей	[150]	MAIPVTDC.S
Группировка номинальных переменных в задачах банковского кредитного скоринга	Митяшов Андрей	[151]	MAIPVTDCHS
Моделирование процесса обучения и забывания при оценке качества производства	Неклюдов Кирилл	[152]	MAI...DC.S
Обзор алгоритмов упрощения алгебраических выражений	Шубин Андрей	[153]	MAIPVTD.S
Алгоритмы переборного поиска наиболее информативных объектов и признаков в логистической регрессии	Ибраимова Айжан	[154]	MAIP.TD...
Интерпретация экспертных оценок видов Красной книги РФ путем отбора эталонных (представительных) объектов	Бырдин Александр	[155]	MAI..TD..S
Визуализация матрицы парных расстояний в тематическом моделировании	Вдовина Евгения	[156]	MAI..TDC.S
Алгоритм оценивания достоверности экспертных суждений о взаимосвязи временных рядов	Антипова Наташа	[157]	MAIP.T...S

Задача 2. Surname2013MassProduction (*eng)

Название. Порождение и оптимизация логических описаний при построении производственных линий.
Проблема. Требуется поставить задачу синтеза допустимых суперпозиций, разработать алгоритм и протестировать его на синтетических данных.
Данные. Требуется создать.
Литература. Нужен поиск (скорее всего немецких публикаций).
Предлагаемый алгоритм. Обсуждается.
Базовый алгоритм. Нет.

Задача 3. Surname2013LearnForget (eng)

Название. Моделирование процесса обучения и забывания при оценке качества производства.
Проблема. Найти адекватную регрессионную модель, описывающую деятельность группы людей.
Данные. Данные по скорости и качеству сборки бумажных самолетиков.
Литература. Нужно искать.
Предлагаемый алгоритм. Процедура анализа регрессионных остатков.
Базовый алгоритм. Регрессионная модель в прилагаемой статье.

Задача 4. Surname2013GeneticProg

Название. Алгоритм генетического программирования для решения задачи прогнозирования.
Проблема. Создать алгоритм генетического программирования, решающий проблемы, названные Иваном Зелинкой. Предложить способ тестирования получаемых моделей, организовать скользящий контроль. Сравнить работу его на тестовом наборе задач с работой других алгоритмов ГП и с нейронными сетями.
Данные. Тестовый набор задач, взять на UCI или на Полигоне.
Литература. Zelinka, Oplatkova, Vladislavleva; найти работы последних лет по этой теме. Особенно по тестированию этих алгоритмов.
Предлагаемый алгоритм. ГП.
Базовый алгоритм. ГП, нейронные сети.

Задача 5. Surname2013Simplify

Название. Обзор алгоритмов упрощения алгебраических выражений.
Проблема. Требуется найти литературу по алгоритмам, упрощающим выражения, сравнить алгоритмы, запрограммировать алгоритм, предложенный в работе Рудой/Стрижов.
Данные. Собрать тестовую коллекцию выражений.
Литература. Graph rewriting.
Предлагаемый алгоритм. Р/С, сравнение алгоритмов.

Задача 6. Surname2013RedListExplanation

Название. Интерпретация экспертных оценок видов Красной книги РФ путем отбора эталонных (представительных) объектов.
Проблема. Отбор эталонных объектов (алгоритм STOLP). Этот алгоритм может быть интересен для экспертов: он быстро находит шумовые объекты, которых в наших терминах считаются противоречащими экспертным данным и "лежащими не в своем классе", а также отбирает эталонные объекты, которые также любопытно интерпретируются. С математической точки зрения интересно, во-первых, понаблюдать за разными метриками (обобщениями расстояния Хэмминга) и, самое главное, надо обобщить формулу отступа (margin) на случай монотонных классов, видимо, введя весовую функцию объектов.
Данные. Экспертные оценки краснокнижных видов.
Литература. Литература по алгоритмам метрической классификации.
Предлагаемый алгоритм. Метод или алгоритм, который сообщает эксперту почему (sic!) объект не попал в предполагаемый экспертом класс.

Задача 7. Surname2013RedListClassification

Название. Алгоритм монотонной классификации объектов, описанных в ранговых шкалах.
Проблема. Применить решающее дерево к экспертным оценкам угрожаемости краснокнижных видов. Сравнить с ранее предложенными алгоритмами. Обосновывать операции с ранговыми признаками, ввести обобщение понятия информативности на случай монотонных классов, видимо, сделать обобщение гипергеометрического распределения.
Данные. Экспертные оценки краснокнижных видов.
Литература. Нужно постараться избежать ссылок на тривиальные источники. Поискать похожие работы в иностранных журналах.

Задача 11. Surname2013Invaraint4LocalForecast

Название. Инвариантные преобразования в задачах локального прогнозирования.
Проблема. Совместить алгоритмы инвариантного преобразования времени и амплитуды прогнозируемых временных рядов.
Данные. Временные ряды измерения пульсовой волны.
Литература. Найти, избежать тривиальных ссылок.

Задача 8. Surname2013PlausibleExpert

Название. Алгоритм оценивания достоверности экспертных суждений о взаимосвязи временных рядов.
Проблема. Исследование взаимосвязи биржевых цен на основные инструменты и железнодорожных грузоперевозок.
Данные. Временные ряды за 1.5 года. Но лучше подобрать синтетический пример.
Литература. Публикации по CCM.
Предлагаемый алгоритм. Модификации ССМ.

Задача 9. Surname2013DeepLearning

Название. Порождение нейронных сетей с экспертно-заданными функциями активации.
Проблема. Требуется поднять современное состояние области DeepLearning, запрограммировать алгоритм, протестировать на задаче прогнозирования объемов потребления и цен на электроэнергию.
Данные. Посуточные данные за три года.
Литература. Deep Learning.
Предлагаемый алгоритм. Построение нейронной сети и оценка ее параметров.

Задача 16. Surname2013ScoringSelection

Название. Алгоритмы переборного поиска наиболее информативных объектов и признаков в логистической регрессии.
Проблема. С помощью генетического алгоритма найти информативные объекты и признаки.
Данные. Данные по потребительским кредитам.
Литература. -

Задача 10. Surname2013ScoringFeatureSelection

Название. Группировка номинальных переменных в задачах банковского кредитного скоринга.
Проблема. Создать генетический алгоритм снижения размерности признакового пространства.
Данные. Исторические данные по кредитам наличностью.
Литература. SAS, найти еще.

Задача 15. Surname2013InverseVAR

Название. Векторная авторегрессия и управление макроэкономическими показателями.
Проблема. Решить обратную задачу прогнозирования. По заданному состоянию экономики задать такое значение управляемых макроэкономических показателей, которое бы привело экономику в желаемое состояние.
Данные. Макроэкономические показатели России за последние 16 лет.
Литература. Работы С.А. Айвазяна.

Задача 12. Surname2013DistanceVisualizing

Название. Визуализация матрицы парных расстояний в тематическом моделировании.
Проблема. Отобразить тезисы конференции на плоскости с сохранением кластеров.
Данные. Тезисы конференции EURO.
Литература. Зиновьев на ML, литература по теме.
Предлагаемый алгоритм. PCA.
Базовый алгоритм. Алгоритм с минимизацией энергетического критерия.

Задача 13. Surname2013RhoNets

Название. Сравнение быстрых алгоритмов кластеризации.
Проблема. Сравнить алгоритм кластеризации с использованием $\rho$-сетей и быстрый алгоритм $k$-средних.
Данные. Была выборка аминокислотных последовательностей. Нужна тестовая выборка из UCI или из работ по сравнению.
Литература. $k$-средних, $\varepsilon$-сети.
Предлагаемый алгоритм. $\rho$-сети.
Базовый алгоритм. $k$-средних.

Задача 17. Surname2013FeatureSelection

Название. Сравнительный анализ алгоритмов выбора признаков: точность, устойчивость, сложность регрессионных моделей.
Проблема. Построить ряд тестовых задач для сравнения алгоритмов. Предложить алгоритм выбора признаков с анализом ковариационных матриц, основанных на методе Белсли.
Данные. Синтетические.
Литература. Леонтьева/Стрижов, поискать современные обзоры.

Задача 1. Surname2013Txt2Bib

Название. Разметка библиографических записей с помощью логических алгоритмов.
Проблема. Требуется создать алгоритм разметки текста. Новизна в постановке задачи. Актуальность в том, что будет создана более полная библиотека логических выражений и выбран адекватный алгоритм.
Данные. В MLAlgorithms.
Литература. Работа А. Ивановой и все, что есть по теме за последние два года.
Предлагаемый алгоритм. Выбрать из логических алгоритмов классификации; дополнительно кластеризация.
Базовый алгоритм. Тупиковые покрытия.

Задача 14. Surname2013FindTheFormula (Risky)

Название. Алгоритм поиска текстовых структур в документе.
Проблема. Предложить алгоритм, который бы в документе TeX искал бы формулы, эквивалентные заданной.
Данные. Синтетические, коллекция MLAlgorithms.
Литература. Надо искать. Поиск по химическим соединениям в WoK работает неплохо.

Задача 18. Surname2013ScannedImage (Image)

Название. Определение типа бланка.
Проблема. Определить тип бланка по скану.
Данные. Набор изображений в TIF.

Задача 19. Surname2013SpectrumImage (Image)

Название. Определение напечатанного изображения.
Проблема. Сделать спектральное преобразование изображения, исследовать спектр.
Данные. Набор изображений в JPG, отнесенных в два класса.

Задача	Кто делает
Дан набор трехэлементных векторов. Первые два элемента нарисовать по осям абсцисс и ординат. Третий элемент отобразить как круг с пропорциональным радиусом. Пропорции подобрать исходя из чувства прекрасного. Сравнить полученный график с plot3. Что лучше?	Митяшов Андрей
Дан пятиэлементный вектор. Нарисовать лицо Чернова. Что лучше - лицо Чернова или диаграмма?	Неклюдов Кирилл
Разобраться как работает regexp в Матлабе. Сделать код, который выделяет все, что находится внутри скобок некоторого арифметического выражения.	Рыскина Мария
Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p.	Шубин Андрей
Разобраться как работает web-соединение и regexp. Сделать поисковый запрос по теме и сверстать из нее запись BibTeX.
Дан временной ряд из m + 1 (случайных) точек. Приблизить m его первых точек полиномами степени от 1 до m. Вычислить среднюю ошибку в точках. Какая степень дает наибольшую ошибку?	Воронов Сергей
Повернуть и увеличить плоскую фигуру, сделать эффект приближения с вращением по кадрам.	Антипова Наташа
Заданы две матрицы. Проверить, есть ли в них пересечение – подматрица?	Вдовина Евгения
Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки).	Гринчук Олег
Дана выборка, в которой есть несколько выбросов. Известно, что она может быть описана одномерной линейной регрессией. Требуется переборным путем найти выбросы. Показать их на графике.	Пушняков Алексей
Дана выборка из двух классов на плоскости. Требуется найти все объекты, которые залезли в чужой класс. Показать их на графике.	Кащеева Мария
На вход подается матрица инцидентности дерева. Функция возвращает список (вектор) вершин в порядке их посещения.	Ибраимова Айжан
Классифицировать цветы ириса произвольным алгоритмом, нарисовать на плоскости «самую наглядную» пару признаков, указать, что классифицировалось правильно, а что – нет.	Яшков Даниил
Дан временной ряд. По его вариационному ряду построить гистограмму из n перцентилей, нарисовать ее. Какое значение временного ряда встречается чаще всего?
Создать несколько групп точек на плоскости и выполнить их кластеризацию, используя любой алгоритм на выбор. Визуализировать полученные кластеры. Посчитать среднее внутрикластерное расстояние для одного кластера.	Перекрестенко Дмитрий
Загрузить звуковой ряд, желательно несколько нот фортепиано. Выделить и проиграть определенную ноту.
Загрузить видеоряд. Удалить каждый второй кадр. Обработать по вкусу. Записать обратно.	Бырдин Александр
Показать разницу в скорости выполнения матричных операций и операций в цикле. Показать эффективность параллельных вычислений (parfor и другие).	Катруца Александр
Предложить варианты визуализации четырехмерных векторов и пространств. Сравнить их со встроенной функцией.
Сгладить временной ряд скользящим средним. Взять несколько окон разной длины и наложить результат на графике друг на друга.	Чинаев Николай
Нарисовать поверхность. Каждую точку поверхности заменить медианой от n соседей. Нарисовать результат.	Костин Александр

2012

Тематическое моделирование: публикация в журнале ВАК

Статус публикации работ см. внизу страницы, раздел "Публикация работ". Ожидается публикация всех работ до конца мая 2013.

Список задач

Название задачи	Автор	Ссылка на работу	Комментарии
Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации	Медведникова Мария	[158]	Опубликовано
Иерархическая тематическая кластеризация тезисов и визуализация	Кузьмин Арсентий	[159]	Опубликовано
Совместный выбор объектов и признаков в задачах многоклассовой классификации.	Адуенко Александр	[160]	Опубликовано
Построение иерархических тематических моделей	Цыганова Светлана	[161]	Опубликовано
Выбор признаков в задачах структурной регрессии	Варфоломеева Анна	[162]	Принято
Статистические критерии однородности и согласия для сильно разреженных дискретных распределений	Целых Влада	[163]	Опубликовано
Построение логических правил при разметке текстов	Иванова Алина	[164]	Принято
Проверка адекватности тематической модели	Степан Лобастов	[165]	Редакция

1. 2012CoRegression

Название: Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации.
Тизер: Построение интегральной оценки эффективности научной деятельности.
Данные: Синтетические. ПРНД сотрудников. Таблица авторы-журналы и число статей выбранных авторов в журналах.
Литература: К.В.Воронцов «Коллаборативная фильтрация».
Ключевые слова: индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
Предлагаемый алгоритм Совместная регрессия (придумать или найти готовую).
Базовый алгоритм: Вычисленный IF журналов и h-index авторов. (Кокластеризация или адаптивная фильтрация для сравнения на годится).
Проблема: Описание в файле. Дополнительно: при создании рейтинга встает проблема разбиения множества авторов и журналов на кластеры. Размер кластера требуется соотнести с "Оценкой вовлеченности автора/журнала в научное сообщество". Эта оценка должна войти в рейтинг (в крайнем случае, должна быть представлена отдельно).

2. 2012ExpertRanking

Название: Согласование ранговых экспертных оценок.
Тизер: Методы ранжирования при голосовании (выборе литературных произведений, выборе ограниченного комитета).
Данные: Интернет-голосование за список книг, голосование без кооптации.
Литература: Статья в Notices AMS, 2008, 55(4). Нужно будет сделать обзор литературы по этой проблеме.
Предлагаемый алгоритм: Нахождение пересечения конусов и оценка эффективной размерности пространства или другой алгоритм.
Базовый алгоритм: Медиана Кемени и другие алгоритмы.
Проблема: Требуется проиллюстрировать и изучить свойства алгоритма выбора комитета. В частности, осветить следующую проблему. Рейтинг n выбранных кандидатов отличается от рейтинга n+k выбранных кандидатов, при единственном голосовании с выбором из N кандидатов. Возможно, требуется осветить парадокс Эрроу.

3. 2012StructureRegression

Название: Выбор признаков в задачах структурной регрессии
Тизер: Алгоритм структурной регрессии для разметки библиографических списков, тезисов и других структурированных текстов.
Данные: библиографические записи из BibTeX collection on CS.
Литература: работы Jaakkola и его команды, возможно, код.
Предлагаемый алгоритм: Структурная регрессия.
Базовый алгоритм: описан Валентином.
Требуется: сегментировать входной текст и поставить в соответствие каждому сегменту поле, а каждой группе полей - тип библиографической записи.

4. 2012LogicClassification

Название: Построение логических правил при разметке текстов
Тизер: Алгоритм структурной регрессии для разметки библиографических списков, тезисов и других структурированных текстов.
Данные: библиографические записи из BibTeX collection on CS / тезисы конференций, другие размеченные тексты.
Литература: работы Инякина, Чувилина, Кудинова.
Предлагаемый алгоритм: Решающие деревья, тупиковые покрытия.
Базовый алгоритм: описан Валентином.
Требуется: обучить модель, разметки текста, используя решающие правила над RegExp - строками.

5. 2012RankClustering

Название: Ранговая кластеризация и алгоритмы динамического выравнивания.
Тизер: Поиск дубликатов в библиографических записях. Динамическое выравнивание при нахождении дубликатов библиографических записей.
Данные: Испорченные и некорректные библиографические записи (базы студенческих рефератов). Более 1000 библиографических записей из статей/книг по анализу данных.
Литература: Стрижов et al. «Метрическая кластеризация последовательностей», работы по быстрой кластеризации k-Means.
Ключевые слова: DTW — модификации, k-Means.
Предлагаемый алгоритм: Алгоритм ранговой кластеризации.
Базовый алгоритм: k-Means и его высокопроизводительные вариации.
Проблема: Требуется модифицировать процедуру вычисления стоимости пути выравнивания так, чтобы обнаруживать и учитывать инварианты перестановок (и допустимых модицикаций) частей библиографической записи.

6. 2012ThematicClustering

Название: Проверка адекватности тематической модели.
Тизер: Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
Данные: Тексты тезисов конференции Евро-2012, 1862 тезиса.
Литература: по кластеризации, и введению расстояний между текстами как мешками слов.
Ключевые слова: иерархическая кластеризация, метрики сходства текстов.
Предлагаемый алгоритм: алгоритм иерархической кластеризации k-means + классификация k-NN.
Базовый алгоритм: k-Means
Проблема: Требуется построить тематическую модель методом кластеризации и проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется и относится к своей или к чужой теме.

7. 2012ThematicHierarchy

Название: Построение иерархических тематических моделей.
Тизер: Иерархическая тематическая кластеризация тезисов. Построение тематической модели на материалах конференции.
Данные: Тексты тезисов.
Литература: иерархические модели, topic modelling.
Ключевые слова: иерархическое тематическое моделирование.
Предлагаемый алгоритм: иерархические модели, оценка распределения по темам.
Базовый алгоритм: PLSA--LDA.
Проблема: Требуется построить иерархическую тематическую модель путем вычисления статистических оценок функций распределения слов по темам.

8. 2012ThematicVisualizing

Название: Визуализация иерархических тематических моделей.
Тизер: На материалах конференции EURO.
Данные: Тексты тезисов конференции Евро-2012.
Литература: многомерное шкалирование, кластеризация.
Ключевые слова: визуализация графов.
Предлагаемый алгоритм:
Базовый алгоритм: --
Проблема: Требуется визуализировать матрицу парных расстояний таким образом, чтобы можно было принять решение о
- корректировки названий тем/подтем конференции,
- переносе тезиса из одной темы в другую,
- адекватности соответствия модельной и фактический кластеризации.

9. 2012CovSelection

Название: Совместный выбор объектов и признаков в задачах многоклассовой классификации.
Тизер: Ранжирование поисковых выдач Яндекса.
Данные: Яндекс – математика.
Литература: Бишоп, Стрижов.
Ключевые слова: логистическая регрессия, выбор признаков, фильтрация объектов.
Предлагаемый алгоритм: Совместный выбор путем анализа ковариационных матриц.
Базовый алгоритм: SVM.
Проблема: Взять матрицу T, с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и данные Яндекса. (Для сравнения запустить алгоритм SVM на этой же выборке.Связать с выбором признаков.) Оценить матрицы гиперпараметров многоклассовой регрессионной модели. Предложить пошаговый алгоритм совместного выбора с максимизацией правдоподобия модели.

10. 2012ThematicMatching

Название: Определение соответствия документа тематике на основе выделения ключевых фраз.
Тизер: Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
Данные: Авторефераты диссертаций (SugarSync). Паспорта специальностей.
Литература: (Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» - проверить).
Ключевые слова: ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки.
Предлагаемый алгоритм:
Базовый алгоритм: C-Value и TF-IDF.
Проблема: Требуется проверить каждый автореферат из коллекции на формальное соответствие паспорту декларируемой в автореферате специальности. При этом пункты паспорта рассматриваются как описания тем. Реферат считается соответствующим данной теме, если в совокупная вероятность принадлежности заданного числа терминов к одному из описаний темы данной специальности выше, чем принадлежность описаниям темы других специальностей.
Проблема, еще раз: Выделяем ключевые слова из документа. Считаем, что паспорт специальности состоит из ключевых слов. Находим расстояния от одного набора ключевых слов до другого. В итоге
- пополняем паспорт известной специальности новыми ключевыми словами, либо
- находим ближайший паспорт специальности.
Варианты решения: Введение функции расстояния от совокупности терминов до описания темы, построение матрицы таких расстояний.

11. 2012FeatureGen

Название: Последовательное порождение и выбор признаков в задаче многоклассовой классификации
Тизер: Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
Данные: синтетические, интернет-коллекция.
Литература: Стрижов, Рудой.
Ключевые слова: порождение признаков, поиск изоморфных моделей.
Предлагаемый алгоритм: алгоритм последовательного порождения суперпозиций.
Базовый алгоритм: решающие деревья.
Проблема: Требуется построить набор признаков, по которым можно классифицировать текст.

12. 2012TypeDetection

Название: Методы извлечения признаков из текстовой информации
Тизер: Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
Данные: синтетические, интернет-коллекция.
Литература Найти.
Ключевые слова: иерархическая кластеризация, structural learning, метрики сходства текстов.
Предлагаемый алгоритм.
Базовый алгоритм.
Проблема: Требуется построить набор признаков, по которым можно классифицировать текст.

Темы К.В. Воронцова

2012SparceDistribution Статистические критерии однородности и согласия для сильно разреженных дискретных распределений (В.Ц.)

2012LatentModels

Название: Проверка адекватности тематической модели.
Тизер: Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
Данные: Тексты тезисов конференции Евро-2012, 1862 тезиса.
Литература: по латентным моделям.
Ключевые слова: мягкая кластеризация, латентные модели.
Предлагаемый алгоритм: hHDP.
Базовый алгоритм: HDP.
Проблема: Требуется построить тематическую модель методом кластеризации и проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется и относится к своей или к чужой теме.

Ссылки

https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities В SugarSync/remarks находится документ с одной из возможных функций расстояния между текстами.

Литература

https://www.sugarsync.com Файлохранилище, где находятся материалы по проекту. Доступ к соответствующей папке предоставлен по адресу электронной почты. Материалы включают публикации по каждой теме.

Публикация работ

Легенда: Редакция >> Подать (оформление для журнала) >> Подано >> Принято (рецензентами) >> Верстка (замечания рецензентов и редактора учтены) >> Опубликовано (вышел номер).

Название задачи	Автор	Ссылка на журнал	Исходный текст работы	Дата подачи	Состояние
Выбор признаков и оптимизация метрики при кластеризации коллекции документов	Адуенко А.А., Кузьмин А.А., Стрижов В.В.	Известия ТулГу	[166]	12.10.2012	Опубликовано
Оценивание вероятностей появления строк в коллекции документов	Будников Е.А., Стрижов В.В.	Информационные технологии	[167]	24.09.2012	Опубликовано
Проверка адекватности тематических моделей коллекции документов	Кузьмин А.А., Стрижов В.В.	Программная инженерия	[168]	17.12.2012	Опубликовано
Алгоритм оптимального расположения названий коллекции документов	Адуенко А.А., Стрижов В.В.	Программная инженерия	[169]	13.11.2012	Опубликовано
Визуализация матрицы парных расстояний между документами	Адуенко А.А., Стрижов В.В.	Научно-технические ведомости С.-Пб.ПГУ	[170]	29.10.2012	Подано
Построение интегрального индикатора качества научных публикаций методами ко-кластеризации	Медведникова М.М., Стрижов В.В.	Известия ТулГу	[171]	15.11.2012	Опубликовано
Совместный выбор объектов и признаков в задачах многоклассовой классификации коллекции документов	Адуенко А.А., Стрижов В.В.	Инфокоммуникационные технологии	[172]	18.12.2012	Опубликовано
Алгоритм построения логических правил при разметке текстов	Иванова А.В., Адуенко А.А., Стрижов В.В.	Программная инженерия	[173]	24.01.2013	Принято
Построение иерархических тематических моделей коллекции документов	Цыганова С.В., Стрижов В.В.	Прикладная информатика	[174]	27.01.2013	Опубликовано
Выбор признаков при разметке библиографических списков методами структурного обучения	Варфоломеева А.А., Стрижов В.В.	Научно-технические ведомости С.-Пб.ПГУ	[175]	27.01.2013	Отрецензировано
Критерии согласия для разреженных дискретных распределений и их применение в тематическом моделировании	Целых В.Р., Воронцов К.В.	Машинное обучение и анализ данных	[176]	17.12.2012	Опубликовано
Проверка адекватности тематической модели	Степан Лобастов		[177]		Редакция

Список принятых к публикации работ

1. Адуенко А. А., Стрижов В. В. Визуализация матрицы парных расстояний между документами // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013, 1 — ?.
2. Адуенко А. А., Кузьмин А. А., Стрижов В. В. Выбор признаков и оптимизация метрики при кластеризации коллекции документов // Известия Тульского государственного университета, Естественные науки, 2012, № 3. С. 119-132.
3. Адуенко А. А., Стрижов В. В. Алгоритм оптимального расположения названий коллекции документов // Программная инженерия, 2013. № 3. С.21-25.
4. Будников Е. А., Стрижов В. В. Оценивание вероятностей появления строк в коллекции документов // Информационные технологии, 2013. № 4.
5. Кузьмин А. А., Стрижов В. В. Проверка адекватности тематических моделей коллекции документов // Программная инженерия, 2013. № 4.
6. Медведникова М. М., Стрижов В. В. Построение интегрального индикатора качества научных публикаций методами ко-кластеризации // Известия Тульского государственного университета, Естественные науки, 2013. №1.
7. Адуенко А. А., Стрижов В. В. Совместный выбор объектов и признаков в задачах многоклассовой классификации коллекции документов // Инфокоммуникационные технологии, 2013. № 2.
8. Иванова А.В., Адуенко А. А., Стрижов В. В. Алгоритм построения логических правил при разметке текстов // Программная инженерия, 2013. № 4(5).
9. Цыганова С.В., Стрижов В. В. Построение иерархических тематических моделей коллекции документов // Прикладная информатика, 2013. № 1.
10. Варфоломеева А.А., Стрижов В. В. Выбор признаков при разметке библиографических списков методами структурного обучения // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013.
11. Целых В.Р., Воронцов К.В. Критерии согласия для разреженных дискретных распределений и их применение в тематическом моделировании // JMLDA, 2012. №4. С. 432-442.

Моя первая публикация с кросс-рецензированием

Список задач

Название задачи	Автор	Рецензент	Ссылка на работу	Комментарии
CMARS: аппроксимация сплайнами	Влада Целых	Татьяна Шпакова	Celyh2012CMARS	[.]сaipvdstrj(10)
Алгоритмические основы построения банковских скоринговых карт	Александр Адуенко	Алина Иванова	Aduenko2012economics	[.]сaipvdstrj(10)
Использование метода главных компонент при построении интегральных индикаторов	Мария Медведникова	Светлана Цыганова	Medvednikova2012PCA	[r]сaipvdstrj(10)
Многоуровневая классификация при обнаружении движения цен	Арсентий Кузьмин	Анна Варфоломеева	Kuzmin2012TimeRows	[r]сaipvdstjr(10)
Локальные методы прогнозирования с выбором инвариантного преобразования	Светлана Цыганова	Мария Медведникова	Tsyganova2012 LocalForecast	[r]сaipvdstjr(10)
Прогноз квазипериодических многомерных временных рядов непараметрическими методами (пример)	Егор Клочков	Александр Шульга	Klochkov2012Goods4Cast	[r]сaipvdstj.(10)
Алгоритмы переборного поиска наиболее информативных объектов и признаков в логистической регрессии (пример)	Степан Лобастов	Егор Клочков	Lobastov2012FOSelection	[r]сaipvdstrj(10)
Локальные методы прогнозирования с выбором метрики	Анна Варфоломеева	Арсентий Кузьмин	Varfolomeeva2012 LocForecastMetrics	[r]сaipvdstjr(10)
Полиномы Чебышева и прогнозирование временных рядов	Валерия Бочкарева	Степан Лобастов	Bochkareva2012TimeSeriesPrediction	[.]сaipvdst-r(9)
Кластеризация и составление словаря аминокислотных последовательностей	Татьяна Шпакова	Влада Целых	Shpakova2012Clustering	[.]сaipvdst..(9)
Векторная авторегрессия и управление макроэкономическими показателями	Александр Шульга		Shulga2012VAR	[.]сaipvds...(9)
Аппроксимация эмпирических функций распределения	Алина Иванова	Александр Адуенко	Ivanova2012 ApproximateFunc	[r]сaipvd....(9)

Аннотации

Алгоритмы переборного поиска наиболее информативных объектов и признаков в логистической регрессии

Логистическая регрессия – это статистическая модель, которая применяется для предсказания вероятности возникновения некоторого события по значениям множества признаков. Она находит применение, например, в медицине [178] и кредитном скроллинге. В реальных условиях число признаков обычно велико, и важнейшей задачей является выбор только существенных признаков , а также поиск объектов, которые по тем или иным причинам являются атипичными.

Ключевые слова: logit model, feature selection, boosting.

Использование метода главных компонент при построении интегральных индикаторов

В данной работе рассматривается использование метода главных компонент при построении интегральных индикаторов. Полученные результаты сравниваются с результатами, даваемыми методом расслоения Парето. Строится интегральный индикатор для российских вузов. Для этого используются биографии 30 богатейших бизнесменов России по версии журнала "Forbes" за 2011 год.

Ключевые слова: интегральный индикатор, экспертные оценки, веса параметров, метод главных компонент, метод расслоения Парето.

Аппроксимация эмпирических функций распределения

Работа посвящена методам аппроксимации функций для эффективного вычисления интегралов. В практических задачах обычно имеются данные в определенных точках времени или пространства. При построении предположений об остальных точках возникает необходимость аппроксимации функции распределения исследуемой величины, а также оценка соответствующей ошибки. Для ее расчета есть возможность использовать методы разной точности.

Ключевые слова: метод Монте-Карло, вычисление функцй распределения, эмпирические функции распределения.

Методы локального прогнозирования с выбором преобразования

Задачи прогнозирования временных рядов имеют множество приложений в различных областях, таких как экономика, физика, медицина. Их решением является прогноз на недалекое будущее по уже известным значениям прогнозируемого ряда в предыдущие моменты времени. В работе будет построен алгоритм локального прогнозирования с учетом преобразований, позволяющий без участия человека выявить визуально похожие участки временного ряда.

Ключевые слова: локальное прогнозирование, преобразование

Черновой список задач

Кластеризация и составление словаря аминокислотных последовательностей
Oblivious decision trees: алгоритм Яндекс для системы Полигон
Сравнительный анализ регрессионных остатков в SVN-регрессии
Алгоритмы нахождения гауссовских смесей
Прогноз квазипериодических многомерных временных рядов непараметрическими методами
Многоуровневая классификация при обнаружении движения цен
CMARS: аппроксимация сплайнами
Полиномы Чебышева и метод прогонки при прогнозировании временных рядов
Сравнение методов ARMA и FLS при ретроспективном прогнозировании
Локальные методы прогнозирования с выбором метрики
Локальные методы прогнозирования с выбором инвариантного преобразования
Алгоритмы переборного поиска наиболее информативных объектов и признаков в логистической регрессии
Векторная авторегрессия и управление макроэкономическими показателями
Построение рейтинга российских вузов по открытым данным об успешности карьеры их выпускников

Ещё задачи

Анализ текста методами структурного обучения
Аппроксимация эмпирических функций распределения
Алгоритмические основы построения банковских скоринговых карт
Сингулярное разложение и поисковая машина
Сравнение алгоритмов многокритериальной оптимизации
Уточнение экспертных оценок на данных в ранговых шкалах (интервальные, конусы, веса экспертов, копулы)
Уточнение экспертных оценок при анализе работы механизма устойчивого развития энергетики
Визуализация пространства параметров регрессионных моделей
Восстановление регрессии методом главных компонент
Оценка гиперпараметров путем сэмплирования
Прореживание существенно нелинейных моделей с помощью гиперпараметров
Фактор Оккама для параметрических моделей с известной областью определения параметров
Создание алгоритмов последовательной модификации моделей
Порождение и выбор моделей классификации

И еще задачи

Функция расстояния между формулами и поиск.
Поиск объектов (техническая работа).

+

Авторегрессия
Векторная авторегрессия
Экспоненциальное сглаживание
Локальные методы, поиск метрики
Локальные методы с инвариантами, метрика фиксирована
ARIMA
Многомерная гусеница, выбор длины гусеницы
Многомерная гусеница, выбор рядов
Прогнозирование с использованием DTW
Скользящее среднее, выбор ядер
Скользящее среднее с забыванием истории
Скользящее среднее временных рядов с периодической составляющей
Прогнозирование нейронными сетями
Анализ качества прогноза
Метаописание временных рядов
Логическое прогнозирование
SVN – регрессия
Дискретное прогнозирование, музыка.

Составить

Список типичных типографических ошибок
Список ошибок BibTeX

2011

Публикация в журнале JMLDA

Перед выполнением заданий рекомендуются к прочтению

Задачи

Название задачи	Работу выполняет	Рецензент	Ссылка на работу
Оценивание гиперпараметров линейных регрессионных моделей при отборе шумовых и коррелирующих признаков	Токмакова Александра	Мотренко Анастасия	Tokmakova2011HyperPar
Выбор моделей прогнозирования цен на электроэнергию	Леонтьева Любовь	Гребенников Евгений	Leonteva2011ElectricityConsumption
Многоклассовый прогноз вероятности наступления инфаркта и оценка необходимого объема выборки пациентов (пример)	Мотренко Анастасия	Токмакова Александра	Motrenko2011HAPrediction
Алгоритмы порождения существенно-нелинейных моделей	Георгий Рудой	Николай Балдин	Rudoy2012Generation
Событийное моделирование и прогноз финансовых временных рядов	Александр Романенко	Егор Будников	Romanenko2011Event
Обзор некоторых статистических моделей естественного языка	Егор Будников	Александр Романенко	Budnikov2011Statistical

Моя первая публикация в журнале JMLDA

Перед выполнением заданий рекомендуются к прочтению

См. также

Временной ряд (библиотека примеров)

Задачи

Название задачи	Работу выполняет	Работу рецензирует	Ссылка на работу	Комментарии
Использование теста Гренджера при прогнозировании временных рядов	Анастасия Мотренко	Любовь Леонтьева	Motrenko2011GrangerForc	Опубл. в JMLDA
Выбор функции активации при прогнозировании нейронными сетями	Георгий Рудой	Николай Балдин	Rudoy2011NNForecasting	Опубл. в JMLDA
Многомерная гусеница, выбор длины и числа компонент гусеницы (пример)	Любовь Леонтьева	Михаил Бурмистров	Leonteva2011GaterpillarLearning	Опубл. в JMLDA
Прогнозирование функциями дискретного аргумента (пример)	Егор Будников	Александр Романенко	Budnikov2011DiscreteForecasting	Опубл. в JMLDA
Исследование сходимости при прогнозировании нейронными сетями с обратной связью	Николай Балдин	Георгий Рудой	Baldin2011FNNForecasting	Опубл. в JMLDA
Выравнивание временных рядов: прогнозирование с использованием DTW	Александр Романенко	Егор Будников	Romanenko2011DTWForecasting	Опубл. в JMLDA
Выделение периодической компоненты временного ряда (пример)	Александра Токмакова	Егор Будников	Tokmakova2011Periodic	Опубл. в JMLDA

Краткое описание задач

Задача 1: Непараметрическое прогнозирование: выбор ядра, настройка параметров

В работе описывается метод ядерного сглаживания временного ряда, как один из видов непараметрической регрессии. Суть метода состоит в восстановлении функции времени, как взвешенной линейной комбинации точек из некоторой окрестности. Непрерывную ограниченную симметричную вещественную весовую функцию называют ядром. Полученная ядерная оценка используется для прогнозирования следующей точки ряда. Исследуется зависимость качества прогнозирования от параметров ядра и наложенного шума.

Задача 2: Экспоненциальное сглаживание и прогноз

В работе исследуется применение алгоритма экспоненциального сглаживания к прогнозированию временных рядов. В основе алгоритма лежит учет предыдущих значений ряда с весами, убывающими по мере удаления от исследуемого участка временного ряда. Изучено поведение алгоритма на модельных данных в различных моделях весов. Проведен анализ работы алгоритма на реальных данных -– биржевых индексах.

Задача 3: Выделение периодической компоненты временного ряда (пример)

В проекте исследуется временной ряд на наличие периодической компоненты, строится тригонометрическая интерполяция предложенных временных рядов методом наименьших квадратов. Производится оценка параметров функции метода наименьших квадратов в зависимости от качества прогнозирования. В вычислительном эксперименте приводятся результаты работы корреляционной функции и метода наименьших квадратов на зашумлённом модельном синусе и реальном временном ряде электрокардиограммы.

Задача 4: Многомерная гусеница, выбор длины и числа компонент гусеницы (сравнение сглаженного и несглаженного временного ряда) (пример)

В работе описывается метод гусеницы и его применение для прогнозирования временных рядов. Алгоритм основан на выделении из изучаемого временного ряда его информативных компонент и последующего построения прогноза. Исследуется зависимость точности прогнозов от выбора длины гусеницы и числа ее компонент. В вычислительном эксперименте приводятся результаты работы алгоритма на периодических рядах с разным рисунком внутри периода, на рядах с нарушением периодичности, а так же на реальных рядах почасовой температуры.

Задача 5: Прогнозирование функциями дискретного аргумента (пример)

В работе исследуются короткие временные ряды на примере монофонических музыкальных мелодий. Происходит прогнозирование одной ноты экспоненциальным сглаживанием, локальным методом, а также методом поиска постоянных закономерностей. Вычислительный эксперимент проводится на двух мелодиях, одна из которых имеет точно повторяющиеся фрагменты.

Задача 7: Локальные методы прогнозирования,поиск метрики

Временной ряд делится на отдельные участки, каждому из которых сопоставляется точка в n-мерном пространстве признаков. Локальная модель рассчитывается в три последовательных этапа. Первый – находит k-ближайших соседей наблюдаемой точки. Второй – строит простую модель, используя только этих k соседей. Третий – используя данную модель, по наблюдаемой точке прогнозирует следующую. Многие исследователи, используют эвклидову метрику для измерения расстояний между точками. Данная работа призвана сравнить точность прогнозирования при использовании различных метрик. В частности, требуется исследовать оптимальный набор весов во взвешенной метрике для максимизации точности прогнозирования.

Задача 8: Локальные методы прогнозирования, поиск инвариантного преобразования

В проекте используются локальные методы прогнозирования временных рядов. В этих методах не находится представления временного ряда в классе заданных функций от времени. Вместо этого прогноз осуществляется на основе данных о каком-то участке временного ряда (используется локальная информация). В данной работе подробно исследован следующий метод (обобщение классического «ближайшего соседа»).

Пусть имеется временной ряд, и стоит задача продолжить его. Предполагается, что такое продолжение определяется предысторией, т.е. в ряде нужно найти часть, которая после некоторого преобразования A становится схожа с той частью, которую мы стремимся прогнозировать. Поиск такого преобразования A и есть цель данного проекта. Для определения степени сходства используется функция B – функция близости двух отрезков временного ряда (подробнее об этом см. здесь). Так мы находим ближайшего соседа к нашей предыстории. В общем случае ищем несколько ближайших соседей. Продолжение запишется в виде их линейной комбинации.

Задача 9: Выравнивание временных рядов: прогнозирование с использованием DTW (пример)

Временным рядом называется последовательность упорядоченных по времени значений некоторой вещественной переменной $\mathbf{x}=\{x_{t}\}_{t=1}^T\in\mathbb{R}^T$ . Задача, сопутствующая появлению временных рядов, - сравнение одной последовательности данных с другой. Сравнение последовательностей существенно упрощается после деформации временного ряда вдоль одной из осей и его выравнивания. Dynamic time warping (DTW) представляет собой технику эффективного выравнивая временных рядов. Методы DTW используются при распознавании речи, при анализе информации в робототехнике, в промышленности, в медицине и других сферах.

Цель работы - привести пример выравнивания, ввести функционал сравнения двух временных рядов, обладающий естественными свойствами коммутативности, рефлексивности и транзитивностина. Функционал должен принимать на вход два временных ряда, а на выходе давать число, характеризующее степень их "похожести".

Задача 10: Выбор функции активации при прогнозировании нейронными сетями

Целью проекта является исследование зависимости качества прогнозирования нейронными сетями без обратной связи (одно- и многослойными перцептронами) от выбранной функции активации нейронов в сети, а также от параметров этой функции.

Результатом проекта является оценка качества прогнозирования нейронными сетями в зависимости от типа и параметров функции активации.

Задача 12: Исследование сходимости при прогнозировании нейронными сетями с обратной связью

Исследуется зависимость скорости сходимости при прогнозировании временных рядов от параметров нейронной сети с обратной связью. Понятие обратной связи характерно для динамических систем, в которых выходной сигнал некоторого элемента cистемы оказывает влияние на входной сигнал этого элемента. Выходной сигнал можно представить в виде бесконечной взвешенной суммы текущего и предыдущих входных сигналов. В качестве модели нейронной сети используется сеть Джордана. Предлагается исследовать скорость сходимости в зависимости от выбора функции активации (сигмоидной, гиперболического тангенса), от числа нейронов в промежуточном слое и от ширины скользящего окна. Также исследуется способ повышения скорости сходимости при использовании обобщенного дельта-правила.

Задача 13: Многомерная гусеница, выбор длины и числа компонент гусеницы (пример)

Работа посвящена исследованию одного из методов анализа многомерных временных рядов - метода "гусеницы", также известного как Singular Spectrum Analysis или SSA. Метод можно разделить на четыре этапа - представление временного ряда в виде матрицы при помощи сдвиговой процедуры, вычисление ковариационной матрицы выборки и сингулярное ее разложение, отбор главных компонент,относящихся к различным составляющим ряда (от медленно меняющихся и периодических до шумовых), и, наконец, восстановление ряда.

Областью применения алгоритма являются задачи как метеорологии и геофизики, так и экономики и медицины. Целью данной работы является выяснение зависимости эффективности алгоритма от выбора временных рядов, используемых в его работе.

Задача 14: Использование теста Гренджера при прогнозировании временных рядов

При прогнозировании ряда бывает полезно определить, является ли данный ряд "зависимым" от некоторого другого ряда. Выявить подобную связь помогает тест Грейнджера, основанный на статистических тестах(при этом метод не гарантирует точного результата - при сравнении двух рядов, зависящих от еще одного ряда возможна ошибка). Метод применяется при прогнозировании экономических явлений и явлений природного характера (например, землятрясений).

Цель работы - предложить алгоритм, наилучшим образом использующий данный метод; исследовать эффективность метода в зависимости от прогнозируемых рядов.

Задача 15: Прогнозирование и аппроксимация сплайнами

Описание.

Задача 16: ARIMA и GARCH при прогнозировании высоковолатильных рядов

Описание.

Задача 17: Прогнозирование и SVN–регрессия

Описание.

Доклады и экзамен (возможны уточнения)

Доклад-1 6 апреля
Контрольная точка 12 мая
Экзамен 19 мая

Список задач, черновик

Непараметрическое прогнозирование (выбор ядра из набора, настройка параметров)
Прогнозирование и экспоненциальное сглаживание (набор временных рядов, исследование современного состояния)
Непараметрическое прогнозирование рядов с периодической составляющей (по мотивам работ прогнозирования объемов продаж)
Многомерная гусеница, выбор длины и числа компонент гусеницы (сравнение сглаженного и несглаженного временного ряда)
Многомерная гусеница, выбор временных рядов при прогнозировании
Многомерная авторегрессия
Локальные методы прогнозирования, поиск метрики
Локальные методы прогнозирования, поиск инвариантного преобразования
Прогнозирование с использованием пути наименьшей стоимости (DTW)
Выбор функции активации при прогнозировании нейронными сетями
Выбор ядра при прогнозировании функциями радиального базиса
Исследование сходимости при прогнозировании нейронными сетями с обратной связью
Прогнозирование функциями дискретного аргумента
Использование теста Гренджера при прогнозировании временных рядов
Прогнозирование и SVN – регрессия
ARIMA и GARCH при прогнозировании высоковолатильных рядов с периодической составляющей (цен на электроэнергию)
Прогнозирование и аппроксимация сплайнами
Изображение:JokeExam486in2011Spring.png|150px|right|frame|Экзамен-шутка: результаты

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Strijov/Drafts»

Категория: Учебные курсы