Участник:Strijov/Drafts

Материал из MachineLearning.

< Участник:Strijov

Версия от 13:34, 6 февраля 2023; Strijov (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Перейти к: навигация, поиск

Основная статья: Численные методы обучения по прецедентам (практика, В.В. Стрижов)

2021

Моя первая научная статья

Участвуют эксперты, индивидуальные консультанты и студенты кафедры Интеллектуальные системы ФУПМ МФТИ.

Описание курса
История 2020 (774, 794) — 2019 (674) — 2019 (694) — 2018 — 2017 — 2016 — 2015 — 2014 — 2013
Видео докладов по курсу на канале Machine Learning на Youtube
Короткая ссылка на эту страницу: bit.ly/m1p_2021
Расписание и домашние задания: m1p.org
Телеграм-канал: @m1p_org

Роли

Студент третьего курса очень хочет научиться ставить задачи формально, находить нужную литературу, порождать новые и актуальные идеи и решения задач.

Консультант помогает студенту в пользовании инструментами, отвечает на вопросы по специальности, консультирует выполнение работ, оперативно реагирует на проблемы, проверяет (в среду) результаты, ставит оценки. Предполагается, что консультант сам пишет работу-спутник по этой теме. В конце работы могут быть объединены или выполнены и опубликованы параллельно. По возможности, рекомендуется организовать правки текста студента с целью улучшить стиль изложения таким образом, чтобы студент вносил правки самостоятельно. Возможно, при очной встрече или по скайпу.

Эксперт: поставщик задачи, владелец данных, либо тот, кто гарантирует новизну и актуальность работы.

Результаты

Автор	Тема научной работы	Ссылки	Консультант	Буквы	Рецензент
Гребенькова Ольга (пример)	Вариационная оптимизация моделей глубокого обучения с контролем сложности модели	LinkReview GitHub Paper Slides Video	Олег Бахтеев	AILP+UXBR+HCV+TEDWSS	Шокоров Вячеслав Review
Пилькевич Антон	Existence conditions for hidden feedback loops in recommender systems	GitHub LinkReview Paper Slides Video	Хританков Антон	AILBP-X+R-B-H1CVOT-EM*H1WJSF	Горпинич Мария Review
Курдюкова Антонина	Определение фазы и разладки движения человека по сигналам носимых устройств	LinkReview GitHub Paper Slides Video	Георгий Кормаков	AILBPXBRH1CVOTEM*WJSF	Пилькевич Антон Review
Яковлев Константин	Дифференцируемый алгоритм поиска архитектуры модели с контролем её сложности	LinkReview GitHub Paper Slides Video	Гребенькова Ольга	AILBPXBRH1CVOTEM*WJSF	Пырэу Виталий Review
Горпинич Мария	Регуляризация траектории оптимизации параметров модели глубокого обучения на основе дистилляции знаний	LinkReview GitHub Paper Slides Video	Олег Бахтеев	AILBP+XBRC+VH1OTEM*WJSF	Кулаков Ярослав Review
Толмачев Александр	Анализ метода отбора признаков QPFS для обобщенно-линейных моделей	LinkReview GitHub Paper Slides Video	Адуенко Александр	AILBPXB-R-H1CVOTEM*WJSF	Курдюкова Антонина Review
Кулаков Ярослав	BCI: Выбор согласованных моделей для построения нейроинтерфейса	LinkReview GitHub Paper Slides Video	Исаченко Роман	AILBPXBRH1CVOTEM*WJ0SF	Зверев Егор Review
Пырэу Виталий	Экспериментальное сравнение нескольких задач оперативного планирования биохимического производства.	LinkReview GitHub Paper Slides Video	Тренин Сергей Алексеевич	AILBPXBRH1CVOTEM*WJSF	Яковлев Константин Review
Баженов Андрей	Поиск границ радужки методом круговых проекций	LinkReview GitHub Paper Slides Video	Матвеев Иван Алексеевич	AILBPXB0RH1CVOTEM*WJ0SF
Зверев Егор	Learning co-evolution information with natural language processing for protein folding problem	LinkReview GitHub Paper Slides Video	Сергей Грудинин, Илья Игашов	AILBPXBRH1CVOTEM*WJSF	Толмачев Александр Review
Горчаков Вячеслав	Importance Sampling for Chance Constrained Optimization	LinkReview Github Paper Video	Юрий Максимов	AILBPX0B0R0H1C0V0O0T0E0M*0W0JS0F	Баженов Андрей Review
Линдеманн Никита	Обучение с экспертом для выборки со многими доменами	LinkReview Github Paper Slides	Андрей Грабовой	AILPXBRH1C0V0OTE0M0W0J0SF0

Расписание

Расписание и домашние задания находятся тут: Course_schedule

Работа и консультации

Работы сдаются в течение недели.
Желательна итеративная сдача работ, начинать показ лучше в выходные.
Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
Каждый этап работ +1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — A0. Недельное опоздание — знак «-».
- Так как в 2021 работы оцениваются перекрестным рецензированием, Мотивированный перенос работы (в прошлых годах — знак «A>») фактически означает пропуск.

Шаблон описания проекта — научной статьи

Название: Название, под которым статья подается в журнал.
Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
Авторы: эксперт, консультант.

Задача 74

Название: Existence conditions for hidden feedback loops in recommender systems
Описание проблемы: В рекомендательных системах известен эффект искусственного непреднамеренного ограничения выбора пользователя вследствие адаптации модели к его предпочтениям (echo chamber/filter bubble). Эффект является частным случаем петель скрытой обратной связи (hidden feedback loop). (см. - Analysis H.F.L.). Выражается в том, что путем рекомендации одних и тех же интересных пользователю объектов, алгоритм максимизирует качество своей работы. Проблема в а) недостаточном разнообразии б) насыщении / изменчивости интересов пользователя.
Задача: Понятно, что алгоритм не знает интересов пользователя и пользователь не всегда честен в выборе. При каких условиях, каких свойствах алгоритма обучения и нечестности (отклонении выбора пользователя от его интересов) будет наблюдаться указанный эффект? Уточнение. Рекомендательный алгоритм выдает пользователю объекты a_t на выбор. Пользователь выбирает один из них c_t из Бернулли от модели интереса mu(a_t) . На основе выбора пользователя алгоритм изменяет свое внутреннее состояние w_t и выдает следующий набор объектов пользователю. На бесконечном горизонте нужно максимизировать суммарное вознаграждение sum c_t. Найти условия существования неограниченного роста интереса пользователя к предлагаемым объектам в рекомендательной системе с алгоритмом Thomson Sampling (TS) MAB в условиях зашумленности выбора пользователя c_t. Без шума известно, что всегда неограниченный рост (в модели) [1].
Данные: создаются в рамках эксперимента (имитационная модель) по аналогии со статьей [1], внешние данные не требуются.
Литература
1. Jiang, R., Chiappa, S., Lattimore, T., György, A. and Kohli, P., 2019, January. Degenerate feedback loops in recommender systems. In Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society (pp. 383-390).
2. Khritankov, A. (2021). Hidden Feedback Loops in Machine Learning Systems: A Simulation Model and Preliminary Results. In International Conference on Software Quality (pp. 54-65). Springer, Cham.
3. Khritankov A. (2021). Hidden feedback loop experiment demo. https://github.com/prog-autom/hidden-demo
Базовый алгоритм: Исходная математическая модель исследуемого явления описана в статье [1]. Метод экспериментального исследования - в статье [2]. Базовый исходный код доступен в [3]
Решение: Нужно вывести условия существования положительной обратной связи для алгоритма Thomson Sampling Multi-armed Bandit исходя из известных теоретических свойств этого алгоритма. Затем проверить их выполнение в имитационной модели. Для проверки выполняется серия экспериментов с исследованием диапазонов параметров и оценкой ошибки (variance) моделирования. Результаты сопоставляются с построенной ранее математической моделью эффекта. Есть реализация системы проведения эксперимента, которую можно доработать для данной задачи.
Новизна: Исследуемый эффект положительной обратной связи наблюдается в реальных и модельных системах и описан во многих публикациях как нежелательное явление. Есть его модель для ограниченного случая отсутствия шума в действиях пользователя, что не реализуется на практике. В предлагаемых условиях задача ранее не ставилась и не решалась для рекомендательных систем. Для задачи регрессии решение известно.
Авторы: Эксперт, консультант - Антон Хританков

Задача 77

Название: Определение фазы и разладки движения человека по сигналам носимых устройств
Задача: Исследуется широкий класс периодических движений человека или животного. Требуется найти начало и конец движения. Требуется понять, когда заканчивается один тип движения и начинается другой. Для этого решается задача сегментации временных рядов. Строится фазовая траектория одного движения и отыскивается его фактическая размерность. Цель работы в том, что надо описать способ нахождения минимальной размерности фазового пространства. По повторению фазовой сегментировать периодические действия человека. Надо также предложить метод извлечения нулевой фазы в данном пространстве для конкретного действия. Бонус: найти разладку фазовой траектории и указать на смену типа движения. Бонус 2: сделать это для различных положений телефона, предложив модели инвариантных преобразований.
Данные:  Данные состоят из считанных с трехосевого акселерометра временных рядов с явно выделенным периодичным классом (ходьба, бег, шаги вверх и вниз по лестнице и т.п.). Возможно получение собственных данных с мобильного устройства, либо получение модельных данных из датасета UCI HAR
Литература:
1. A. P. Motrenko, V. V. Strijov. Extracting fundamental periods to segment biomedical signals // Journal of Biomedical and Health Informatics, 2015, 20(6).P. 1466–1476 1.(Сегментация временных рядов с периодическими действиями: решалась задача сегментации с использованием фазового пространства фиксированной размерности.) PDF URL
2. A.D. Ignatov, V. V. Strijov. Human activity recognition using quasi-periodic time series collected from a single triaxial accelerometer. // Multimedia Tools and Applications, 2015, P. 1–14. ( Классификация человеческой активности с помощью сегментации временных рядов : исследовались классификаторы над получаемыми сегментами.) PDF URL
3. Grabovoy, A.V., Strijov, V.V. Quasi-Periodic Time Series Clustering for Human Activity Recognition. Lobachevskii J Math 41, 333–339 (2020). (Сегментация временных рядов на квазипериодические сегменты : исследовались методы сегментации с использованием анализа главных компонент и перехода в фазовое пространство.) Text Slides DOI
Базовой алгоритм:  Базовый алгоритм описан в 1 и 3 работах, код тут, код работы 3 у автора.
Решение:  Предлагается рассмотреть различные алгоритмы понижения размерности и сравнить различные пространства, в которых строится фазовая траектория. Разработать алгоритм поиска минимальной размерности фазового пространства, в котором фазовая траектория не имеет самопересечений с точностью до стандартного отклонения восстановленной траектории.
Новизна:  В статье Мотренко размерность пространства равна двум. Этот недочет надо обязательно исправить. Фазовая траетория не должна самопересекаться. А если мы сможем отличить один тип движения от другого внутри одного периода (перешли с бега на шаг и в течение полутора шагов это поняли) - вообще будет замечательно.
Авторы:  Консультанты: Кормаков Г.В., Тихонов Д.М., эксперт Стрижов В.В.

Задача 78

Название: Importance Sampling for Scenario Approximation of Chance Constrained Optimization
Задача: Задачи оптимизации с вероятностными ограничениями часто встречаются в инженерной практике. Например, задача минимизации генерации энергии в энергетических сетях, со (случайным образом флуктуирующими) возобновляемыми источниками энергии. При этом необходимо выполнение ограничений безопасности: напряжения у генераторов и потребителей, а также токи на линиях должны быть меньше определенных порогов. Вместе с тем, даже в самых простых ситуациях задача не может быть разрешена точно. Самый известный подход, это методы chance constrained optimization, которые часто дают неплохое приближение. Альтернативный подход – семплирование режимов работы сети и решения задачи на наборе данных задачи классификации: отделение плохих режимов от хороших с заданной ошибкой второго рода. Вместе с тем, для достаточно точного решения, требуются очень большой объем данных, что часто делает задачу численно не эффективной. Мы предлагаем использовать “семплирование по важности” (importance sampling) для уменьшения числа сценариев. Семплирование по важности состоит из подмены выборки из номинального решения, которое часто не несет информации так как все плохие события очень редки, на синтетическое распределение, которое семплирует выборку в окрестности плохих событий.
Формальная постановка: найти минимум выпуклой функции (цены) при вероятностных ограничениях (вероятность превысить определенный порог для системы линейных/квадратичных функций мала) и численно показать эффективность применения семплирования в этой задаче.
Данные: Данные доступны в пакетах pypower и matpower в виде csv файлов.
Литература: Основу предлагаемых алгоритмов составляют 3 статьи:
1. Owen, Maximov, Chertkov. Importance Sampling for the Union of Rare Events with Applications to Power Systems LINK
2. A. Nemirovski. On safe tractable approximations of chance constraints [1]
3. S. Tong, A. Subramanyam, and Vi. Rao. Optimization under rare chance constraints. LINK
4. Кроме того у авторов задачи есть черновик статьи, в который нужно добавить численную часть.
Базовой алгоритм: Список базовых алгоритмов представлен в этой лекции [2]
Решение: в численных экспериментах нужно сравнить требования по размеру выборки для стандартных методов (scenario approximation) и с использованием семплирования по важности для получения сравнимого по качеству решение (и обратная задача, имея равные длины выборки сравнить качество решения)
Новизна: задача давно известна в коммьюнити и scenario approximation один из основных методов. Вместе с тем importance sampling помогает существенно снизить число сценариев. Мы недавно получили ряд интересных результатов, как вычислять оптимальные семплеры, с их использованием сложность задачи существенно снизится
Авторы: эксперт – Юрий Максимов, консультант – Юрий Максимов и Александр Лукашевич, студент.

Задача 79

Название: Improving Bayesian Inference in Physics Informed Machine Learning
Задача: Методы машинного обучения в настоящий момент широко применяются в физике, в частности при решении задач турбулентности или анализа устойчивости физических сетей. Вместе с тем ключевым вопросом является какие режимы выбирать для обучения моделей. Частый выбор – последовательности точек, равномерно покрывающие допустимое множество. Однако, часто такие последовательности мало информативны, особенно в случае, если аналитические методы дают область, где система гарантированно устойчива. В задаче предлагается несколько методов семплирования: позволяющих учесть эту информацию. Нашей целью является их сравнить и найти тот, который требует минимального размера выборки (эмпирическое сравнение).
Данные: Эксперимент предлагается провести на модельных и реальных данных. Модельный эксперимент состоит в анализе устойчивости (слегка нелинейных) дифференциальных уравнений (синтетические данные генерируются самостоятельно). Второй эксперимент состоит в анализе устойчивости энергетических систем (данные matpower, pypower, GridDyn).
Литература:
1. Art Owen. Quasi Monte Carlo Sampling. LINK
2. Jian Cheng & Marek J. Druzdzel. Computational Investigation of Low-Discrepancy Sequences in Simulation Algorithms for Bayesian Networks [3]
3. A. Owen, Y Maximov, M. Chertkov. Importance Sampling for the Union of Rare Events with Applications to Power Systems [4]
4. Polson and Solokov. Deep Learning: A Bayesian Perspective [5]
5. Кроме того: у авторов задачи есть черновик работы по этой теме
Базовой алгоритм: Базовый алгоритм, который мы улучшаем, это Quasi Monte Carlo (QMC, [6]). Задача построить последовательности с низким разбросом (low discrepancy sequence) не покрывающее полиэдральную область и область, данную пересечением квадратичных ограничений. Еще один алгоритм, с которым нам потребуется сравнение:

E. Gryazina, B. Polyak. Random Sampling: a Billiard Walk Algorithm LINK и с алгоритмами типа Hit and Run [7]

Решение: методы семплирования по важности, в частности расширение подхода (Boy, Ryi, 2014) и (Owen, Maximov, Chertkov, 2017) и их приложения к ML/DL для физических задач
Новизна: в существенном снижении сложности выборки и явном использовании имеющихся и аналитических результатов и лернинга для решения физических задач, до этого ML подходы и аналитические решения шли по большей части параллельными курсами
Авторы: эксперт Юрий Максимов, консультант Юрий Максимов и Александр Лукашевич, студент.

Задача 81

Название: NAS — Порождение и выбор архитектур нейронных сетей
Задача: Задача выбора оптимальной архитектуры нейросети ставится как задача семплирования вектора структурных параметров. Критерий оптимальности определяется в терминах точности, сложности и устойчивости модели. Сама процедура семплирования состоит из двух шагов: порождение новой структуры и отклонение этой структуры, если она не удовлетворяет критерию оптимальности. Предлагается исследовать различные способы семплирования. Постановка задачи выбора оптимальной структуры описана в работе Потанин-1
Данные: : В качестве данных предлагается два отдельных множества. Первое – состоит из одного элемента, это популярный датасет MNIST. Плюсы – является сильным и общепринятым бейзлайном, использовался как бенчмарк для статьи WANN, довольно большой (многоклассовая классификация). Второе множество – набор датасетов для задачи регрессии. Размер варьируется от совсем маленького до довольно большого. Вот ссылка на датасет и ноутбук для загрузки данных данные.
Литература:
1. Потанин - 1
2. Потанин - 2. Еще одна работа, текст передается заинтересованному студенту, но без публикации.
3. Стрижов завлаб Функция ошибки
4. Informtica
5. WANN
6. DARTS
7. Symbols
8. NEAT
Базовой алгоритм: Ближайшая по теме работа, и ее код реализации. Актуальный код от консультанта.
Решение: Сейчас уже выполнен ряд экспериментов, где семплирования производится генетическим алгоритмом. Получены приемлемые результаты. Предлагается их проанализировать и улучшить. А именно, выделить два модуля: порождение и отклонение и сравнить несколько видов семплирования. Базовый — Importance sampling, желанный — Metropolis-Hastings (или даже Metropolis-Langevin) sampling. Так как генетический алгоритм рассматривается нами как процесс со скачками, то предлагается учесть это при проектировании процедуры семплирования. Бонус MH в том, что он имеет байесовскую интерпретацию. Первый уровень байесовского вывода применительно к MH описан в работе [Informatica]. Требуется либо переписать его в терминах распределения структурных параметров, либо вообще расписать оба уровня, вынеся структурные параметры во второй уровень (кстати, примерно то же будет в задаче Адуенко).
Новизна: Нейронные сети отлично справляются с задачами компьютерного зрения, обучения с подкреплением и обработки естественного языка. Одна из главных целей нейросетей -хорошо выполнять задачи, которые в настоящее время решаются исключительно человеком, то есть природными нейронными сетями людей. Искусственные нейросети по-прежнему работают совсем не так, как естественные нейронные сети. Одно из основных различий заключается в том, что естественные нейронные сети со временем развиваются, меняя силу связей и свою архитектуру. Искусственные нейронные сети могут регулировать силу соединений с помощью весов, но не могут изменять свою архитектуру. Поэтому задача выбора оптимальных структур нейросетей под конкретные задачи представляется важным шагом в развитии способностей нейросетевых моделей.
Авторы: консультант Марк Потанин, эксперт Вадим Стрижов.

Задача 82

Название: Обучение с экспертом для выборки со многими доменами.
Задача: Рассматривается задача аппроксимации multi-domain выборки единой мультимоделью — смесью экспертов. В качестве данных предполагается использовать выборку, которая содержит в себе несколько доменов. Метка домена для каждого объекта отсутствует. Каждый домен аппроксимируется локальной моделью. В работе рассматривается двухэтапная задача оптимизации на основе ЕМ-алгоритма.
Данные: В качестве данных используются выборки отзывов сайта Amazon для разных типов товара. В качестве локальной модели предполагается использовать линейную модель, а в качестве признакового описания отзывов использовать tf-idf вектора внутри каждого домена.
Литература:
Базовый алгоритм и решение: Базовое решение представлено тут. В работе используется метод смеси экспертов для задачи Multi-Soruce domain adaptation задачи. Код к статье доступен по ссылке.
Новизна: На текущий момент в машинном обучении появляется все больше задач связанных с данными, которые взяты с разных источников. В данном случае появляются выборки, которые состоят из большого количества доменов. На текущий момент не существует полного теоретического обоснования построения смесей локальных моделей для аппроксимации такого рода выборок.
Авторы: Грабовой А.В., Стрижов В.В.

Задача 17

Название: BCI: Выбор согласованных моделей для построения нейроинтерфейса
Задача: При построении систем нейрокомпьютерного интерфейса (brain-computer interface) используются простые, устойчивые модели. Важным этапом построения интерфейса является такой модели является адекватный выбор модели. Рассматривается широкий набора моделей: линейные, простые нейросети, рекуррентные сети, трансформеры. Особенность задачи в том, что при прогнозе требуется моделировать не только исходный сигнал, снимаемый с коры головного мозга, но и целевой, снимаемый с конечностей. Таким образом, требуется построить две модели. Чтобы они работали вместе, строится пространство согласований. Предлагается исследовать свойства этого пространства и свойства получаемого прогноза (нейроинтерфейса) на различных парах моделей.
Данные: Наборы данных сигналов мозга ECoG/EEG.
1. Нужен ECoG (25 набор данных содержит записи ЭЭГ, ЭОГ и движения руки) http://bnci-horizon-2020.eu/database/data-sets
2. neyrotycho — наши старые данные.
Литература:
1. Яушев Ф.Ю., Исаченко Р.В., Стрижов В.В. Модели согласования скрытого пространства в задаче прогнозирования // Системы и средства информатики, 2021, 31(1). PDF
2. Исаченко Р.В. Выбор модели декодирования сигналов в пространствах высокой размерности. Рукопись, 2021. PDF
3. Исаченко Р.В. Выбор модели декодирования сигналов в пространствах высокой размерности. Слайды, 2020. [8]
4. Isachenko R.V., Vladimirova M.R., Strijov V.V. Dimensionality reduction for time series decoding and forecasting problems // DEStech Transactions on Computer Science and Engineering, 2018, 27349 : 286-296. PDF
5. Isachenko R.V., Strijov V.V. Quadratic Programming Optimization with Feature Selection for Non-linear Models // Lobachevskii Journal of Mathematics, 2018, 39(9) : 1179-1187. PDF
6. Motrenko A.P., Strijov V.V. Multi-way feature selection for ECoG-based brain-computer interface // Expert Systems with Applications, 2018, 114(30) : 402-413. PDF
7. Eliseyev A., Aksenova T. Stable and artifact-resistant decoding of 3D hand trajectories from ECoG signals using the generalized additive model //Journal of neural engineering. – 2014.
Базовый алгоритм: Описан в первой работе. Код имеется. В той работе данные — две части изображения. В нашей работе сигнал головного мозга и движение рук. Сверхзадача: довести до ума первую работу. Также код и работы тут.
Решение: Рассматривается случай, когда исходные данные гетерогенны: пространства независимой и целевой переменных имеют разную природу. Требуется построить предсказательную модель, которая бы учитывала зависимость в исходном пространстве независимой переменной, а также в пространстве целевой переменной. Предлагается исследовать точность, сложность и устойчивость пар разнообразных моделей. Так как при построении прогноза решается обратная задача, требуется построить обратные преобразования для каждой модели. Для этого можно использовать как базовые приемы (PLS), так и потоки.
Новизна: Анализ прогноза и латентного пространства, получаемых парой гетерогенных моделей.
Авторы: консультант Роман Исаченко, эксперт Вадим Стрижов

Задача 69

«Название»: Graph Neural Network in Reaction Yield prediction
«Задача»: There are disconnected graphs of source molecules and products in a chemical reaction. The yield of the main product in the reaction is known. It is required to design an algorithm that predicts yield by solving the regression task on given disconnected graphs.
«Данные»: Database of reaction from US patents [9]
Литература:
- [10] A general overview.
- [11] Relational Graph Convolution Neural Network
- [12] Transformer architecture
- [13] Graph neural network learning for chemical compounds synthesis
«Базовый алгоритм»: Transformer model. The input sequence is a SMILES representation of the source and product molecules.
«Решение»: A pipeline for working with disconnected graphs is proposed. The pipeline includes the construction of extended graph with molecule and reaction representation, Relational Graph Convolution Neural Network, Encoder of Transformer. The method is applied to solve yield predictions.
«Новизна» A solution for regression problem on the given disconnected graph is constructed; the approach demonstrates better performance compared with other solutions
«Авторы»: Nikitin Filipp, Isayev Olexandr, Vadim Strijov

Задача 84

Название: Регуляризация траектории оптимизации параметров модели глубокого обучения на основе дистилляции знаний
Задача: Рассматривается задача оптимизации параметров модели глубокого обучения. Рассматривается случай, когда при оптимизации доступны ответы более сложной модели (модели-учителя). Классическим подходом к решению такой задачи является обучение с учетом ответов сложной модели (дистилляция знаний). Назначение гиперпараметров производится эмпирически на основе результатов работы модели на отложенной выборке. В данной работе предлагается рассмотреть модификацию подхода к дистилляции знаний, в котором гиперпараметрами выступает коэффициент значимости дистиллирующего слагаемого, а также его градиенты. Обе эти группы параметров позволяют скорректировать оптимизацию параметров модели. Для оптимизации гиперпараметров предлагается рассматривать задачу оптимизации как двухуровневую задачу оптимизации, где на первом уровне оптимизации решается задача оптимизации параметров модели, а на втором --- приближенно решается задача оптимизации гиперпараметров по значению функции потерь на отложенной выборке.
Данные: выборка изображений CIFAR-10
Литература:
Базовый алгоритм: оптимизация модели без дистилляции и со стандартным подходом к дистилляции
Решение: Использование двухуровневой задачи для оптимизации модели. Комбинация градиентов для обоих слагаемых обрабатывается отдельной моделью (LSTM)
Новизна: Будет предложен новый подход к дистилляции модели, позволяющий значительно улучшить эксплуатационные характеристики моделей, обучающихся в режиме использования привилегированной информации. Также планируется изучить динамику изменения гиперпараметров в процессе оптимизации.
Авторы: Олег Бахтеев, Вадим Стрижов

Задача 85

Название: Дифференцируемый алгоритм поиска архитектуры модели с контролем её сложности
Задача: рассматривается задача выбора структуры модели глубокого обучения с заранее заданной сложностью. Требуется предложить метод поиска модели, позволяющий контролировать её сложность с небольшими вычислительными затратами.
Данные: MNIST, CIFAR
Литература:
1. Гребенькова О.С., Бахтеев О., Стрижов В.В. Вариационная оптимизация модели глубокого обучения с контролем сложности // Информатика и ее применения, 2021, 15(2). PDF
2. DARTS
3. гиперсети
Базовый алгоритм: DARTS
Решение: Предлагаемый метод заключается в использовании дифференцируемого алгоритма поиска архитектуры нейросети(DARTS) с контролем сложности параметров при помощи гиперсети.
Новизна: предложенный метод позволяет контролировать сложность модели, в процессе поиска архитектуры без дополнительных эвристик.
Авторы: О.Ю. Бахтеев, O. C. Гребенькова

Задача 86

Название: Learning co-evolution information with natural language processing for protein folding problem
Задача: One of the most essential problems in structural bioinformatics is protein fold recognition since the relationship between the protein amino acid sequence and its tertiary structure is revealed by protein folding. A specific protein fold describes the distinctive arrangement of secondary structure elements in the nearly-infinite conformation space, which denotes the structural characteristics of a protein molecule.
Полное описание: request
Авторы: Сергей Грудинин, Мария Кадукова.

Задача 87

Название: Байесовский выбор структур обобщенно-линейных моделей
Задача: Работа посвящена тестированию методов выбора признаков. Предполагается, что исследуемая выборка содержит значительное число мультиколлинеарных признаков. Мультиколлинеарность — это сильная корреляционная связь между отбираемыми для анализа признаками, совместно воздействующими на целевой вектор, которая затрудняет оценивание регрессионных параметров и выявление зависимости между признаками и целевым вектором. Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Показания датчиков коррелируют между собой. Необходимо выбрать оптимальный набор признаков для решения задачи прогнозирования.
Актуальность: Опубликован один наиболее предпочтительных алгоритмов выбора признаков. Он использует структурные параметры. Но теоретического обоснования не имеет. Предлагается построить теорию, описав и проанализировав различные функции априорного распределения структурных параметров. В работах по поиску структур нейросетей также пока нет внятной теории и списка априорных предположений.
Данные: Многомерные временные ряды с показаниями различных датчиков из работы 4, для начала все выборки из статьи 1.
Литература: Ключевые слова: bootstrap aggreagation, метод Белсли, векторная авторегрессия.
1. Katrutsa A.M., Strijov V.V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with Applications, 2017, 76 : 1-11. PDF
2. Katrutsa A.M., Strijov V.V. Stresstest procedure for feature selection algorithms // Chemometrics and Intelligent Laboratory Systems, 2015, 142 : 172-183. PDF
3. Стрижов В.В. Функция ошибки в задачах восстановления регрессии // Заводская лаборатория. Диагностика материалов, 2013, 79(5) : 65-73. PDF
4. Зайцев А.А., Стрижов В.В., Токмакова А.А. Оценка гиперпараметров регрессионных моделей методом максимального правдоподобия // Информационные технологии, 2013, 2 : 11-15. PDF
5. Kuznetsov M.P., Tokmakova A.A., Strijov V.V. Analytic and stochastic methods of structure parameter estimation // Informatica, 2016, 27(3) : 607-624. PDF
6. Катруца А.М., Стрижов В.В. Проблема мультиколлинеарности при выборе признаков в регрессионных задачах // Информационные технологии, 2015, 1 : 8-18. PDF
7. Нейчев Р.Г., Катруца А.М., Стрижов В.В. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования // Заводская лаборатория. Диагностика материалов, 2016, 82(3) : 68-74. PDF
Базовый алгоритм: Описан в работе 1: квадратичное программирование для выбора признаков QPFS. Код у Романа Исаченко.
Решение: Предлагается рассмотреть структурные параметры, используемые в QPFS на втором уровне байесовского вывода. Ввести информативные априорные распределения параметров и структурных параметров. Сравнить различные априорные предположения.
Новизна: Статистический анализ пространства структурных параметров и визуализация
Авторы: Александр Адуенко — консультант, Вадим Стрижов

Задача 88

Название: Поиск границ радужки методом круговых проекций
Задача: Дано монохромное растровое изображение глаза, см. примеры. Также известно приблизительное положение центра зрачка. Слово «приблизительное» означает то, вычисленный центр зрачка отстоит от истинного не более чем на половину его истинного радиуса. Необходимо определить приблизительные положения окружностей, аппроксимирующих зрачок и радужку. Алгоритм должен быть очень быстрым.
Данные: около 200 тыс. изображений глаз. Для каждого размечено положение истинных окружностей — в целях обучения и проверки создаваемого метода.
Базовой алгоритм: Для ускорения работы с изображением предлагается агрегирование данных при помощи круговых проекций яркости. Круговая проекция — функция, зависящая от радиуса, значение которой P(r) равно интегралу направленного градиента яркости изображения по окружности радиуса r (или по дуге окружности). Пример для одной дуги (правой четверти) и для четырёх дуг. Построив сколько-то круговых проекций, исходя из них, можно попытаться определить положение внутренней и внешней границ радужки (кольца) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.
Литература: Matveev I.A. Detection of Iris in Image By Interrelated Maxima of Brightness Gradient Projections // Applied and Computational Mathematics. 2010. V.9. N.2. P.252-257 PDF
Автор: Матвеев И.А.

And more

Задача 53

Название: Решение задачи оптимизации, сочетающей классификацию и регрессию, для оценки энергии связывания белка и маленьких молекул.
Задача: Целью задачи является решение задачи оптимизации с функциями потерь классификации и регрессии в применении к биологическим данным.
Данные: Около 12,000 комплексов белков с маленькими молекулами. Для классификации для каждого из них есть 1 правильное положение в пространстве и 18 сгенерированных неправильных, для регрессии каждому комплексу соответствует значение константы связывания (пропорциональна энергии). Основными дескрипторами являются гистограммы распределений расстояний между различными атомами.
Литература:
- https://www.overleaf.com/read/rjdnyyxpdkyj Подробно о задаче
- http://cs229.stanford.edu/notes/cs229-notes3.pdf SVM
- http://scikit-learn.org/stable/modules/linear_model.html#ridge-regression Ridge Regression
- https://alex.smola.org/papers/2003/SmoSch03b.pdf SVR
Базовой алгоритм: В задаче классификации мы использовали алгоритм, похожий на линейный SVM, связь которого с оценкой энергии, выходящей за рамки задачи классификации, описана в статье https://hal.inria.fr/hal-01591154/. Для MSE в качестве функции потерь регрессии уже есть сформулированная двойственная задача, с реализации которой можно начать.
Решение: Первым этапом будет решение задачи с MSE в функции потерь с использованием удобного для вас солвера. Основной трудностью может стать большая размерность данных, но они разрежены. Далее можно будет менять формулировку задачи.
Новизна: Многие модели, используемые для предсказания взаимодействий белков с лигандами, "переобучены" под какую-либо задачу. Например, модели, хорошо предсказывающие энергии связывания, могут плохо выбирать связывающуюся с белком молекулу из множества несвязывающихся, а модели, хорошо определяющие правильную геометрию комплекса, могут плохо предсказывать энергии. В данной задаче предлагается рассмотреть новый подход борьбы с таким переобучением, поскольку сочетание функций потерь классификации и регрессии видится нам очень естественной регуляризацией.
Авторы: Сергей Грудинин, Мария Кадукова.

Задача 75

Название: Выравнивание элементов изображений с помощью метрических моделей.
Задача: Задан набор символов. Каждый символ представлен одним файлом - изображением. Размер изображений в пикселях может отличаться. Известно, что все изображения принадлежат одному классу, например, лица, буквы, цветы или машины. (Более сложный вариант - одному классу, который мы исследуем и шумовым классам.) Известно, что каждое изображение может быть и помощью выравнивающей трансформации совмещено с другим с точностью до шума, либо до некоторого усредненного изображения. (Это изображение может как присутствовать, так и отсутствовать в выборке). Эта выравнивающая трансформация задается в базовом случае нейросетью, а в предлагаемом - параметрическим преобразованием из некоторого заданного класса (первое - частный случай второго). Выравненное изображение сравнивается с исходным с помощью функции расстояния. Если расстояние между двумя изображениями статистически значимо, делается вывод о принадлежности изображений одному классу. Требуется 1) предложить адекватную модель выравнивающей трансформации, которая берет в расчет предположения о характере изображения (например, только вращение и пропорциональное масштабирование), 2) предложить функцию расстояния, 3) преложить способ нахождения усредненного изображения.
Данные: Синтетические и реальные 1) картинки - лица и символы с трансформацией вращения и растяжения, 2) лица и автомобили с транфсормацией вращения 3D с проекцией в 2D. Синтетические изображения предлагается создавать вручную с помощью 1) фотографий листа бумаги, 2) фотографий поверхности рисунка на воздушном шарике.
Литература
1. опорная работы - выравнивание картинок с помощью 2D DTW,
2. опорная работа - выравнивание картинок с помощью нейросетей,
3. работы по выравниванию DTW в 2D,
4. работы по параметрическому выравниванию.
Базовой алгоритм: из работы 1.
Решение: В прилагаемом файле pdf.
Новизна: Вместо многомерного выравнивания изображений предлагается параметрическое выравнивание.
Авторы: Алексей Гончаров, Вадим Стрижов

Задача 80

Название: Обнаружение корреляций между активностью в социальных сетях и капитализацией компаний
Задача: в настоящее время существенное влияние на биржевые котировки акций, капитализацию компании и успех или неуспех IPO зависит от социальных факторов, таких как общественное мнение, выраженное в социальных сетях. Недавним ярким примером является изменение котировок компании GameStore, вызванное всплеском активности в Reddit. Нашей задачей на первом этапе является выявление котировок между акциями компаний разного сегмента и активностью в социальных сетях. То есть необходимо выявить корреляции между значительными изменениями в капитализации компании и предшествующими всплесками (положительными или отрицательными) ее обсуждения в социальных сетях. То есть необходимо найти минимум лосс функции при восстановлении зависимости в различных классах моделей (параметрика, нейронные сети и тп). Данная задача часть большого проекта по анализу анализу рынков и влияния социальных факторов на риски (в рамках команды из 5-7 профессоров), которая приведет к серии публикаций достаточной для защиты диссертации.
Данные: Задача имеет существенный инженерный контекст, данные – выгрузки из котировок на Московской бирже, а также данные NYT и reddit (кроулинг и парсинг делается стандартными инструментами). У студента, работающего над этой задачей, должны быть сильные инженерные навыки и желание заниматься как практикой машинного обучения, так и инженерными частями задачами.
Литература:
1. Paul S. Adler and Seok-Woo Kwon. Social Capital: Prospects for a new Concept. [14]
2. Kim and Hastak. Social network analysis: Characteristics of online social networks after a disaster LINK
3. Baumgartner, Jason, et al. "The pushshift reddit dataset." Proceedings of the International AAAI Conference on Web and Social Media. Vol. 14. 2020. [15]
Базовой алгоритм: Базовые алгоритмы это LSTM и Graph neural networks.
Решение: Начнем с применения LSTM, далее попробуем несколько его стандартных расширений
Новизна: В данной области достаточно много экономических, модельных решений, однако точность этих решений не всегда высока. Применение современных ML/DL моделей, как ожидается, существенно повысит качество решения.
Авторы: эксперт Юрий Максимов, консультант Юрий Максимов, студент.

Задача 88b

Название: Поиск зрачка на изображении глаза методом проекций яркости
Задача: Дано монохромное растровое изображение глаза, см. примеры. Необходимо определить приблизительные координаты центра зрачка. Слово «приблизительные» означает то, что вычисленный центр зрачка должен лежать внутри окружности с центром в истинном центре зрачка и половинного истинного радиуса. Алгоритм должен быть очень быстрым.
Данные: около 200 тыс. изображений глаз. При для каждого размечено положение истинной окружности — в целях обучения и проверки создаваемого метода.

Базовой алгоритм: Для ускорения работы с изображением предлагается агрегирование данных при помощи проекций яркости. Яркость изображения — функция двух дискретных аргументов. Её проекция на горизонтальную ось равна. Аналогично строятся проекции на оси с наклоном. Построив несколько проекций (две, четыре), исходя из них, можно попытаться определить положение зрачка (компактной тёмной области) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.

Литература: Zhi-Hua Zhou, Xin Geng Projection functions for eye detection // Pattern Recognition. 2004. V.37ю N.5. P.1049-1056. PDF
Автор: Матвеев И.А.

Задача 88c

Название: Поиск века на изображении как параболического контура методом проекций.
Задача: Дано монохромное растровое изображение глаза, см. примеры. Необходимо найти контур верхнего века как параболу, то есть определить параметры.
Данные: около 200 тыс. изображений глаз. При некоторых (около 2500) экспертом-человеком размечено положение параболы, приближающей веко.
Базовой алгоритм: Первый шаг — предобработка изображения фильтром вертикального градиента с дальнейшей бинаризацией, ниже — типичный результат. На следующем шаге возможны различные варианты. Например, если известны коодрдинаты зрачка, можно задать область интереса (сверху) и в ней по выделенным точка построить параболу аппроксимацией методом наименьших квадратов. Пример результата дан ниже. Возможны более тонкие методы, например, поиск параболы преобразованием Хафа (см. в Википедии). Ещё один способ — использование проективных методов (преобразование Радона). Основная идея: задавшись коэффициентом , применить к изображению преобразование координат в результате которого все параболы вида formula переходят в прямые вида , далее задавшись коэффициентом , применить преобразование координат где , после чего наклонные прямые вида formula переходят в горизонтальные, которые легко определить, например, горизонтальным проецированием (суммированием значений в строках матрицы полученного изображения. Если коэффициенты угаданы правильно, перабола, представляющая веко, даст чёткий максимум в проекции. Перебирая formula (имеющие физический смысл) можно найти, те, что дают максимальное значение проекции, и считать что таким образом определена искомая парабола — веко.
Литература: Википедия, статьи «Преобразование Хафа», «Преобразование Радона».
Автор: Матвеев И.А.

Задача 62

Название: Построение метода динамического выравнивания многомерных временных рядов, устойчивого к локальным колебаниям сигнала.
Задача: В процессе работы с многомерными временными рядами распространена ситуация близкого расположения датчиков, соответствующих различным каналам измерений. В результате малые смещения сигнала в пространстве могут приводить к фиксации пика сигнала соседними датчиками, что ведет к значительным различиям измерений в смысле L2 расстояния.
Таким образом, малые смещения сигнала приводят к появлению значительных флуктуаций показаний датчиков. Рассматривается задача построения функции расстояния между точками временных рядов, устойчивой к шуму, порожденному малыми пространственными смещениями сигнала. Необходимо рассмотреть задачу в приближении наличия карты расположения датчиков.
Данные:
- Измерения активность мозга обезьян
- Искусственно созданные данные (надо предложить несколько вариантов, например: движение сигнала в пространстве по часовой и против часовой стрелки)
Литература:
Базовый алгоритм: L2 расстояние между парой измерений.
Решение: использовать функцию расстояния DTW между двумя многомерными временными рядами. Выравниваются две оси времени, при этом внутри функционала DTW выбирается расстояние между i-м и j-м измерениями такое, что оно устойчиво к локальным “сдвигам” сигнала. Требуется предложить такой функционал. Базовое решение - L2, улучшенное решение - DTW между i-м и j-м измерениями (dtw внутри dtw).
Можно предложить какую-либо модификацию, например расстояния между скрытыми слоями автоэнкодера для точек i и j.
Новизна: Предлагается способ выравнивания многомерных временных рядов, учитывающий малые колебания сигнала в пространстве.
Авторы: В.В. Стрижов - эксперт, Глеб Моргачев, Алексей Гончаров - консультанты.

Задача 58

«Название»: Преобразование алгоритма Gerchberg-Saxton с помощью байесовских нейросетей. (или Нейросетевой подход в задаче фазового поиска для изображений с европейского синхротрона)
«Задача»: Цель проекта - повысить качество разрешения изображений наноразмерных объектов, полученных в лабораториях Европейского фонда синхротронного излучения.
«Данные»: а данными обращаться к консультанту (3GB).

Литература:

- [16] Iterative phase retrieval in coherent diffractive imaging: practical issues
- [17] X-ray nanotomography of coccolithophores reveals that coccolith mass and segment number correlate with grid size
- [18] Lens-free microscopy for 3D + time acquisitions of 3D cell culture
- [19] DEEP ITERATIVE RECONSTRUCTION FOR PHASE RETRIEVAL
- https://docs.google.com/document/d/1K7bIzU33MSfeUvg3WITRZX0pe3sibbtH62aw42wxsEI/edit?ts=5e42f70e LinkReview
«Базовый алгоритм»: Переход из прямого пространства в обратное пространство происходит с помощью преобразования Фурье. Преобразование Фурье - это линейное преобразование. Поэтому предлагается его аппроксимировать нейросетью. Например автокодировщик для моделирования прямого и обратного Фурье преобразования.
«Решение»: Преобразование алгоритма Gerchberg-Saxton c помощью байесовских нейросетей. Использование информации о физических ограничениях и экспертные знания.
«Новизна» Использование информации о физических ограничениях и экспертные знания при построении функции ошибки.
«Авторы»: эксперты Сергей Грудинин, Юрий Чушкин, В.В. Стрижов. консультант Марк Потанин

Задача 63

Название: Иерархическое выравнивание временных последовательностей.
Задача: Рассматривается задача выравнивания последовательностей сложных событий. Примером может служить сложносоставное поведение человека: при рассмотрении данных IMU-датчиков можно выдвинуть гипотезу: есть исходный сигнал, есть агрегаты “элементарных действий” и есть агрегаты “действий” человека. Каждый из указанных уровней абстракции можно выделить и оперировать именно им.
Для того, чтобы проводить точное распознавание последовательности действий возможно применять метрические методы (например DTW, как способ, устойчивый к временным сдвигам). Для более точного качества выравнивания временной шкалы возможно проводить выравнивание на разных уровнях абстракций.
Предлагается исследовать такой иерархический подход к выравниванию последовательностей, основанный на возможности применения алгоритмов выравнивания к объектам разной структуры, имея функцию расстояние на них.
Литература:
Базовый алгоритм: классический DTW.
Решение: Предлагается выполнять переход от одного уровня абстракции к другому путем применения сверточных и рекуррентных нейронных сетей. Тогда объектом на нижнем уровне абстракции служит исходный сигнал. На втором уровне - сигнал из скрытого слоя модели (построенной на объектах нижнего уровня), размерность которого много меньше, а верхнего слоя - сигнал из скрытого слоя модели (построенной на объектах среднего уровня).
При этом DTW вычисляется отдельно между нижними, между средними и между верхними уровнями, но формирование объектов для расчета расстояния осуществляется с учетом выравнивающего пути между объектами предыдущего уровня.
Данный метод рассматривается как способ повышения интерпретируемости процедуры выравнивания и точности классификации действия в связи с переходом к более высокоуровневым паттернам. Кроме того, ожидается существенное увеличение скорости работы.
Новизна: Предлагается идея выравнивания временных последовательностей одновременно на нескольких уровнях абстракции. Метод должен существенно улучшить интерпретируемость алгоритмов выравнивания и повысить скорость их работы.
Авторы: В.В. Стрижов - эксперт, Глеб Моргачев, Алексей Гончаров - консультанты.

Задача 57

«Название»:Аддитивная регуляризация и в задачах привилегированного обучения при решении задачи прогнозирования состояния океана
«Задача»: Есть выборка данных с океанских буйков, требуется прогнозировать состояние океана в разные моменты времени.
«Данные»: От буйков поступают данные о высоте волн, скорости ветра, направления ветра, периоде волны, давление на уровне моря, температура воздуха и температура поверхности моря с разрешением от 10 минут до 1 часа.
Литература:
- [20]
«Базовый алгоритм»: Использование простой нейросети.
«Решение»:Добавление к базовому алгоритму(простая нейросеть) системы дифференциальных уравнений. Исследовать свойства пространства параметров учителя и ученика согласно привилегированному подходу.
«Новизна» Исследование пространства параметров учителя и ученика и их изменение. Возможно настроить отдельно модели учителя и ученика и проследить на изменением их параметров в процессе оптимизации - дисперсия, изменение качества ученика при добавлении информации учителя, сложность.
«Авторы»: В.В. Стрижов, Марк Потанин

Задача 52

Название: Предсказание качества моделей белков с помощью сферических сверток на трехмерных графах.
Задача: Целью данной работы является создание и исследование новой операции свертки на трехмерных графах в рамках решения задачи оценивания качества трехмерных моделей белков (задача регрессии на узлах графа).
Данные: Используются модели, сгенерированные участниками соревнований CASP (http://predictioncenter.org).
Литература:
- [21] Подробно о задаче.
- [22] Relational inductive biases, deep learning, and graph networks.
- [23] Geometric deep learning: going beyond euclidean data.
Базовой алгоритм: В качестве базового алгоритма будем использовать нейросеть, основанную на методе свертки на графах, который в общем виде описывается в [24].
Решение: Наличие в белках пептидной цепи позволяет однозначно вводить локальные системы координат для всех узлов графа, что дает возможность создавать и применять сферические фильтры независимо от топологии графа.
Новизна: В общем случае графы являются нерегулярными структурами, а во многих задачах обучения на графах объекты выборки не имеют единой топологии. Поэтому существующие операции сверток на графах очень сильно упрощены, либо не обобщаются на разные топологии. В данной работе предлагается рассмотреть новый способ построения операции свертки на трехмерных графах, для которых возможно однозначно выбрать локальные системы координат, привязанные к каждому узлу.
Авторы: Сергей Грудинин, Илья Игашов.

Задача 44+

Название: Ранее прогнозирование достаточного объема выборки для обобщенно линейной модели.
Задача: Исследуется проблема планирования эксперимента. Решается задача оценивания достаточного объема выборки по данным. Предполагается, что выборка является простой. Она описывается адекватной моделью. Иначе, выборка порождается фиксированной вероятностной моделью из известного класса моделей. Объем выборки считается достаточным, если модель восстанавливается с достаточной достоверностью. Требуется, зная модель, оценить достаточный объем выборки на ранних этапах сбора данных.
Цель: на малой простой iid выборке спрогнозировать ошибку на пополняемой большой. Прогностическая модель гладкая монотонная в двух производных. Выбор модели полный перебор или генетика. Модель зависит от редуцированной (исследовать) матрицы ковариации параметров GLM.
Данные: Для вычислительного эксперимента предлагается использовать классические выборки из UCI репозитория. Ссылка на выборки https://github.com/ttgadaev/SampleSizeEstimation/tree/master/datasets
Литература:

Bishop, C. 2006. Pattern Recognition and Machine Learning. Berlin: Springer. 758 p.

Базовый алгоритм: Будем говорить, что объем выборки достаточный, если логарифм правдоподобия имеет малую дисперсию, на подборке размера m, посчитанную при помощи бутстрепа.

Пытаемся аппроксимировать зависимость среднего значения log-likelihood и его дисперсии от размера выборки.

Решение: Методы описанные в обзоре являются асимптотическими или же требуют заведомо большого размера выборки. Новый метод должен заключаться в том, чтобы прогнозировать объем на начальных этапах планирования эксперимента, то есть когда данных мало.
Авторы: Малиновский Г. (консультант), Стрижов В. В. (эксперт)

Задача 12

Название: Обучение машинного перевода без параллельных текстов.
Задача: Рассматривается задача построения модели перевода текста без использования параллельных текстов, т.е. пар одинаковых предложений на разных языках. Данная задача возникает при построении моделей перевода для низкоресурсных языков (т.е. языков, для которых данных в открытом доступе немного).
Данные: Выборка статей из Wikipedia на двух языках.
Литература:
- [25] Unsupervised Machine Translation Using Monolingual Corpora Only
- [26] Sequence to sequence.
- [27] Autoencoding.
- [28] Training with Monolingual Training Data.
Базовый алгоритм: Unsupervised Machine Translation Using Monolingual Corpora Only.
Решение: В качестве модели перевода предлагается рассмотреть кобминацию двух автокодировщиков, каждый из которых отвечает за представление предложений на одном из языков. Оптимизация моделей проводится таким образом, чтобы скрытые пространства автокодировщиков для разных языков совпадали. В качестве исходного представления предложений предлагается рассматривать их графовое описание, получаемое с использованием мультиязычных онтологий.
Новизна: Предложен способ построения модели перевода с учетом графовых описаний предложений.
Авторы: О.Ю. Бахтеев, В.В. Стрижов,

Задача 8

Название: Порождение признаков с помощью локально-аппроксимирующих моделей (Классификация видов деятельности человека по измерениям фитнес-браслетов).
Задача: Требуется проверить выполнимость гипотезы о простоте выборки для порожденных признаков. Признаки - оптимальные параметры аппроксимирующих моделей. При этом вся выборка не является простой и требует смеси моделей для ее аппроксимации. Исследовать информативность порожденных признаков - параметров аппроксимирующих моделей, обученных на сегментах исходного временного ряда. По измерениям акселерометра и гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. Характерная продолжительность движения – секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности – минуты. Требуется по описанию временного ряда и кластера восстановить вид деятельности.
Данные: Временные ряды акселерометра WISDM (Временной ряд (библиотека примеров), раздел Accelerometry).
- WISDM (Kwapisz, J.R., G.M. Weiss, and S.A. Moore. 2011. Activity recognition using cell phone accelerometers. ACM SigKDD Explorations Newsletter. 12(2):74–82.), USC-HAD или сложнее. Данные акселерометра (Human activity recognition using smart phone embedded sensors: A Linear Dynamical Systems method, W Wang, H Liu, L Yu, F Sun - Neural Networks (IJCNN), 2014)
Литература:
- Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. URL
- Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016.URL
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. URL
- Исаченко Р.В., Стрижов В.В. Метрическое обучение в задачах многоклассовой классификации временных рядов // Информатика и ее применения, 2016, 10(2) : 48-57. URL
- Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. URL
- Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. URL
Базовый алгоритм: Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] и [Кузнецов, Ивкин: 2014].
Решение: Требуется построить набор локально-аппроксимирующих моделей и выбрать наиболее адекватные. Найти оптимальный способ сегментации и оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
Новизна: Создан стандарт построения локально-аппроксимирующих моделей. Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.
Авторы: В.В. Стрижов (эксперт), Александра Гальцева, Данил Сайранов (консультанты)

2020

Моя первая научная статья

Участвуют эксперты, индивидуальные консультанты и студенты кафедры Интеллектуальные системы ФУПМ МФТИ.

Описание курса
История 2019 (674) — 2019 (694) — 2018 — 2017 — 2016 — 2015 — 2014 — 2013
Видео докладов по курсу на канале Machine Learning на Youtube
Рекомендуемые учебники
Короткая ссылка на эту страницу: bit.ly/m1p_2020

Роли

Эксперт: поставщик задачи, владелец данных, либо тот, кто гарантирует новизну и актуальность работы.

Результаты

Автор	Тема научной работы	Ссылки	Консультант	Буквы	Рецензент
Гребенькова Ольга	Вариационная оптимизация моделей глубокого обучения с контролем сложности модели	LinkReview GitHub Paper Slides Video	Олег Бахтеев	AILP+UXBR+HCV+TEDWS	Шокоров Вячеслав Review
Шокоров Вячеслав	Распознавание текста на основе скелетного представления толстых линий и сверточных сетей	LinkReview GitHub Paper Slides Video	Денис Ожерелков	AIL	Гребенькова Ольга Review
Филатов Андрей	Прогнозирование намерений. Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга	LinkReview GitHub Paper Slides Video	Валерий Маркин	AILPHUXBRCVTEDWS	Христолюбов Максим Review
Исламов Рустем	Анализ свойств ансамбля локально аппроксимирующих моделей	LinkReview GitHub Paper Slides Video	Андрей Грабовой	AILPHUXBRCVTEDWS	Гунаев Руслан Review
Жолобов Владимир	Ранее прогнозирование достаточного объема выборки для обобщенно линейной модели.	LinkReview GitHub Paper Slides Video	Григорий Малиновский	AILPHUXBRCVTEWSF	Вайсер Кирилл Review
Вайсер Кирилл	Аддитивная регуляризация и ее метапараметры при выборе структуры сетей глубокого обучения	LinkReview GitHub Paper Slides Video	Марк Потанин	AILP+HUX+BRCV+TEDWS	Жолобов Владимир Review
Бишук Антон	Решение задачи оптимизации, сочетающей классификацию и регрессию, для оценки энергии связывания белка и маленьких молекул.	LinkReview GitHub Paper Slides Video	Мария Кадукова	AILPHUXBRCVTEDH	Филиппова Анастасия [Антон, не та ссылка]
Филиппова Анастасия	Step detection for IMU navigation via deep learning	LinkReview GitHub Paper Slides EnglishPaper Video	Тамаз Гадаев	AIL0PUXBRCVSF	Бишук Антон Review
Савельев Николай	Распределенная оптимизация в условиях Поляка-Лоясиевича	LinkReview GitHub Paper Slides Video	А. Н. Безносиков	AILPHUXBRCVTEDWS	Харь Александра Review
Харь Александра	Теоретическая обоснованность применения метрических методов классификации с использованием динамического выравнивания (DTW) к пространственно-временным объектам.	LinkReview GitHub Paper Slides Video	Глеб Моргачев, Алексей Гончаров	AILPHUXBRCVTEDCWS	Савельев Николай Review
Христолюбов Максим	Порождение признаков с помощью локально-аппроксимирующих моделей (Классификация видов деятельности человека по измерениям фитнес-браслетов)	LinkReview GitHub Paper Slides Video	Александра Гальцева, Данил Сайранов	AILPH	Филатов Андрей Review
Мамонов Кирилл	Нелинейное ранжирование результатов разведочного информационного поиска.	LinkReview GitHub Paper Slides Video	Максим Еремеев	AILPHU+XBRC+V+TEDHWJSF
Павличенко Никита	Предсказание качества моделей белков с помощью сферических сверток на трехмерных графах.	LinkReview GitHub Paper Slides Video	Сергей Грудинин, Илья Игашов	AILPUXBRHCVTEDH
Содиков Махмуд, Скачков Даниель	Agnostic neural networks	Code Paper Slides Video	Радослав Нейчев	AILPHUXBRC+VTEDHWJSF	Кулагин Петр Review
Гунаев Руслан	Graph Neural Network in Reaction Yield prediction	LinkReview Github Paper Slides Video	Филипп Никитин	AILPUXBRHCVTEDHWSF	Исламов Рустем Review
Яушев Фарух	Исследование способов согласования моделей с помощью снижения размерности пространства	LinkReview Github Paper Slides Video	Роман Исаченко	AILPUXBRHCVTEDHWJS	Жолобов Владимир Review

Расписание

Дата		N	Что делаем	Результат для обсуждения	Буква
Февраль	13	1	Организация работы, расписание, инструменты.	Инструменты подготовлены к работе.
	20	2	Выбрать задачу	Тема в ML и ссылка на работу в SF помещена напротив фамилии.
	27	3	Составить список публикаций по выбранной задаче, найти данные. Написать аннотацию и введение с обзором собранной литературы.	Аннотация (600 знаков), введение (1 страница), список литературы в bib-файле. Подготовить доклад 45 сек.	Abstract, Introduction, Literature
Март	5	4	Поставить задачу и сделать описание базового алгоритма, подготовить базовый вычислительный эксперимент.	Постановка задачи (0.5-1 страница), описание базового алгоритма.	Problem statement
	12	5	Поставить цель и распланировать отчет об эксперименте. Запустить базовый вычислительный эксперимент. Провести первичный анализ работы алгоритма. Показ статьи.	Базовый код, отчет о работе базового алгоритма, кратко.	Update, eXperiment palning, Basic code, Report, cHeck-1
	19	6	Поставить вычислительный эксперимент на основе предлагаемого алгоритма с учетом предыдущих результатов.	Код, визуализация полученных результатов, анализ ошибки, анализ качества.	Code, Visualization
	26	7	Описать алгоритм.	Теоретическая и алгоритмическая часть статьи (второй / третий раздел).	Theory
Апрель	2	8	Завершение вычислительного эксперимента.	Описание эксперимента с анализом ошибок.	Error
	9	9	Описание теоретической части и вычислительного эксперимента. Описание рисунков, выводы, заключение.	Черновой вариант статьи с разделами «Вычислительный экперимент» и «Заключение». Контрольная точка.	Document, сHeck-2
	16	10	Показ статьи в целом после контрольной точки, рецензия.	Статья в варианте для рецензирования.	RevieW
	23	11	Доработка статьи и подготовка ее в журнал. Подготовка презентации.	Статья подготовлена к подаче в журнал. Слайды.	Journal, Slides
	30	12	Подготовка доклада.	Доклады и обсуждение.	Final show

Работа и консультации

Работы сдаются в течение недели.
Желательна итеративная сдача работ, начинать показ лучше в выходные.
Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
Каждый этап работ +1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — A0. Мотивированный перенос работы — знак «A>». Недельное опоздание — знак «-».

Список проектов

Шаблон описания проекта — научной статьи

Название: Название, под которым статья подается в журнал.
Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
Авторы: эксперт, консультант.

Задача 58

«Название»: Преобразование алгоритма Gerchberg-Saxton с помощью байесовских нейросетей. (или Нейросетевой подход в задаче фазового поиска для изображений с европейского синхротрона)
«Задача»: Цель проекта - повысить качество разрешения изображений наноразмерных объектов, полученных в лабораториях Европейского фонда синхротронного излучения.
«Данные»: а данными обращаться к консультанту (3GB).

Литература:

- [29] Iterative phase retrieval in coherent diffractive imaging: practical issues
- [30] X-ray nanotomography of coccolithophores reveals that coccolith mass and segment number correlate with grid size
- [31] Lens-free microscopy for 3D + time acquisitions of 3D cell culture
- [32] DEEP ITERATIVE RECONSTRUCTION FOR PHASE RETRIEVAL
- https://docs.google.com/document/d/1K7bIzU33MSfeUvg3WITRZX0pe3sibbtH62aw42wxsEI/edit?ts=5e42f70e LinkReview
«Базовый алгоритм»: Переход из прямого пространства в обратное пространство происходит с помощью преобразования Фурье. Преобразование Фурье - это линейное преобразование. Поэтому предлагается его аппроксимировать нейросетью. Например автокодировщик для моделирования прямого и обратного Фурье преобразования.
«Решение»: Преобразование алгоритма Gerchberg-Saxton c помощью байесовских нейросетей. Использование информации о физических ограничениях и экспертные знания.
«Новизна» Использование информации о физических ограничениях и экспертные знания при построении функции ошибки.
«Авторы»: эксперты Сергей Грудинин, Юрий Чушкин, В.В. Стрижов. консультант Марк Потанин

Задача 57

«Название»:Аддитивная регуляризация и в задачах привилегированного обучения при решении задачи прогнозирования состояния океана
«Задача»: Есть выборка данных с океанских буйков, требуется прогнозировать состояние океана в разные моменты времени.
«Данные»: От буйков поступают данные о высоте волн, скорости ветра, направления ветра, периоде волны, давление на уровне моря, температура воздуха и температура поверхности моря с разрешением от 10 минут до 1 часа.
Литература:
- [33]
«Базовый алгоритм»: Использование простой нейросети.
«Решение»:Добавление к базовому алгоритму(простая нейросеть) системы дифференциальных уравнений. Исследовать свойства пространства параметров учителя и ученика согласно привилегированному подходу.
«Новизна» Исследование пространства параметров учителя и ученика и их изменение. Возможно настроить отдельно модели учителя и ученика и проследить на изменением их параметров в процессе оптимизации - дисперсия, изменение качества ученика при добавлении информации учителя, сложность.
«Авторы»: В.В. Стрижов, Марк Потанин

Задача 52

Название: Предсказание качества моделей белков с помощью сферических сверток на трехмерных графах.
Задача: Целью данной работы является создание и исследование новой операции свертки на трехмерных графах в рамках решения задачи оценивания качества трехмерных моделей белков (задача регрессии на узлах графа).
Данные: Используются модели, сгенерированные участниками соревнований CASP (http://predictioncenter.org).
Литература:
- [34] Подробно о задаче.
- [35] Relational inductive biases, deep learning, and graph networks.
- [36] Geometric deep learning: going beyond euclidean data.
Базовой алгоритм: В качестве базового алгоритма будем использовать нейросеть, основанную на методе свертки на графах, который в общем виде описывается в [37].
Решение: Наличие в белках пептидной цепи позволяет однозначно вводить локальные системы координат для всех узлов графа, что дает возможность создавать и применять сферические фильтры независимо от топологии графа.
Новизна: В общем случае графы являются нерегулярными структурами, а во многих задачах обучения на графах объекты выборки не имеют единой топологии. Поэтому существующие операции сверток на графах очень сильно упрощены, либо не обобщаются на разные топологии. В данной работе предлагается рассмотреть новый способ построения операции свертки на трехмерных графах, для которых возможно однозначно выбрать локальные системы координат, привязанные к каждому узлу.
Авторы: Сергей Грудинин, Илья Игашов.

Задача 51

Название: Анализ свойств ансамбля локально аппроксимирующих моделей.
Задача: В данной работе рассматривается задача построения универсального аппроксиматора --- мультимодели, которая состоит из заданого конечного набора локальных моделей. Каждая локальная модель аппроксимирует связную область в пространстве объектов. Предполагается, что совокупность локальных модели покрывают все пространство объектов. В качестве агрегирующий функции рассматривается выпуклая комбинация локальных моделей. В качестве коэффициентов выпуклой комбинации рассматривается функция зависящая от объекта --- шлюзовой функции.
Требуется: построить алгоритм оптимизации параметров локальных моделей и параметров шлюзовой функции. Требуется предложить метрику в пространстве объектов, метрику в пространстве моделей.
Данные:
1. Синтетически сгенерированные данные.
2. Данные прогнозирования потребления энергии. В качестве локальных моделей перелагается использовать модели: рабочий день, выходной день. (EnergyConsumption, Turk Electricity Consumption GermanSpotPrice).
Литература:
1. Обзор методов для оценки объема выборки
2. лекции Воронцова по композициям
3. лекции Воронцова по композициям
4. Esen Y.S., Wilson J., Gader P.D. Twenty Years of Mixture of Experts. IEEE Transactions on Neural Networks and Learning Systems. 2012. Issues. 23. No 8. P. 1177-1193.
5. Павлов К.В. Выбор многоуровневых моделей в задачах классификации, 2012
Базовый алгоритм: В качестве базового алгоритма предлагается использовать двух уровненную задачу оптимизации, где производится оптимизация локальных моделей на одной итерации и на следующей итерации производится оптимизация параметров шлюзовой функции.
Авторы: Грабовой А. В. (консультант), Стрижов В. В. (эксперт)

Задача 53

Название: Решение задачи оптимизации, сочетающей классификацию и регрессию, для оценки энергии связывания белка и маленьких молекул.
Задача: Целью задачи является решение задачи оптимизации с функциями потерь классификации и регрессии в применении к биологическим данным.
Данные: Около 12,000 комплексов белков с маленькими молекулами. Для классификации для каждого из них есть 1 правильное положение в пространстве и 18 сгенерированных неправильных, для регрессии каждому комплексу соответствует значение константы связывания (пропорциональна энергии). Основными дескрипторами являются гистограммы распределений расстояний между различными атомами.
Литература:
- https://www.overleaf.com/read/rjdnyyxpdkyj Подробно о задаче
- http://cs229.stanford.edu/notes/cs229-notes3.pdf SVM
- http://scikit-learn.org/stable/modules/linear_model.html#ridge-regression Ridge Regression
- https://alex.smola.org/papers/2003/SmoSch03b.pdf SVR
Базовой алгоритм: В задаче классификации мы использовали алгоритм, похожий на линейный SVM, связь которого с оценкой энергии, выходящей за рамки задачи классификации, описана в статье https://hal.inria.fr/hal-01591154/. Для MSE в качестве функции потерь регрессии уже есть сформулированная двойственная задача, с реализации которой можно начать.
Решение: Первым этапом будет решение задачи с MSE в функции потерь с использованием удобного для вас солвера. Основной трудностью может стать большая размерность данных, но они разрежены. Далее можно будет менять формулировку задачи.
Новизна: Многие модели, используемые для предсказания взаимодействий белков с лигандами, "переобучены" под какую-либо задачу. Например, модели, хорошо предсказывающие энергии связывания, могут плохо выбирать связывающуюся с белком молекулу из множества несвязывающихся, а модели, хорошо определяющие правильную геометрию комплекса, могут плохо предсказывать энергии. В данной задаче предлагается рассмотреть новый подход борьбы с таким переобучением, поскольку сочетание функций потерь классификации и регрессии видится нам очень естественной регуляризацией.
Авторы: Сергей Грудинин, Мария Кадукова.

Задача 54

Название: Поиск зрачка на изображении глаза методом проекций яркости.
Задача: Дано монохромное растровое изображение глаза, см. примеры (https://cloud.mail.ru/public/eaou/4JSamfmrh).

Необходимо определить приблизительные координаты центра зрачка. Слово «приблизительные» означает то, что вычисленный центр зрачка должен лежать внутри окружности с центром в истинном центре зрачка и половинного истинного радиуса. Алгоритм должен быть очень быстрым.

Данные: около 200 тыс. изображений глаз. При для каждого размечено положение истинной окружности — в целях обучения и проверки создаваемого метода.
Базовой алгоритм: Для ускорения работы с изображением предлагается агрегирование данных при помощи проекций яркости. Яркость изображения — функция двух дискретных аргументов I(x,y). Её проекция на горизонтальную ось равна P(x)=\sum \limits_y I(x,y). Аналогично строятся проекции на оси с наклоном. Построив несколько проекций (две, четыре), исходя из них, можно попытаться определить положение зрачка (компактной тёмной области) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.
Литература: Zhi-Hua Zhou, Xin Geng Projection functions for eye detection // Pattern Recognition. 2004. V.37ю N.5. P.1049-1056. https://doi.org/10.1016/j.patcog.2003.09.006
Авторы: Матвеев И.А.

Задача 55

Название: Поиск границ радужки методом круговых проекций
Задача: Дано монохромное растровое изображение глаза, см. примеры (https://cloud.mail.ru/public/2DBu/5c6F6e3LC). Также известно приблизительное положение центра зрачка. Слово «приблизительное» означает то, вычисленный центр зрачка отстоит от истинного не более чем на половину его истинного радиуса. Необходимо определить приблизительные положения окружностей, аппроксимирующих зрачок и радужку. Алгоритм должен быть очень быстрым.
Данные: около 200 тыс. изображений глаз. При для каждого размечено положение истинной окружности — в целях обучения и проверки создаваемого метода.
Базовой алгоритм: Для ускорения работы с изображением предлагается агрегирование данных при помощи круговых проекций яркости. Круговая проекция — функция, зависящая от радиуса, значение которой P(r) равно интегралу направленного градиента яркости изображения по окружности радиуса r (или по дуге окружности). Пример для одной дуги (правой четверти) и для четырёх дуг. Построив сколько-то круговых проекций, исходя из них, можно попытаться определить положение внутренней и внешней границ радужки (кольца) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.
Литература: Matveev I.A. Detection of Iris in Image By Interrelated Maxima of Brightness Gradient Projections // Applied and Computational Mathematics. 2010. V.9. N.2. P.252-257. https://www.researchgate.net/publication/228396639_Detection_of_iris_in_image_by_interrelated_maxima_of_brightness_gradient_projections
Авторы: Матвеев И.А.

Задача 56

Название: Построение локальных и универсальных интерпретируемых скоринговых моделей
Задача: Построить простую и интерпретируемую скоринговую систему как суперпозицию локальных моделей с учетом требованиям к системе сохранять знания об опорных клиентах и признаках (другими словами, учитывать новые экономические явления). Модель должна являться суперпозицией, причем каждый элемент должен управляться своим критерием качества. Ввести расписание оптимизации структуры и параметров модели: система должна работать в единой оптимизационной цепочке. Предложить алгоритм для отбора признаков и объектов.
Данные:

Данные от ОТП Банка. Выборка содержит записи о 15 223 клиентов, классифицированных на два класса: 1 — отклик был (1812 клиентов), 0 — отклика не было (13411 клиентов). Признаковые описания клиентов состоят из 50 признаков, в состав которых входит, в частности, возраст, пол, социальный статус относительно работы, социальный статус относительно пенсии, количество детей, количество иждивенцев, образование, семейное положение, отрасль работы. Данные доступны по следующим адресам: www.machinelearning.ru/wiki/images/2/26/Contest_MMRO15_OTP.rar (выборка А), www.machinelearning.ru/wiki/images/5/52/Contest_MMRO15_OTP_(validation).rar (выборка Б).
Данные от Home Credit: https://www.kaggle.com/c/home-credit-default-risk/data

Литература:

Strijov V.V. Error function in regression analysis // Factory Laboratory, 2013, 79(5) : 65-73
Bishop C. M. Linear models for classification / В кн.: Pattern Recognition and Machine Learning. Под ред.: M. Jordan, J. Kleinberg, B. Scholkopf. – New York: Springer Science+Business Media, 2006, pp--203 – 208
Токмакова А.А. Получение устойчивых оценок гиперпараметров линейных регрессионных моделей // Машинное обучение и анализ данных. — 2011. — № 2. — С. 140-155
S. Scitovski and N. Sarlija. Cluster analysis in retail segmentation for credit scoring // CRORR 5. 2014. 235–245
Гончаров А. В. Построение интерпретируемых моделей глубокого обучения в задаче социального ранжирования

Базовой алгоритм: Итерационный взвешенный МНК (описан в (2))
Решение: Предлагается построить скоринговую систему, содержащий такой блок предобработки, как блок порождения метрических признаков. Предлагается исследовать влияние неравноценности объектов на отбор признаков для модели, исследовать совместный отбор признаков и объектов при построении модели. Требуется реализовать расписание оптимизации структуры модели с использованием алгоритма, основанного на анализе ковариационных матриц гиперпараметров модели. Расписание включает поэтапное пополнение набора признаков и объектов. Объем выборки признаков будет определяться путем контроля дисперсии ошибки. Основной критерий качества системы: ROC AUC (Gini).
Новизна:

Расписание оптимизации структуры модели должно удовлетворять требованию перестраивать модель в любое время, не теряя ее характеристик.
Учет неравноценности объектов при отборе признаков

Авторы: Пугаева И. В. (консультант), Стрижов В. В. (эксперт)

Задача 44+

Название: Ранее прогнозирование достаточного объема выборки для обобщенно линейной модели.
Задача: Исследуется проблема планирования эксперимента. Решается задача оценивания достаточного объема выборки по данным. Предполагается, что выборка является простой. Она описывается адекватной моделью. Иначе, выборка порождается фиксированной вероятностной моделью из известного класса моделей. Объем выборки считается достаточным, если модель восстанавливается с достаточной достоверностью. Требуется, зная модель, оценить достаточный объем выборки на ранних этапах сбора данных.
Цель: на малой простой iid выборке спрогнозировать ошибку на пополняемой большой. Прогностическая модель гладкая монотонная в двух производных. Выбор модели полный перебор или генетика. Модель зависит от редуцированной (исследовать) матрицы ковариации параметров GLM.
Данные: Для вычислительного эксперимента предлагается использовать классические выборки из UCI репозитория. Ссылка на выборки https://github.com/ttgadaev/SampleSizeEstimation/tree/master/datasets
Литература:

Bishop, C. 2006. Pattern Recognition and Machine Learning. Berlin: Springer. 758 p.

Базовый алгоритм: Будем говорить, что объем выборки достаточный, если логарифм правдоподобия имеет малую дисперсию, на подборке размера m, посчитанную при помощи бутстрепа.

Пытаемся аппроксимировать зависимость среднего значения log-likelihood и его дисперсии от размера выборки.

Решение: Методы описанные в обзоре являются асимптотическими или же требуют заведомо большого размера выборки. Новый метод должен заключаться в том, чтобы прогнозировать объем на начальных этапах планирования эксперимента, то есть когда данных мало.
Авторы: Малиновский Г. (консультант), Стрижов В. В. (эксперт)

Задача 59

Название: Распределенная оптимизация в условиях Поляка-Лоясиевича
Задача: Ставится задача эффективного решения больших систем нелинейных уравнений, используя сеть вычислителей.
Решение: Предлагается новый метод децентрализованного распределенного решения систем нелинейных уравнений в условиях Поляка-Лоясиевича. Подход основан на том, что задачу распределенной оптимизации можно представить в виде задачи композитной оптимизации (см. 2 из литературы), которую в свою очередь можно решать аналогами метода подобных треугольников или слайдинга (см. 2 из литературы).
Базовый алгоритм: предложенный метод сравнивается с градиентным спуском и ускоренным градиентным спуском
Литература:

Linear Convergence of Gradient and Proximal-GradientMethods Under the Polyak- Lojasiewicz Condition https://arxiv.org/pdf/1608.04636.pdf
Linear Convergence for Distributed Optimization Under the Polyak-Łojasiewicz Condition https://arxiv.org/pdf/1912.12110.pdf
Optimal Decentralized Distributed Algorithms for Stochastic ConvexOptimization https://arxiv.org/pdf/1911.07363.pdf
Современные численные методы оптимизации, метод универсального градиентного спуска https://arxiv.org/ftp/arxiv/papers/1711/1711.00394.pdf

Новизна: сведение задачи распределенной оптимизации к задаче композитной оптимизации и ее решение в условиях Поляка-Лоясиевича
Авторы: эксперт — А.В. Гасников, консультант — А.Н. Безносиков
Комментарий: важно в этой задаче поставить вычислительный эксперимент, иначе задача будет плохо совместима с курсом.

Задача 12

Название: Обучение машинного перевода без параллельных текстов.
Задача: Рассматривается задача построения модели перевода текста без использования параллельных текстов, т.е. пар одинаковых предложений на разных языках. Данная задача возникает при построении моделей перевода для низкоресурсных языков (т.е. языков, для которых данных в открытом доступе немного).
Данные: Выборка статей из Wikipedia на двух языках.
Литература:
- [38] Unsupervised Machine Translation Using Monolingual Corpora Only
- [39] Sequence to sequence.
- [40] Autoencoding.
- [41] Training with Monolingual Training Data.
Базовый алгоритм: Unsupervised Machine Translation Using Monolingual Corpora Only.
Решение: В качестве модели перевода предлагается рассмотреть кобминацию двух автокодировщиков, каждый из которых отвечает за представление предложений на одном из языков. Оптимизация моделей проводится таким образом, чтобы скрытые пространства автокодировщиков для разных языков совпадали. В качестве исходного представления предложений предлагается рассматривать их графовое описание, получаемое с использованием мультиязычных онтологий.
Новизна: Предложен способ построения модели перевода с учетом графовых описаний предложений.
Авторы: О.Ю. Бахтеев, В.В. Стрижов,

Задача 17

Название: Прогнозирование намерений. Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга
Задача: При построении систем нейрокомпьютерного интерфейса (brain-computer interface) используются простые, устойчивые модели. Важным этапом построения такой модели является построение адекватного признакового пространства. Ранее такая задача решалась с помощью выделения признаков из частотных характеристик сигналов.
Данные: Наборы данных сигналов мозга ECoG/EEG.
Литература:
1. Motrenko A.P., Strijov V.V. Multi-way feature selection for ECoG-based brain-computer Interface // Expert systems with applications. - 2018.
2. Eliseyev A., Aksenova T. Stable and artifact-resistant decoding of 3D hand trajectories from ECoG signals using the generalized additive model //Journal of neural engineering. – 2014.
Базовый алгоритм: Сравнение предлагается производить с алгоритмом частных наименьших квадратов (partial least squares).
Решение: В данном работе предлагается учесть пространственную зависимость между сенсорами, которые считывают данные. Для этого необходимо локально смоделировать пространственный импульс/сигнал и построить прогностическую модель на основе локального описания.
Новизна: Предлагается существенно новый способ построения признакового описания в задаче декодирования сигналов. Бонус: анализ изменения структуры модели, адаптация структуры при изменении выборки.
Авторы: В.В. Стрижов, Роман Исаченко - эксперты, консультанты – Валерий Маркин, Алина Самохина

Задача 9

Название: Распознавание текста на основе скелетного представления толстых линий и сверточных сетей
Задача: Требуется построить две CNN, одна распознает растровое представление изображения, другая векторное.
Данные: Шрифты в растровом представлении.
Литература: Список работ [42], в частности arXiv:1611.03199 и
- Goyal P., Ferrara E. Graph embedding techniques, applications, and performance: A survey. arXiv:1705.02801, 2017.
- Cai H., Zheng V.W., Chang K.C.-C. A comprehensive survey of graph embedding: Problems, techniques and applications. arXiv:1709.07604, 2017.
- Grover A., Leskovec J. node2vec: Scalable Feature Learning for Networks. arXiv:1607.00653, 2016.
- Mestetskiy L., Semenov A. Binary Image Skeleton - Continuous Approach // Proceedings 3rd International Conference on Computer Vision Theory and Applications, VISAPP 2008. P. 251-258. URL
- Кушнир О.А., Середин О.С., Степанов А.В. Экспериментальное исследование параметров регуляризации и аппроксимации скелетных графов бинарных изображений // Машинное обучение и анализ данных. 2014. Т. 1. № 7. С. 817-827. URL
- Жукова К.В., Рейер И.А. Связность базового скелета и параметрический дескриптор формы // Машинное обучение и анализ данных. 2014. Т. 1. № 10. С. 1354-1368. URL
- Kushnir O., Seredin O. Shape Matching Based on Skeletonization and Alignment of Primitive Chains // Communications in Computer and Information Science. 2015. V. 542. P. 123-136. URL
Базовый алгоритм: Сверточная сеть для растрового изображения.
Решение: Требуется предложить способ свертывания графовых структур, позволяющий породить информативное описание скелета толстой линии.
Новизна: Предложен способ повышения качества распознавания толстых линий за счет нового способа порождения их описаний.
Авторы: эксперты И.А. Рейер, В.В. Стрижов, Марк Потанин, консультант Денис Ожерелков

Задача 8

Название: Порождение признаков с помощью локально-аппроксимирующих моделей (Классификация видов деятельности человека по измерениям фитнес-браслетов).
Задача: Требуется проверить выполнимость гипотезы о простоте выборки для порожденных признаков. Признаки - оптимальные параметры аппроксимирующих моделей. При этом вся выборка не является простой и требует смеси моделей для ее аппроксимации. Исследовать информативность порожденных признаков - параметров аппроксимирующих моделей, обученных на сегментах исходного временного ряда. По измерениям акселерометра и гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. Характерная продолжительность движения – секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности – минуты. Требуется по описанию временного ряда и кластера восстановить вид деятельности.
Данные: Временные ряды акселерометра WISDM (Временной ряд (библиотека примеров), раздел Accelerometry).
- WISDM (Kwapisz, J.R., G.M. Weiss, and S.A. Moore. 2011. Activity recognition using cell phone accelerometers. ACM SigKDD Explorations Newsletter. 12(2):74–82.), USC-HAD или сложнее. Данные акселерометра (Human activity recognition using smart phone embedded sensors: A Linear Dynamical Systems method, W Wang, H Liu, L Yu, F Sun - Neural Networks (IJCNN), 2014)
Литература:
- Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. URL
- Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016.URL
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. URL
- Исаченко Р.В., Стрижов В.В. Метрическое обучение в задачах многоклассовой классификации временных рядов // Информатика и ее применения, 2016, 10(2) : 48-57. URL
- Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. URL
- Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. URL
Базовый алгоритм: Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] и [Кузнецов, Ивкин: 2014].
Решение: Требуется построить набор локально-аппроксимирующих моделей и выбрать наиболее адекватные. Найти оптимальный способ сегментации и оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
Новизна: Создан стандарт построения локально-аппроксимирующих моделей. Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.
Авторы: В.В. Стрижов (эксперт), Александра Гальцева, Данил Сайранов (консультанты)

Задача 60

Название: Вариационная оптимизация моделей глубокого обучения с контролем сложности модели
Задача: рассматривается задача оптимизации модели глубокого обучения с заранее заданной сложностью модели. Требуется предложить метод оптимизации модели, позволяющий производить порождение новых моделей с заданной сложностью и небольшими вычислительными затратами.
Данные:MNIST, CIFAR
Литература:
- [1] вариационный вывод для нейронных сетей https://papers.nips.cc/paper/4329-practical-variational-inference-for-neural-networks.pdf
- [2] гиперсети https://arxiv.org/abs/1609.09106
- [3] фабрики сетей https://papers.nips.cc/paper/6304-convolutional-neural-fabrics.pdf
Базовый алгоритм: случайный поиск
Решение: Предлагаемый метод заключается в представлении модели глубокого обучения в виде гиперсети (сети, которая генерирует параметры другой сети) с использованием байесовского подхода. Вводятся вероятностные предположения о параметрах моделей глубокого обучения, максимизируется вариационная нижняя оценка байесовской обоснованности модели. Вариационная оценка рассматривается как условная величина, зависящая от внешнего параметра сложности.
Новизна: предложенный метод позволяет порождать модели в режиме one-shot (практически без переподготовки) с требуемой сложностью модели, что значительно снижает затраты на оптимизацию и дообучение.
Авторы: О.Ю. Бахтеев, В.В. Стрижов

Задача 61

Название: Выбор модели глубокого обучения на основе триплетной связи модели и выборки
Задача: рассматривается задача one-shot выбора модели глубокого обучения: выбор модели под конкретную выборку, выданную из некоторой генеральной совокупнсоти, не должен быть вычислительно затратным.
Данные:MNIST, синтетические данные
Литература:
- [1] обучение предсказаний модели на парах <выборка, модель> https://www.ri.cmu.edu/pub_files/2016/10/yuxiongw_eccv16_learntolearn.pdf
- [2] байесовский выбор для двух доменов https://arxiv.org/abs/1806.08672
Базовый алгоритм: случайный поиск
Решение: Предлагается рассматривать пространство параметров и моделей как два домена со своими генеративными моделями. Для получения связзи между доменами используется обобщение вариационного вывода на случай триплетных ограничений.
Новизна: Новый метод one-shot обучения моделей
Авторы: О.Ю. Бахтеев, В.В. Стрижов

Задача 62

Название: Построение метода динамического выравнивания многомерных временных рядов, устойчивого к локальным колебаниям сигнала.
Задача: В процессе работы с многомерными временными рядами распространена ситуация близкого расположения датчиков, соответствующих различным каналам измерений. В результате малые смещения сигнала в пространстве могут приводить к фиксации пика сигнала соседними датчиками, что ведет к значительным различиям измерений в смысле L2 расстояния.
Таким образом, малые смещения сигнала приводят к появлению значительных флуктуаций показаний датчиков. Рассматривается задача построения функции расстояния между точками временных рядов, устойчивой к шуму, порожденному малыми пространственными смещениями сигнала. Необходимо рассмотреть задачу в приближении наличия карты расположения датчиков.
Данные:
- Измерения активность мозга обезьян
- Искусственно созданные данные (надо предложить несколько вариантов, например: движение сигнала в пространстве по часовой и против часовой стрелки)
Литература:
Базовый алгоритм: L2 расстояние между парой измерений.
Решение: использовать функцию расстояния DTW между двумя многомерными временными рядами. Выравниваются две оси времени, при этом внутри функционала DTW выбирается расстояние между i-м и j-м измерениями такое, что оно устойчиво к локальным “сдвигам” сигнала. Требуется предложить такой функционал. Базовое решение - L2, улучшенное решение - DTW между i-м и j-м измерениями (dtw внутри dtw).
Можно предложить какую-либо модификацию, например расстояния между скрытыми слоями автоэнкодера для точек i и j.
Новизна: Предлагается способ выравнивания многомерных временных рядов, учитывающий малые колебания сигнала в пространстве.
Авторы: В.В. Стрижов - эксперт, Глеб Моргачев, Алексей Гончаров - консультанты.

Задача 63

Название: Иерархическое выравнивание временных последовательностей.
Задача: Рассматривается задача выравнивания последовательностей сложных событий. Примером может служить сложносоставное поведение человека: при рассмотрении данных IMU-датчиков можно выдвинуть гипотезу: есть исходный сигнал, есть агрегаты “элементарных действий” и есть агрегаты “действий” человека. Каждый из указанных уровней абстракции можно выделить и оперировать именно им.
Для того, чтобы проводить точное распознавание последовательности действий возможно применять метрические методы (например DTW, как способ, устойчивый к временным сдвигам). Для более точного качества выравнивания временной шкалы возможно проводить выравнивание на разных уровнях абстракций.
Предлагается исследовать такой иерархический подход к выравниванию последовательностей, основанный на возможности применения алгоритмов выравнивания к объектам разной структуры, имея функцию расстояние на них.
Литература:
Базовый алгоритм: классический DTW.
Решение: Предлагается выполнять переход от одного уровня абстракции к другому путем применения сверточных и рекуррентных нейронных сетей. Тогда объектом на нижнем уровне абстракции служит исходный сигнал. На втором уровне - сигнал из скрытого слоя модели (построенной на объектах нижнего уровня), размерность которого много меньше, а верхнего слоя - сигнал из скрытого слоя модели (построенной на объектах среднего уровня).
При этом DTW вычисляется отдельно между нижними, между средними и между верхними уровнями, но формирование объектов для расчета расстояния осуществляется с учетом выравнивающего пути между объектами предыдущего уровня.
Данный метод рассматривается как способ повышения интерпретируемости процедуры выравнивания и точности классификации действия в связи с переходом к более высокоуровневым паттернам. Кроме того, ожидается существенное увеличение скорости работы.
Новизна: Предлагается идея выравнивания временных последовательностей одновременно на нескольких уровнях абстракции. Метод должен существенно улучшить интерпретируемость алгоритмов выравнивания и повысить скорость их работы.
Авторы: В.В. Стрижов - эксперт, Глеб Моргачев, Алексей Гончаров - консультанты.

Задача 64

Название: Теоретическая обоснованность применения метрических методов классификации с использованием динамического выравнивания (DTW) к пространственно-временным объектам.
Задача: Необходимо изучить существующие теоретические обоснования применения методов динамического выравнивания для различных объектов, и исследовать использование таких методов к пространственно-временным рядам.
При доказательстве применимости методов выравнивания доказывают, что функция, порождаемая алгоритмом динамического выравнивания является ядром. Что, в свою очередь, обосновывает применение метрических методов классификации.
Литература:
Решение: Для различных формулировок метода DTW (когда внутренняя функция расстояния между отсчетами временных рядов - различна) - найти и собрать в одном месте доказательства того, что функция является ядром.
Для базового набора датасетов со временными рядами (на которых проверяется точность функций расстояния) проверить выполнение условий из теоремы Мерсера (положительная определенность матрицы). Проделать это для различных модификаций функции расстояния DTW. (Sakoe-Chiba band, Itakura band, weighted DTW.)
Новизна: Исследование теоретических обоснований применения алгоритма динамического выравнивания (DTW) и его модификаций к пространственно-временным рядам.
Авторы: В.В. Стрижов - эксперт, Глеб Моргачев, Алексей Гончаров - консультанты.

Задача 66

Название: Agnostic neural networks
Задача: Ввести метрическое пространство в задачу автоматического построения (выбора) агностических сетей.
Данные: Данные из области Reinforcement learning. Желательно типа машинок на трассе.
Литература:
- (!) Kulunchakov A.S., Strijov V.V. Generation of simple structured Information Retrieval functions by genetic algorithm without stagnation // Expert Systems with Applications, 2017, 85 : 221—230.
- А. А. Варфоломеева Выбор признаков при разметке библиографических списков методами структурного обучения, 2013, [43]
- Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [44]
- https://habr.com/ru/post/465369/
- https://weightagnostic.github.io/
Базовой алгоритм: Сети из статьи в архиве. Символьная регрессия из статьи в ESwA (надо восстановить код).
Решение: Создаем генератор моделей в рамках символьной регрессии. Создаем генератор моделей как вариационный автоэнкодер (не успеем в течение курса). Изучаем метрические свойства пространств выборки (евклидово) и моделей (банахово). Создаем пару GAN - генератор-дискриминатор для прогнозирования структур прогностических моделей.
Новизна: Пока ни у кого не получалось. Тут обсуждали Томми Яакколу, как он к нам в Яндекc приезжал. У него тоже пока не получилось.
Авторы: эксперт В.В. Стрижов, Радослав Нейчев - консультант

Задача 13

Название: Deep learning for RNA secondary structure prediction
Задача: RNA secondary structure is an important feature which defines RNA functional properties. Its importance can be illustrated by the fact, that it is evolutionary preserved and some types of functional RNAs always * have the same secondary structure, for example all tRNAs fold into cloverleaf. As secondary structure often defines functions, knowing RNAs secondary structure may help investigate functions of novel RNA molecules. RNA folding is not as easy as DNA folding, because RNA is single stranded molecule which forms complicated base-pairing interactions, while DNA mostly exists as fully base paired double helices. Current methods of RNA structure prediction rely on experimentally evaluated thermodynamic rules, but with thermodynamics alone only 80% of structures can be accurately predicted. We propose an AI-driven method for predicting RNA secondary structure inspired by neural machine translation model.
Данные: RNA sequences in form of strings of characters
Литература: https://arxiv.org/abs/1609.08144
Базовой алгоритм: https://www.ncbi.nlm.nih.gov/pubmed/16873527
Решение: Deep learning recurrent encoder-decoder model with attention
Новизна: Currently RNA secondary structure prediction still remains unsolved problem and to the best of our knowledge DL approach has never been introduced in the literature before
Авторы: консультант Мария Попова, Александр Исаев (ждем от них отклика, без отклика задача снимается)

Задача 65

Название: Аппроксимация выборок малой размерности разнородными моделями
Задача: Исследуется проблема передачи знаний (дистилляция Хинтона, привилегированное обучение Вапника) от одной сети другой.
Данные: Выбоки UCI, посмотреть, какие выборки используются в работах по этой теме
Литература:
- Дипом Нейчева Информативные априорные предположения в задаче привилегированного обучения, презентация
- Работы Hinton Knowledge distilling, обращать внимание на функции ошибки
Базовой алгоритм: описан в работе Нейчева
Новизна: Исследование различных способов построения выборки
Решение: попробовать различные модели, которые есть в лекциях, от непараметрических, до глубоких, сравнить и визуализировать функции правдоподобия
Авторы: консультанты Марк Потанин, (попросить помощи у Андрея Грабового) В.В. Стрижов

Задача 67

Название: Отбор тем в тематических моделях для разведочного информационного поиска.
Задача: Проверить гипотезу, что при поиске схожих документов по их тематическим векторам не все темы информативны, поэтому отбрасывание некоторых тем может повышать точность и полноту поиска. Рассмотреть альтернативную гипотезу, что вместо отбрасывания тем можно сравнивать векторы по взвешенной косинусной мере близости с настраиваемыми весами.
Данные: Текстовые коллекции сайтов habr.com и techcrunch.com. Размеченные выборки: запросы и релевантные им документы.
Литература:
1. Воронцов К. В. Вероятностное тематическое моделирование: обзор моделей и аддитивная регуляризация.
2. Ianina A., Vorontsov K. Regularized Multimodal Hierarchical Topic Model for Document-by-Document Exploratory Search // FRUCT ISMW, 2019.
Базовой алгоритм: тематическая модель с регуляризаторами и модальностями, описанная в статье (имеется исходный код).
Новизна: Вопрос об информативности тем для векторного поиска тематически близких документов ранее не исследовался.
Решение: Оценить индивидуальную информативность тем, выкидывая их по одной; затем отсортировать темы по индивидуальной информативности и определить порог отсечения неинформативных тем. Наводящее соображение, почему это должно работать: фоновые темы не являются информативными, и их отбрасывание увеличивает точность и полноту поиска на несколько процентов.
Авторы: К.В.Воронцов, консультант Анастасия Янина.

Задача 68

Название: Метаобучение тематических моделей классификации.
Задача: Выработать универсальные эвристики для априорного задания весов модальностей в тематических моделях классификации текстов.
Данные: Описание датасетов, Папка с датасетами.
Литература:
1. Воронцов К. В. Вероятностное тематическое моделирование: обзор моделей и аддитивная регуляризация.
Базовой алгоритм: Тематические модели классификации для нескольких датасетов.
Новизна: В тематическом моделировании до сих пор не решена проблема автоматического подбора весов модальностей.
Решение: Оптимизировать веса модальностей по критерию качества классификации текстов. Исследовать зависимость оптимальных относительных весов модальностей от размерных характеристик задачи. Найти формулы для оценивания начальных значений весов модальностей без явного решения задачи. Для размножения датасетов применить семплирование фрагментов исходных документов.
Авторы: К.В.Воронцов, консультант Юлиан Сердюк.

Задача 69

«Название»: Graph Neural Network in Reaction Yield prediction
«Задача»: There are disconnected graphs of source molecules and products in a chemical reaction. The yield of the main product in the reaction is known. It is required to design an algorithm that predicts yield by solving the regression task on given disconnected graphs.
«Данные»: Database of reaction from US patents [45]
Литература:
- [46] A general overview.
- [47] Relational Graph Convolution Neural Network
- [48] Transformer architecture
- [49] Graph neural network learning for chemical compounds synthesis
«Базовый алгоритм»: Transformer model. The input sequence is a SMILES representation of the source and product molecules.
«Решение»: A pipeline for working with disconnected graphs is proposed. The pipeline includes the construction of extended graph with molecule and reaction representation, Relational Graph Convolution Neural Network, Encoder of Transformer. The method is applied to solve yield predictions.
«Новизна» A solution for regression problem on the given disconnected graph is constructed; the approach demonstrates better performance compared with other solutions
«Авторы»: Nikitin Filipp, Isayev Olexandr

Задача 70

Название: Исследование структуры целевого пространства при построении предсказательной модели
Задача: Исследуется задача прогнозирования сложной целевой переменной. Под сложностью подразумевается наличие зависимостей (линейных или нелинейных). При этом предполагается, что исходные данные гетерогенны: пространства независимой и целевой переменных имеют разную природу. Требуется построить предсказательную модель, которая бы учитывала зависимость в исходном пространстве независимой переменной, а также в пространстве целевой переменной.
Данные: Гетерогенные данные: картинка - текст, картинка - речь и тд
Базовой алгоритм: В качестве базовых алгоритмов предлагается использовать линейную модель, а также нелинейную нейросетевую модель.
Авторы: В.В. Стрижов - эксперт, консультант: Исаченко Роман.

Задача 71

Название: Исследование способов согласования моделей с помощью снижения размерности пространства
Задача: Исследуется задача прогнозирования сложной целевой переменной. Под сложностью подразумевается наличие зависимостей (линейных или нелинейных). Предлагается изучить способы учета зависимостей в пространстве целевой переменной, а также условия, при которых данные зависимости влияют на качестве финальной предсказательной модели
Данные: Синтетические данные с известной гипотезой порождения данных
Базовой алгоритм: В качестве базовых алгоритмов предлагается использовать методы снижения размерности пространства (PCA, PLS, автоэнкодер) и линейные модели согласования.
Авторы: В.В. Стрижов - эксперт, консультант: Исаченко Роман.

Задача 72

Название: Построение единого скрытого пространства в задаче моделирования гетерогенных данных
Задача: Исследуется задача прогнозирования сложной целевой переменной. Под сложностью подразумевается наличие зависимостей (линейных или нелинейных). Предлагается построить единое скрытое пространство для независимой и целевой переменных. Согласование моделей предлагается производить в полученном низкоразмерном пространстве.
Данные: Гетерогенные данные: картинка - текст, картинка - речь, текст - текст и тд
Базовой алгоритм: В качестве базовых алгоритмов предлагается использовать методы снижения размерности пространства (PCA, PLS, автоэнкодер) и линейные модели согласования.
Авторы: В.В. Стрижов - эксперт, консультант: Исаченко Роман.

Задача 73

Название: Нелинейное ранжирование результатов разведочного информационного поиска.
Задача: Разработать алгоритм для рекомендации порядка чтения документов (reading order, reading list), найденных с помощью разведочного информационного поиска. Документы должны ранжироваться от простого к сложному, от общего к частному, то есть в том порядке, в котором пользователю будет легче разбираться в новой для него тематической области. Алгоритм должен строить граф чтения — отношение частичного порядка на множестве найденных документов; в частности, это может быть совокупность деревьев (лес документов).
Данные: Часть Википедии и эталонный граф чтения, получаемый из категорий Википедии.
Литература:
1. Воронцов К. В. Вероятностное тематическое моделирование: обзор моделей и аддитивная регуляризация.
2. Georgia Koutrika, Lei Liu, and Steven Simske. Generating reading orders over document collections. HP Laboratories, 2014.
3. James G. Jardine. Automatically generating reading lists. Cambridge, 2014.
Базовой алгоритм: описан в статье G.Koutrika.
Новизна: Задача мало исследовалась в литературе. Регуляризованные мультимодальные тематические модели (ARTM, BigARTM) никогда не применялись к данной задаче.
Решение: Использование тематических моделей ARTM совместно с оценками когнитивной сложности текста.
Авторы: К.В.Воронцов, консультант Максим Еремеев.

2019

Моя первая научная публикация

Участвуют эксперты, индивидуальные консультанты и студенты кафедры Интеллектуальные системы ФУПМ МФТИ.

Описание курса
История 2019 (694) — 2018 — 2017 — 2016 — 2015 — 2014 — 2013
Рекомендуемые учебники
Видео докладов по курсу на канале Machine Learning на Youtube
Короткая ссылка на эту страницу: http://bit.ly/M1_2019_674

Роли

Эксперт: поставщик задачи, владелец данных, либо тот, кто гарантирует новизну и актуальность работы.

Результаты

Автор	Тема научной работы	Ссылки	Консультант	Рецензент
Северилов Павел	Задача поиска символов в текстах	LinkReview code paper slides video	Мурат Апишев
Григорьев Алексей	Распознавание текста на основе скелетного представления толстых линий и сверточных сетей	LinkReview code, paper, slides video	Илья Жариков	рецензия Вареник Наталия
Гришанов Алексей	Автоматическая настройка параметров BigARTM под широкий класс задач	LinkReview code, paper slides video	Виктор Булатов	рецензия Герасименко Николай
Юсупов Игорь	Динамическое выравнивание многомерных временных рядов	LinkReview code paper slides video	Алексей Гончаров
Вареник Наталия	Spherical CNN for QSAR prediction	LinkReview, code, paper, slides video	Мария Попова	рецензия Григорьев Алексей
Безносиков Александр	Z-learning of linearly-solvable Markov Decision Processes	LinkReview paper code slides video	Yury Maximov
Панченко Святослав	Получение простой выборки на выходе слоя нейронной сети	LinkReview, code, paper, slides	Гадаев Тамаз
Веселова Евгения	Deep Learning for reliable detection of tandem repeats in 3D protein structures	Code link review paper slides video	Guillaume Pages, Sergei Grudinin
Аминов Тимур	Предсказание качества для процедуры выбора признаков	LinkReview code paper slides	Роман Исаченко
Маркин Валерий	Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга	LinkReview code paper slides video	Роман Исаченко
Абдурахмон Садиев	Порождение признаков с помощью локально-аппроксимирующих моделей	LinkReview code, paper, slides video	Анастасия Мотренко
Тагир Саттаров	Обучение машинного перевода без параллельных текстов.	LinkReview code paper, slides video	Олег Бахтеев
Герасименко Николай	Тематический поиск схожих дел в коллекции актов арбитражных судов.	LinkReview code paper slides video	Екатерина Артёмова	рецензия Гришанов Алексей

Расписание

Дата		N	Что делаем	Результат для обсуждения	Буква
Февраль	14	1	Организация работы, расписание, инструменты.	Инструменты подготовлены к работе.	(Анкета)
	21	2	ДЗ-1. Выбор задачи	Тема в ML и ссылка на работу в SF помещена напротив фамилии.	(Анкета)
	28	3	Составить список публикаций по выбранной задаче, найти данные. Написать аннотацию и введение с обзором собранной литературы.	Аннотация (600 знаков), введение (1 страница), список литературы в bib-файле. Подготовить доклад 45 сек.	Abstract, Introduction, Literature, B*-talk (Анкета)
Март	7	4	Поставить задачу и сделать описание базового алгоритма, подготовить базовый вычислительный эксперимент.	Постановка задачи (0.5-1 страница), описание базового алгоритма.	Statement (Анкета)
	14	5	Поставить базовый вычислительный эксперимент. Провести первичный анализ работы алгоритма. Показ статьи.	Базовый код, отчет о работе базового алгоритма (кратко).	Basic code, Report, cHeck-1
	21	6	Поставить вычислительный эксперимент на основе предлагаемого алгоритма с учетом предыдущих результатов.	Код, визуализация полученных результатов, анализ ошибки, анализ качества. Подготовить промежуточный доклад со слайдами, 2-3 минуты.	M-talk, Code, Visualization
	28	7	Описать алгоритм.	Теоретическая и алгоритмическая часть статьи (второй / третий раздел).	Theory
Апрель	4	8	Завершение вычислительного эксперимента.	Описание эксперимента с анализом ошибок.	Error
	11	9	Описание теоретической части и вычислительного эксперимента. Описание рисунков, выводы, заключение.	Черновой вариант статьи с разделами «Вычислительный экперимент» и «Заключение».	Document
	18	10	Контрольная точка — показ статьи в целом, рецензия.	Статья в варианте для рецензирования.	сHeck-2, RevieW
	25	11	Подготовка презентации.	Доклады и обсуждение.	Final show, Slides
Май	16	12	Доработка статьи.	Статья подготовлена к подаче в журнал.	Journal

Список проектов

Шаблон описания проекта — научной статьи

Название: Название, под которым статья подается в журнал.
Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
Авторы: эксперт, консультант.

Задача 17

Название: Прогнозирование намерений. Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга
Задача: При построении систем нейрокомпьютерного интерфейса (brain-computer interface) используются простые, устойчивые модели. Важным этапом построения такой модели является построение адекватного признакового пространства. Ранее такая задача решалась с помощью выделения признаков из частотных характеристик сигналов.
Данные: Наборы данных сигналов мозга ECoG/EEG.
Литература:
1. Motrenko A.P., Strijov V.V. Multi-way feature selection for ECoG-based brain-computer Interface // Expert systems with applications. - 2018.
2. Eliseyev A., Aksenova T. Stable and artifact-resistant decoding of 3D hand trajectories from ECoG signals using the generalized additive model //Journal of neural engineering. – 2014.
Базовый алгоритм: Сравнение предлагается производить с алгоритмом частных наименьших квадратов (partial least squares).
Решение: В данном работе предлагается учесть пространственную зависимость между сенсорами, которые считывают данные. Для этого необходимо локально смоделировать пространственный импульс/сигнал и построить прогностическую модель на основе локального описания.
Новизна: Предлагается существенно новый способ построения признакового описания в задаче декодирования сигналов. Бонус: анализ изменения структуры модели, адаптация структуры при изменении выборки.
Авторы: В.В. Стрижов, Tetiana Aksenova, консультант – Роман Исаченко

Задача 40

Название: Предсказание качества для процедуры выбора признаков.
Задача: Решение задачи выбора признаков сводится к перебору вершин бинарного куба. Данную процедуру невозможно произвести для выборки с большим числом признаком. Предлагается свести данную задачу к оптимизации в линейном пространстве.
Данные: Синтетические данные + простые выборки
Литература:
1. Bertsimas D. et al. Best subset selection via a modern optimization lens //The annals of statistics. – 2016. – Т. 44. – №. 2. – С. 813-852.
2. Luo R. et al. Neural architecture optimization //Advances in Neural Information Processing Systems. – 2018. – С. 7827-7838.
Базовый алгоритм: популярные методы выбора признаков.
Решение: В данном работе предлагается построить модель, которая по набору признаков прогнозирует качество на тестовой выборке. Для этого строится отображение бинарного куба в линейное пространство. После этого максимизируется качество модели в линейном пространстве. Для реконструкции решения задачи используется модель обратного отображенияв бинарный куб.
Новизна: Предлагается конструктивно новый подход к решению задачи выбора моделей.
Авторы: В.В. Стрижов, Tetiana Aksenova, консультант – Роман Исаченко

Задача 42

Название: Z-learning of linearly-solvable Markov Decision Processes
Задача: Adapt Z-learning from [1] to the case of Markov Decision Process discussed in [2] in the context of energy systems. Compare it with standard (in reinforcement learning) Q-learning.
Данные: We consider a Markov Process described via transition probability matrix. Given initial state vector (probability of being in a state at time zero), we generate data for the time evolution of the state vector. See [2] for an exemplary process describing evolution of an ensemble of energy consumers.
Литература:
1. E. Todorov. Linearly-solvable Markov decision problems https://homes.cs.washington.edu/~todorov/papers/TodorovNIPS06.pdf
2. Ensemble Control of Cycling Energy Loads: Markov Decision Approach. Michael Chertkov, Vladimir Y. Chernyak, Deepjyoti Deka. https://arxiv.org/abs/1701.04941
3. Csaba Szepesvári. Algorithms for Reinforcement Learning. https://sites.ualberta.ca/~szepesva/papers/RLAlgsInMDPs.pdf
Базовой алгоритм: Principal comparison should be made with Q learning described in [3]
Решение: We suppose that plugging in algorithm from [1] directly into [2] gives faster and more reliable solution.
Новизна: In the area of power systems there is a huge demand on fast reinforcement learning algorithms, but there is still a lack of that (in particular the ones respect the physics/underlying graph)
Авторы: Yury Maximov (consultant, expert), Michael Chertkov (expert)

Задача 1

Название: Прогнозирование направления движения цены биржевых инструментов по новостному потоку.
Задача: Построить и исследовать модель прогнозирования направления движения цены. Задано множество новостей S и множество временных меток T, соответствующих времени публикации новостей из S. 2. Временной ряд P, соответствующий значению цены биржевого инструмента, и временной ряд V, соответствующий объему продаж по данному инструменту, за период времени T'. 3. Множество T является подмножеством периода времени T'. 4. Временные отрезки w=[w0, w1], l=[l0, l1], d=[d0, d1], где w0 < w1=l0 < l1=d0 < d1. Требуется спрогнозировать направление движения цены биржевого инструмента в момент времени t=d0 по новостям, вышедшим в период w.
Данные:
1. Финансовые данные: данные о котировках (с интервалом в один тик) нескольких финансовых инструментов (GAZP, SBER, VTBR, LKOH) за 2 квартал 2017 года с сайта Finam.ru; для каждой точки ряда известны дата, время, цена и объем.
2. Текстовые данные: экономические новости за 2 квартал 2017 года от компании Форексис; каждая новость является отдельным html файлом.
Литература:
1. Usmanova K.R., Kudiyarov S.P., Martyshkin R.V., Zamkovoy A.A., Strijov V.V. Analysis of relationships between indicators in forecasting cargo transportation // Systems and Means of Informatics, 2018, 28(3).
2. Kuznetsov M.P., Motrenko A.P., Kuznetsova M.V., Strijov V.V. Methods for intrinsic plagiarism detection and author diarization // Working Notes of CLEF, 2016, 1609 : 912-919.
3. Айсина Роза Мунеровна, Тематическое моделирование финансовых потоков корпоративных клиентов банка по транзакционным данным, выпускная квалификационная работа.
4. Lee, Heeyoung, et al. "On the Importance of Text Analysis for Stock Price Prediction." LREC. 2014.
Базовый алгоритм: Метод, использованный в статье (4).
Решение: Использование тематического моделирования (ARTM) и локальных аппроксимирующих моделей для перевода последовательности текстов, соответствующих различным временным меткам, в единое признаковое описание. Критерий качества: F1-score, ROC AUC, прибыльность используемой стратегии.
Новизна: Для обоснования связи временных рядов предлагается метод Сходящегося перекрестного отображения.
Авторы: Иван Запутляев (консультант), В.В. Стрижов, К.В. Воронцов (эксперты)

Задача 3

Название: Динамическое выравнивание многомерных временных рядов.
Задача: Характерным многомерным временным рядом является траектория точки в 3х-мерном пространстве. Две траектории необходимо выравнивать оптимальным образом друг относительно друга. Для этого используется расстояние DTW между двумя временными рядами. В классическом представлении DTW строится между одномерными временными рядами. Необходимо ввести различные модификации алгоритма для работы со временными рядами высокой размерности: траекториями, кортикограммами.
Данные: Данные описывают 6 классов временных рядов с акселерометра мобильного телефона. https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015MetricClassification/data/
Литература:
1. Multidimensional DTW: https://pdfs.semanticscholar.org/76d3/5bd5a52453ebde80faaa1467d7effd74426f.pdf
Базовый алгоритм: Использование L_p расстояний между двумя измерениями временного ряда, их модификаций.
Решение: Исследование расстояний, устойчивых к изменению порядка координат, исследований расстояний неустойчивых к изменению порядка координат. Эксперименты с другими видами расстояний (косинусное, RBF, прочие).
Новизна: Нет полного обзора и исследования методов работы с многомерными временными рядами. Не исследована зависимость качества решения от подобранных расстояний между измерениями.
Авторы: Алексей Гончаров - консультант, эксперт, В.В. Стрижов - эксперт

Задача 43

Название: Получение простой выборки на выходе слоя нейронной сети
Задача: Выход нейронной сети это, как правило, обобщённо линейная модель над выходами предпоследнего слоя. Нужно предложить способ тестирования простоты выборки и её соответствия обобщённо-линейной модели (линейная регрессия, логистическая регрессия) при помощи системы статистических критериев.
Данные: Для вычислительного эксперимента предлагается использовать классические выборки из UCI репозитория. Ссылка на выборки https://github.com/ttgadaev/SampleSize/tree/master/datasets
Литература: http://www.ccas.ru/avtorefe/0016d.pdf c 49-63 Bishop, C. 2006. Pattern Recognition and Machine Learning. Berlin: Springer. 758 p.
Базовой алгоритм: Тест Уайта, Критерий Вальда, Тест Голдфелда-Кванта, Дарбина-Ватсона, Хи-квадрат, Жарка-Бера, Шапиро-Уилка
Решение: Система тестов проверки простоты выборки (и адекватности модели), независимые переменные неслучайны, зависимые переменные распределены нормально или биномиально, нет пропусков и выбросов, классы сбалансированы, выборка аппроксимируется единой моделью. Дисперсия функции ошибки не зависит от независимой переменной. Исследование проводится по синтетическим и реальным данным.
Авторы: Гадаев Т. Т. (консультант) Стрижов В. В., Грабовой А. В. (эксперты)

Задача 9

Название: Распознавание текста на основе скелетного представления толстых линий и сверточных сетей
Задача: Требуется построить две CNN, одна распознает растровое представление изображения, другая векторное.
Данные: Шрифты в растровом представлении.
Литература: Список работ [50], в частности arXiv:1611.03199 и
- Goyal P., Ferrara E. Graph embedding techniques, applications, and performance: A survey. arXiv:1705.02801, 2017.
- Cai H., Zheng V.W., Chang K.C.-C. A comprehensive survey of graph embedding: Problems, techniques and applications. arXiv:1709.07604, 2017.
- Grover A., Leskovec J. node2vec: Scalable Feature Learning for Networks. arXiv:1607.00653, 2016.
- Mestetskiy L., Semenov A. Binary Image Skeleton - Continuous Approach // Proceedings 3rd International Conference on Computer Vision Theory and Applications, VISAPP 2008. P. 251-258. URL
- Кушнир О.А., Середин О.С., Степанов А.В. Экспериментальное исследование параметров регуляризации и аппроксимации скелетных графов бинарных изображений // Машинное обучение и анализ данных. 2014. Т. 1. № 7. С. 817-827. URL
- Жукова К.В., Рейер И.А. Связность базового скелета и параметрический дескриптор формы // Машинное обучение и анализ данных. 2014. Т. 1. № 10. С. 1354-1368. URL
- Kushnir O., Seredin O. Shape Matching Based on Skeletonization and Alignment of Primitive Chains // Communications in Computer and Information Science. 2015. V. 542. P. 123-136. URL
Базовый алгоритм: Сверточная сеть для растрового изображения.
Решение: Требуется предложить способ свертывания графовых структур, позволяющий породить информативное описание скелета толстой линии.
Новизна: Предложен способ повышения качества распознавания толстых линий за счет нового способа порождения их описаний.
Авторы: Илья Жариков (эксперты Л.М. Местецкий, И.А. Рейер, В.В. Стрижов)

Задача 14

Название: Deep Learning for reliable detection of tandem repeats in 3D protein structures подробнее в PDF
Задача: Deep learning algorithms pushed computer vision to a level of accuracy comparable or higher than a human vision. Similarly, we believe that it is possible to recognize the symmetry of a 3D object with a very high reliability, when the object is represented as a density map. The optimization problem includes i) multiclass classification of 3D data. The output is the order of symmetry. The number of classes is ~10-20 ii) multioutput regression of 3D data. The output is the symmetry axis (a 3-vector). The input data are typically 24x24x24 meshes. The total amount of these meshes is of order a million. Biological motivation : Symmetry is an important feature of protein tertiary and quaternary structures that has been associated with protein folding, function, evolution, and stability. Its emergence and ensuing prevalence has been attributed to gene duplications, fusion events, and subsequent evolutionary drift in sequence. Methods to detect these symmetries exist, either based on the structure or the sequence of the proteins, however, we believe that they can be vastly improved.
Данные: Synthetic data are obtained by ‘symmetrizing’ folds from top8000 library (http://kinemage.biochem.duke.edu/databases/top8000.php).
Литература: Our previous 3D CNN: [51] Invariance of CNNs (and references therein): [52], [53]
Базовый алгоритм: A prototype has already been created using the Tensorflow framework [4], which is capable to detect the order of cyclic structures with about 93% accuracy. The main goal of this internship is to optimize the topology of the current neural network prototype and make it rotational and translational invariant with respect to input data. [4] [54]
Решение: The network architecture needs to be modified according to the invariance properties (most importantly, rotational invariance). Please see the links below [55], [56] The code is written using the Tensorflow library, and the current model is trained on a single GPU (Nvidia Quadro 4000)of a desktop machine.
Новизна: Applications of convolutional networks to 3D data are still very challenging due to large amount of data and specific requirements to the network architecture. More specifically, the models need to be rotationally and transnationally invariant, which makes classical 2D augmentation tricks loosely applicable here. Thus, new models need to be developed for 3D data.
Авторы: эксперт Sergei Grudinin, консультанты Guillaume Pages

Задача 8

Название: Порождение признаков с помощью локально-аппроксимирующих моделей (Классификация видов деятельности человека по измерениям фитнес-браслетов).
Задача: Требуется проверить выполнимость гипотезы о простоте выборки для порожденных признаков. Признаки - оптимальные параметры аппроксимирующих моделей. При этом вся выборка не является простой и требует смеси моделей для ее аппроксимации. Исследовать информативность порожденных признаков - параметров аппроксимирующих моделей, обученных на сегментах исходного временного ряда. По измерениям акселерометра и гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. Характерная продолжительность движения – секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности – минуты. Требуется по описанию временного ряда и кластера восстановить вид деятельности.
Данные: Временные ряды акселерометра WISDM (Временной ряд (библиотека примеров), раздел Accelerometry).
- WISDM (Kwapisz, J.R., G.M. Weiss, and S.A. Moore. 2011. Activity recognition using cell phone accelerometers. ACM SigKDD Explorations Newsletter. 12(2):74–82.), USC-HAD или сложнее. Данные акселерометра (Human activity recognition using smart phone embedded sensors: A Linear Dynamical Systems method, W Wang, H Liu, L Yu, F Sun - Neural Networks (IJCNN), 2014)
Литература:
- Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. URL
- Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016.URL
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. URL
- Исаченко Р.В., Стрижов В.В. Метрическое обучение в задачах многоклассовой классификации временных рядов // Информатика и ее применения, 2016, 10(2) : 48-57. URL
- Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. URL
- Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. URL
Базовый алгоритм: Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] и [Кузнецов, Ивкин: 2014].
Решение: Требуется построить набор локально-аппроксимирующих моделей и выбрать наиболее адекватные. Найти оптимальный способ сегментации и оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
Новизна: Создан стандарт построения локально-аппроксимирующих моделей. Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.
Авторы: А.П. Мотренко (консультант), В.В. Стрижов (эксперт) Олег Терехов, Александра Гальцева (команда)

Задача 46

Название: Задача поиска символов в текстах
Задача: В простейшем случае эта задача сводится к задаче Sequence Labeling на размеченной выборке. Сложность заключается в получении достаточного объёма обучающих данных, то есть требуется по имеющейся небольшой экспертной разметке получить выборку большего размера (автоматически путём поиска закономерностей или же путём составления несложной и качественной инструкции для разметки, например, в Толоке). Наличие разметки позволяет начать эксперименты с подбором оптимальной модели, здесь могут быть интересны разнообразные нейросетевые архитектуры (BiLSTM, Transformer и т.п.).
Данные: Словарь символов , Размеченные художественные тексты 
Литература: http://www.machinelearning.ru/wiki/images/0/05/Mmta18-rnn.pdf
Базовый алгоритм: HMM, RNN
Решение: Предлагается сравнить работы нескольких state-of-the-art алгоритмов. Предложить метрику качества классификатора для символов (символ/не символ). Определить применимость методов.
Новизна: Предлагаемый подход к анализу текста используется экспертами в ручном режиме и не был автоматизирован
Авторы: М. Апишев (консультант), Д. Лемтюжникова

Задача 12

Название: Обучение машинного перевода без параллельных текстов.
Задача: Рассматривается задача построения модели перевода текста без использования параллельных текстов, т.е. пар одинаковых предложений на разных языках. Данная задача возникает при построении моделей перевода для низкоресурсных языков (т.е. языков, для которых данных в открытом доступе немного).
Данные: Выборка статей из Wikipedia на двух языках.
Литература:
- [57] Unsupervised Machine Translation Using Monolingual Corpora Only
- [58] Sequence to sequence.
- [59] Autoencoding.
- [60] Training with Monolingual Training Data.
Базовый алгоритм: Unsupervised Machine Translation Using Monolingual Corpora Only.
Решение: В качестве модели перевода предлагается рассмотреть кобминацию двух автокодировщиков, каждый из которых отвечает за представление предложений на одном из языков. Оптимизация моделей проводится таким образом, чтобы скрытые пространства автокодировщиков для разных языков совпадали. В качестве исходного представления предложений предлагается рассматривать их графовое описание, получаемое с использованием мультиязычных онтологий.
Новизна: Предложен способ построения модели перевода с учетом графовых описаний предложений.
Авторы: О.Ю. Бахтеев, В.В. Стрижов, Eric Gaussier

Задача 47

Название: Deep learning for RNA secondary structure prediction
Задача: RNA secondary structure is an important feature which defines RNA functional properties. Its importance can be illustrated by the fact, that it is evolutionary preserved and some types of functional RNAs always * have the same secondary structure, for example all tRNAs fold into cloverleaf. As secondary structure often defines functions, knowing RNAs secondary structure may help investigate functions of novel RNA molecules. RNA folding is not as easy as DNA folding, because RNA is single stranded molecule which forms complicated base-pairing interactions, while DNA mostly exists as fully base paired double helices. Current methods of RNA structure prediction rely on experimentally evaluated thermodynamic rules, but with thermodynamics alone only 80% of structures can be accurately predicted. We propose an AI-driven method for predicting RNA secondary structure inspired by neural machine translation model.
Данные: RNA sequences in form of strings of characters
Литература: https://arxiv.org/abs/1609.08144
Базовой алгоритм: https://www.ncbi.nlm.nih.gov/pubmed/16873527
Решение: Deep learning recurrent encoder-decoder model with attention
Новизна: Currently RNA secondary structure prediction still remains unsolved problem and to the best of our knowledge DL approach has never been introduced in the literature before
Авторы: консультант Мария Попова Chapel-Hill

Задача 4

Название: Автоматическая настройка параметров АРТМ под широкий класс задач.
Задача: Открытая библиотека bigARTM позволяет строить тематические модели, используя широкий класс возможных регуляризаторов. Однако такая гибкость приводит к тому, что задача настройки коэффициентов оказывается очень сложной. Эту настройку можно значительно упростить, используя механизм относительных коэффициентов регуляризации и автоматический выбор N-грамм. Нужно проверить гипотезу о том, что существует универсальный набор относительных коэффициентов регуляризации, дающий "достаточно хорошие" результаты на широком классе задач. Дано несколько датасетов с каким-то внешним критерием качества (например, классификация документов по категориям или ранжирование). Находим лучшие параметры для конкретного датасета, дающие "локально лучшую модель". Находим алгоритм инициализации bigARTM, производящий тематические модели с качеством, сравнимым с "локально лучшей моделью" на её датасете. Критерий сравнимости по качеству: на данном датасете качество "универсальной модели" не более чем на 5% хуже, чем у "локально лучшей модели".
Данные: Victorian Era Authorship Attribution Data Set, 20 Newsgroups, МКБ-10, триплеты для поиска/ранжирования.
Литература:
1. ВКР Никиты Дойкова: http://www.machinelearning.ru/wiki/images/9/9f/2015_417_DoykovNV.pdf
2. Презентация Виктора Булатова на научном семинаре: https://drive.google.com/file/d/19pJ21LRPeeOxY4mkcSnQCRm93zOO4J5b/view
3. Черновик с формулами: https://drive.google.com/open?id=1AqS7snUsSJ18ZYBtC-6uP_2dMTDJSGeD
Базовый алгоритм: PLSA / LDA / логрегрессия.
Решение: bigARTM с фоновыми темами и регуляризаторами сглаживания, разреживания и декорреляции (коэффициенты подобраны автоматически), а также с автоматически выделенными N-граммами.
Новизна: Потребность в автоматизированной настройке параметров модели и отсутствие подобных реализаций в научном сообществе.
Авторы: консультант Виктор Булатов, эксперт К.В.Воронцов.

Задача 50

Название: Тематический поиск схожих дел в коллекции актов арбитражных судов.
Задача: Построить алгоритм информационного поиска по коллекции актов арбитражных судов. Запросом может быть произвольный документ коллекции (текст акта). Результатом поиска должен быть список документов коллекции, ранжированный по убыванию релевантности.
Данные: коллекция текстовых документов — актов арбитражных судов http://kad.arbitr.ru.
Литература:
1. Анастасия Янина. Тематический разведочный информационный поиск. 2018. ФИВТ МФТИ.
2. Ianina A., Golitsyn L., Vorontsov K. Multi-objective topic modeling for exploratory search in tech news. AINL-2017. CCIS, Springer, 2018.
3. Ahmed El-Kishky, Yanglei Song, Chi Wang, Clare Voss, Jiawei Han. Scalable Topical Phrase Mining from Text Corpora. 2015.
Базовый алгоритм: BigARTM с регуляризаторами декоррелирования, сглаживания, разреживания. Поиск по TF-IDF слов, по TF-IDF ссылок НПА, по тематическим векторным представлениям документов, с использованием косинусной меры близости. Алгоритм TopMine для выделения коллокаций.
Решение: Добавить модальность ссылок на нормативно-правовые акты. Добавить модальность юридических терминов. Подобрать оптимальное число тем и стратегию регуляризации. Организовать процесс разметки пар документов. Реализовать оценивание качества поиска по размеченной выборке пар документов.
Новизна: Первая попытка применения АРТМ для тематического поиска по юридическим текстам.
Авторы: консультант Екатерина Артёмова, эксперт К.В.Воронцов.

Моя первая научная публикация

Участвуют эксперты, индивидуальные консультанты и студенты кафедры Интеллектуальные системы ФУПМ МФТИ.

Описание курса
История 2019 (674) — 2018 — 2017 — 2016 — 2015 — 2014 — 2013
Видео докладов по курсу на канале Machine Learning на Youtube
Короткая ссылка на эту страницу: http://bit.ly/M1_2019_694

Роли

Эксперт: поставщик задачи, владелец данных, либо тот, кто гарантирует новизну и актуальность работы.

Результаты

Автор	Тема научной работы	Ссылки	Консультант	Рецензент
Вишнякова Нина	Optimal Approximation of Non-linear Power Flow Problem	LinkReview paper code presentation video	Yury Maximov	рецензент Логинов Роман review
Кудрявцева Полина	Прогнозирование намерений. Построение оптимальной модели декодирования сигналов при моделировании нейрокомпьютерного интерфейса.	code LinkReview paper video presentation	Роман Исаченко	Нечепуренко Иван review
Логинов Роман	Мультимоделирование как универсальный способ описания выборки общего вида	code LinkReview paper ChatInvite presentation video	Адуенко А. А.	Макаров Михаил review
Михаил Макаров	Определение местоположения по сигналам акселерометра	code LinkReview paper презентация video	Анастасия Мотренко	Черепков Антон: review
Козинов Алексей	Задача поиска символов в изображениях	LinkReview paper code	М. Апишев, Д. Лемтюжникова	Грачёва Анастасия (рецензия)
Бучнев Валентин	Раннее прогнозирование достаточного объема выборки для обобщенной линейной модели.	LinkReview paper code presentation video	Грабовой А. В.	рецензент
Нечепуренко Иван	Мультимоделирование, привилегированное обучение	code, paper, LinkReview презентация	Р. Г. Нейчев	Кудрявцева Полина
Грачева Анастасия	Оценка энергии связывания белка и маленьких молекул	code paper LinkReview presentation video	Сергей Грудинин, Мария Кадукова	рецензент
Черепков Антон	Привилегированное обучение в задаче аппроксимации границ радужки глаза	paper, slides, code, LinkReview video	Р. Г. Нейчев	Лепехин Михаил preliminary review
Лепехин Михаил	Создание ранжирующих моделей для систем информационного поиска. Алгоритм прогнозирования структуры локально-оптимальных моделей	code LinkReview paper presentation video	Андрей Кулунчаков	Вишнякова Нина, рецензия
Гридасов Илья	Автоматическое построение нейросети оптимальной сложности	LinkReview paper Presentation code	О. Ю. Бахтеев, В. В. Стрижов	Бучнев Валентин
Теленков Дмитрий	Декодирование сигналов мозга и прогнозирование намерений	LinkReview git The paper Presentation code	Андрей Задаянчук	рецензент

Расписание

Дата		N	Что делаем	Результат для обсуждения	Буква
Февраль	14	1	Организация работы, расписание, инструменты.	Инструменты подготовлены к работе.	(Анкета)
	21	2	ДЗ-1. Выбор задачи	Тема в ML и ссылка на работу в SF помещена напротив фамилии.	(Анкета)
	28	3	Составить список публикаций по выбранной задаче, найти данные. Написать аннотацию и введение с обзором собранной литературы.	Аннотация (600 знаков), введение (1 страница), список литературы в bib-файле. Подготовить доклад 45 сек.	Abstract, Introduction, Literature, B*-talk (Анкета)
Март	7	4	Поставить задачу и сделать описание базового алгоритма, подготовить базовый вычислительный эксперимент.	Постановка задачи (0.5-1 страница), описание базового алгоритма.	Statement (Анкета)
	14	5	Поставить базовый вычислительный эксперимент. Провести первичный анализ работы алгоритма. Показ статьи.	Базовый код, отчет о работе базового алгоритма (кратко).	Basic code, Report, cHeck-1
	21	6	Поставить вычислительный эксперимент на основе предлагаемого алгоритма с учетом предыдущих результатов.	Код, визуализация полученных результатов, анализ ошибки, анализ качества. Подготовить промежуточный доклад со слайдами, 2-3 минуты.	M-talk, Code, Visualization
	28	7	Описать алгоритм.	Теоретическая и алгоритмическая часть статьи (второй / третий раздел).	Theory
Апрель	4	8	Завершение вычислительного эксперимента.	Описание эксперимента с анализом ошибок.	Error
	11	9	Описание теоретической части и вычислительного эксперимента. Описание рисунков, выводы, заключение.	Черновой вариант статьи с разделами «Вычислительный экперимент» и «Заключение».	Document
	18	10	Контрольная точка — показ статьи в целом, рецензия.	Статья в варианте для рецензирования.	сHeck-2, RevieW
	25	11	Подготовка презентации.	Доклады и обсуждение.	Final show, Slides
Май	16	12	Доработка статьи.	Статья подготовлена к подаче в журнал.	Journal

Список проектов

Шаблон описания проекта — научной статьи

Название: Название, под которым статья подается в журнал.
Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
Авторы: эксперт, консультант.

Задача 18

Название: Прогнозирование намерений. Построение оптимальной модели декодирования сигналов при моделировании нейрокомпьютерного интерфейса.
Задача: Нейрокомпьютерный интерфейс (BCI) позволяет помочь людям с ограниченными возможностями вернуть их мобильность. По имеющемуся описанию сигнала прибора необходимо смоделировать поведение субъекта.
Данные: Наборы данных сигналов мозга ECoG/EEG.
Литература:

- Motrenko A.P., Strijov V.V. Multi-way feature selection for ECoG-based brain-computer Interface // Expert systems with applications. - 2018.

Базовый алгоритм: Сравнение предлагается производить с алгоритмом частных наименьших квадратов (partial least squares).
Решение: В данной работе предлагается построить единую систему, решающую задачу декодирования сигналов. В качестве этапов построения такой системы предлагается решить задачи предобработки данных, выделения признакового пространства, снижения размерности и выбора модели оптимальной сложности. Предлагается использовать тензорный вариант PLS с отбором признаков.
Новизна: В постановке задачи учитывается комплексная природа сигнала: непрерывная траектория движения, наличие дискретных структурных переменных (пальцы или движение суставов), наличие непрерывных переменных (позиция пальца или конечности).
Авторы: В.В. Стрижов, Tetiana Aksenova, консультант – Роман Исаченко

Задача 41

Название: Optimal Approximation of Non-linear Power Flow Problem
Задача: Our goal is to approximate the solution of non-linear non-convex optimal power flow problem by solving a sequence of convex optimization problems (aka trust region approach). On this way we propose to compare various approaches for approximate solution of this problem with adaptive approximation of the power flow non-linearities with a sequence of quadratic and/or piece-wise linear functions
Данные: Matpower module from MATLAB contains all necessary test cases. Start considering with IEEE 57 bus case.
Литература:
1. Molzahn, D. K., & Hiskens, I. A. (2019). A survey of relaxations and approximations of the power flow equations. Foundations and Trends in Electric Energy Systems, 4(1-2), 1-221. https://www.nowpublishers.com/article/DownloadSummary/EES-012
2. The QC Relaxation: A Theoretical and Computational Study on Optimal Power Flow. Carleton Coffrin ; Hassan L. Hijazi ; Pascal Van Hentenryck https://ieeexplore.ieee.org/abstract/document/7271127/
3. Convex Relaxations in Power System Optimization: A Brief Introduction. Carleton Coffrin and Line Roald. https://arxiv.org/pdf/1807.07227.pdf
4. Optimal Adaptive Linearizations of the AC Power Flow Equations. Sidhant Misra, Daniel K. Molzahn, and Krishnamurthy Dvijotham https://molzahn.github.io/pubs/misra_molzahn_dvijotham-adaptive_linearizations2018.pdf
Базовой алгоритм: A set of algorithms described in [1] should be considered to compare with, details behind the proposed method would be shared by the consultant (a draft of the paper)
Решение: to figure out the quality of the solution we propose to compare it with the ones given by IPOPT and numerous relaxations, and do some reverse engineering regarding to our method
Новизна: The OPF is a truly hot topic in power systems, and is of higher interest by the discrete optimization community (as a general QCQP problem). Any advance in this area is of higher interest by the community
Авторы: Yury Maximov (consultant and expert), Michael Chertkov (expert)
Замечания: the problem has both the computational and the theoretical focuses, so 2 students are ok to work on this topic

Задача 4

Название: Автоматическая настройка параметров АРТМ под широкий класс задач.
Задача: Открытая библиотека bigARTM позволяет строить тематические модели, используя широкий класс возможных регуляризаторов. Однако такая гибкость приводит к тому, что задача настройки коэффициентов оказывается очень сложной. Эту настройку можно значительно упростить, используя механизм относительных коэффициентов регуляризации и автоматический выбор N-грамм. Нужно проверить гипотезу о том, что существует универсальный набор относительных коэффициентов регуляризации, дающий "достаточно хорошие" результаты на широком классе задач. Дано несколько датасетов с каким-то внешним критерием качества (например, классификация документов по категориям или ранжирование). Находим лучшие параметры для конкретного датасета, дающие "локально лучшую модель". Находим алгоритм инициализации bigARTM, производящий тематические модели с качеством, сравнимым с "локально лучшей моделью" на её датасете. Критерий сравнимости по качеству: на данном датасете качество "универсальной модели" не более чем на 5% хуже, чем у "локально лучшей модели".
Данные: Victorian Era Authorship Attribution Data Set, 20 Newsgroups, МКБ-10, триплеты для поиска/ранжирования.
Литература:
1. ВКР Никиты Дойкова: http://www.machinelearning.ru/wiki/images/9/9f/2015_417_DoykovNV.pdf
2. Презентация Виктора Булатова на научном семинаре: https://drive.google.com/file/d/19pJ21LRPeeOxY4mkcSnQCRm93zOO4J5b/view
3. Черновик с формулами: https://drive.google.com/open?id=1AqS7snUsSJ18ZYBtC-6uP_2dMTDJSGeD
Базовый алгоритм: PLSA / LDA / логрегрессия.
Решение: bigARTM с фоновыми темами и регуляризаторами сглаживания, разреживания и декорреляции (коэффициенты подобраны автоматически), а также с автоматически выделенными N-граммами.
Новизна: Потребность в автоматизированной настройке параметров модели и отсутствие подобных реализаций в научном сообществе.
Авторы: консультант Виктор Булатов, эксперт К.В. Воронцов.

Задача 2

Название: Исследование опорных объектов в задаче метрической классификации временных рядов.
Задача: Функция DTW - это расстояние между двумя временными рядами, которые могут быть нелинейно деформированы друг относительно друга. Она ищет наилучшее выравнивание между двумя объектами, поэтому ее можно использовать в задаче метрической классификации объектов. Один из методов решения задачи метрической классификации - измерение расстояний до опорных объектов и использование вектора этих расстояний в качестве признакового описания объекта. Метод DBA - это алгоритм построения центроидов (опорных объектов) для временных рядов на основе расстояния DTW. При построении расстояния между временным рядом и центроидом различные пары значений (например пиковые значения) более характерны для одного из классов, и влияние таких совпадений на значение расстояния должна быть выше.

Необходимо исследовать различные способы построения опорных объектов, а также определение их оптимального числа. Критерием является качество работы метрического классификатора в задаче. В методе DBA для каждого центроида предлагается создавать вектор весов, который демонстрирует "значимость" измерений центроида, и использовать его в модифицированной функции расстояния weighted-DTW.

Данные: Данные описывают 6 классов временных рядов с акселерометра мобильного телефона. https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015MetricClassification/data/
Литература:
Базовый алгоритм: Реализовать базовые методы:
1. Выбор подмножества объектов обучающей выборки как опорных
2. Предварительная обработка аномальных объектов
3. Кластеризация объектов обучающей выборки для построения центроидов внутри кластера
4. Использование метода DBA для построения опорных объектов
5. Использование методов численной оптимизации для поиска оптимального вектора весов с заданными ограничениями
Решение: Расширение типов ограничений на вид вектора весов: бинарный вектор, одинаковый вектор для всех центроидов, бинарный одинаковый вектор для всех центроидов. Такое решение позволит экономить затраты энергии при работе датчиков мобильного устройства.

Исследование литературы и комбинация up-to-date методов.

Новизна: Не проводилось комплексного исследования различных способов построения центроидов и опорных элементов вместе с выбором их оптимального числа.
Авторы: Алексей Гончаров - консультант, эксперт, В.В. Стрижов - эксперт

Задача 7

Название: Привилегированное обучение в задаче аппроксимации границ радужки глаза
Задача: По изображению человеческого глаза определить окружности, аппроксимирующие внутреннюю и внешнюю границу радужки.
Данные: Растровые монохромные изображения, типичный размер 640*480 пикселей (однако, возможны и другие размеры)[61], [62].
Литература:
- Адуенко А.А. Выбор мультимоделей в задачах классификации (научный руководитель В.В. Стрижов). Московский физико-технический институт, 2017. [63]
- К.А.Ганькин, А.Н.Гнеушев, И.А.Матвеев Сегментация изображения радужки глаза, основанная на приближенных методах с последующими уточнениями // Известия РАН. Теория и системы управления, 2014, № 2, с. 78–92.
- Duda, R. O. Use of the Hough transformation to detect lines and curves in pictures / R. O. Duda, P. E. Hart // Communications of the ACM. 1972. Vol. 15, no. 1. Pp.
Базовый алгоритм: Ефимов Юрий. Поиск внешней и внутренней границ радужки на изображении глаза методом парных градиентов, 2015.
Решение: См. Iris_circle_problem.pdf
Новизна: Предложен быстрый беспереборный алгоритм аппроксимации границ с помощью линейных мультимоделей. Дополнительно капсульные нейросети.
Консультант: Радослав Нейчев (автор Стрижов В.В., эксперт Матвеев И.А.)

Задача 44

Название: Ранее прогнозирование достаточного объема выборки для обобщенно линейной модели.
Задача: Исследуется проблема планирования эксперимента. Решается задача оценивания достаточного объема выборки по данным. Предполагается, что выборка является простой. Она описывается адекватной моделью. Иначе, выборка порождается фиксированной вероятностной моделью из известного класса моделей. Объем выборки считается достаточным, если модель восстанавливается с достаточной достоверностью. Требуется, зная модель, оценить достаточный объем выборки на ранних этапах сбора данных.
Данные: Для вычислительного эксперимента предлагается использовать классические выборки из UCI репозитория. Ссылка на выборки https://github.com/ttgadaev/SampleSize/tree/master/datasets
Литература:
1. [Обзор методов для оценки объема выборки]
2. http://svn.code.sf.net/p/mlalgorithms/code/PhDThesis/..
3. Метод бутстреп. https://projecteuclid.org/download/pdf_1/euclid.aos/1..

Bishop, C. 2006. Pattern Recognition and Machine Learning. Berlin: Springer. 758 p.

Базовый алгоритм: Будем говорить, что объем выборки достаточный, если логарифм правдоподобия имеет малую дисперсию, на подборке размера m, посчитанную при помощи бутстрепа.

Пытаемся аппроксимировать зависимость среднего значения log-likelihood и его дисперсии от размера выборки.

Решение: Методы описанные в обзоре являются асимптотическими или же требуют заведомо большого размера выборки. Новый метод должен заключаться в том, чтобы прогнозировать объем на начальных этапах планирования эксперимента, то есть когда данных мало.
Авторы: Грабовой А. В. (консультант), Гадаев Т. Т Стрижов В. В. (эксперты)
Примечание: для определения простоты выборки предлагается новое определение сложности (Сергей Иванычев). Это отдельная работа, +1 задача 44a (? Катруца).

Задача 15

Название: Формулировка и решение задачи оптимизации, сочетающей классификацию и регрессию, для оценки энергии связывания белка и маленьких молекул. Описание задачи [64]
Задача: С точки зрения биоинформатики, задача заключается в оценке свободной энергии связывания белка с маленькой молекулой (лигандом): наилучший лиганд в своем наилучшем положении имеет наименьшую свободную энергию взаимодействия с белком. (Далее большой текст, см. файл по ссылке вверху.)
Данные:
- Данные для бинарной классификации. Около 12,000 комплексов белков с лигандами: для каждого из них есть 1 нативная поза и 18 ненативных. Основными дескрипторами являются гистограммы распределений расстояний между различными атомами белка и лиганда, размерность вектора дескрипторов ~ 20,000. В случае продолжения исследования и публикации в профильном журнале набор дескрипторов может быть расширен. Данные будут предоставлены в виде бинарных файлов со скриптом на python для чтения.
- Данные для регрессии. Для каждого из представленных комплексов известно значение величины, которую можно интерпретировать как энергию связывания.
Литература:
- SVM [65]
- Ridge Regression [66]
- [67] (секция 1)
Базовый алгоритм: [68] В задаче классификации мы использовали алгоритм, похожий на линейный SVM, связь которого с оценкой энергии, выходящей за рамки задачи классификации, описана в указанной выше статье. В задаче регрессии можно использовать различные функции потерь.
Решение: Необходимо связать использованную ранее оптимизационную задачу с задачей регрессии и решить стандартными методами. Для проверки работы алгоритма будет использована кросс-валидация. Есть отдельный тестовый сет, состоящий из (1) 195 комплексов белков и лигандов, для которых нужно найти наилучшую позу лиганда (алгоритм получения положений лиганда отличается от используемого при обучении), (2) комплексов белков и лигандов, для нативных поз которых нужно предсказать энергию связывания, и (3) 65 белков, для которых нужно найти наиболее сильно связывающийся лиганд.
Новизна: В первую очередь, интерес представляет объединение задач классификации и регрессии. Правильная оценка качества связывания белка и лиганда используется при разработке лекарства для поиска молекул, наиболее сильно взаимодействующих с исследуемым белком. Использование описанной выше задачи классификации для предсказания энергии связывания приводит к недостаточно высокой корреляции предсказаний с экспериментальными значениями, в то время как использование одной лишь задачи регрессии приводит к переобучению.
Авторы Сергей Грудинин, Мария Кадукова

Задача 27

Название: Создание ранжирующих моделей для систем информационного поиска. Алгоритм прогнозирования структуры локально-оптимальных моделей
Задача: Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, и на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Задача состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
Данные:
- Коллекция текстовых документов TREC (!)
- Набор временных рядов, который подразумевает восстановление функциональных зависимостей. Предлагается сначала использовать синтетические данные или сразу применить алгоритм к прогнозированию временных рядов 1) потребления электроэнергии 2) физической активности с последующим анализом получающихся структур.
Литература:
1. (!) Kulunchakov A.S., Strijov V.V. Generation of simple structured Information Retrieval functions by genetic algorithm without stagnation // Expert Systems with Applications, 2017, 85 : 221—230.
2. А. А. Варфоломеева Выбор признаков при разметке библиографических списков методами структурного обучения, 2013, [69]
3. Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [70]
Базовой алгоритм: Описан в [1]. Развит в работе команды группы 974. Предлагается использовать их код и эксперимент.
Решение: Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит. Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) и получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
Авторы: консультант Андрей Кулунчаков (Inria Montbonnot), эксперт В. В. Стрижов

Задача 26

Название: Определение местоположения по сигналам акселерометра
Задача: Даны исходные координаты, сигналы акселерометра, дополнительная информация (сигналы гироскопа, магнетометра). Возможно, дана неточная карта (задача SLAM)
Данные: из работы [1], данные, собранные самостоятельно.
Литература:
1. https://arxiv.org/pdf/1712.09004.pdf
2. https://ieeexplore.ieee.org/document/1528431
Базовый алгоритм: из работы [1].
Решение: Поиск априорной и дополнительной информации, которая позволяет повысить точность позиционирования.
Новизна: Постановка задачи в терминах Projection to Latent Spaces
Авторы: консультант Анастасия Мотренко, эксперт Илья Гарцеев, В. В. Стрижов

Задача 45

Название: Задача поиска символов в изображениях
Задача: Данная задача в одном из вариантов постановки может быть сведена к двум последовательным операциям: 1) поиск объектов на изображении и определение их класса 2) поиск в базе данных информации о символическом смысле найденных объектов. Основная сложность решения задачи заключена в поиске объектов на изображении. Однако следующая классификация также может быть затруднительной в связи с тем, что изображение объекта может быть неполным, необычно стилизованным и т.п.
Данные: Словарь символов  Сайты-музеи  Image-net 
Литература:
1. http://www.machinelearning.ru/wiki/images/e/e2/IDP18.pdf (с. 116)
2. http://www.image-net.org
Базовый алгоритм: CNN
Решение: Предлагается сравнить работы нескольких state-of-the-art алгоритмов. Предложить метрику качества поиска и классификации объектов. Определить применимость методов.
Новизна: Предлагаемый подход к анализу изображений используется экспертами в ручном режиме и не был автоматизирован
Авторы: М. Апишев (консультант), Д. Лемтюжникова

Задача 28

Название: Мультимоделирование как универсальный способ описания выборки общего вида
Задача: Построить метод инкрементального уточнения структуры мультимодели при появлении новых объектов. Разработка и сравнение разных алгоритмов обновления структуры мультимоделей. Построение оптимальной схемы уточнения структуры мультимодели в зависимости от полного размера выборки.
Данные: На начальном этапе работы используются синтетические данные с известной статистической структурой. Тестирование разработанных методов производится на реальных данных из репозитория UCI.
Литература:

Bishop, Christopher M. «Pattern recognition and machine learning». Springer, New York (2006).
Gelman, Andrew, et al. Bayesian data analysis, 3rd edition. Chapman and Hall/CRC, 2013.
MacKay, David JC. «The evidence framework applied to classification networks.» Neural computation 4.5 (1992): 720—736.
Адуенко А. А. «Выбор мультимоделей в задачах классификации» кандидатская диссертация
Motrenko, Anastasiya, Vadim Strijov, and Gerhard-Wilhelm Weber. «Sample size determination for logistic regression.» Journal of Computational and Applied Mathematics 255 (2014): 743—752.

Базовой алгоритм: Алгоритм построения адекватных мультимоделей из #4.
Решение: Байесовский подход к задаче выбора моделей на основании обоснованности. Анализ свойств обоснованности и ее связи со статистической значимостью.
Новизна: Предлагается метод построения оптимальной схемы обновления структуры мультимодели при появлении новых объектов. Исследована связь обоснованности и статистической значимости для некоторых классов моделей.
Авторы: Стрижов Вадим Викторович, Адуенко Александр Александрович (GMT-5)

Задача 11

Название: Автоматическое построение нейросети оптимальной сложности
Задача: Рассматривается задача нахождения устойчивой (и не избыточной по параметрам) структуры нейросети. Нейросеть рассматривается как вычислительный граф, ребрами которого выступают примитивные функции, а вершинами --- промежуточные представления выборки, полученные под действием этих функций. Требуется выбрать подграф модели, при котором итоговая нейросеть будет давать приемлемое качество классификации при небольшом количестве параметров.
Данные: Выборки Boston, MNIST, CIFAR-10
Литература:
1. Бахтеев О.Ю., Стрижов В.В. Выбор моделей глубокого обучения субоптимальной сложности с использованием вариационной оценки правдоподобия // Автоматика и телемеханика, 2018.
2. Смердов А.Н., Бахтеев О.Ю., Стрижов В.В. Выбор оптимальной модели рекуррентной сети в задачах поиска парафраза // Информатика и ее применения, 2018.
3. [71] Вариационный вывод.
4. [72] Релаксация на основе вариационного вывода.
5. [73] DARTS.
Базовый алгоритм: случайный поиск и алгоритм DARTS (выбор модели с использованием релаксации без вариационного вывода).
РешениеПредлагается выбирать структуру нейросети на основе вариационного вывода. Для выбора оптимальной структуры используется релаксация: от строго выбора одной из нескольких рассматриваемых подмоделей нейросети предлагается перейти к композиции этих моделей с различным весом каждой из них.
Новизна: Предложен метод автоматического построения модели, учитывающий неточности при оптимизации параметров модели и позволяющий находить наиболее устойчивые модели.
Авторы: О.Ю. Бахтеев, В.В. Стрижов

Задача 48

Название: Мультимоделирование, привилегированное обучение
Задача: Рассматривается задача обучения одной модели с помощью другой
Данные: Выборки временных рядов
Литература:
1. https://github.com/neychev/distillation_n_privileged_info_torch
2. https://github.com/neychev/Multitask_forecast_code
3. Статья по Mixture Experts
4. Диплом Нейчева http://www.machinelearning.ru/wiki/images/3/36/NeyhevMS_Thesis.pdf
Базовый алгоритм: Смесь экспертов, привилегоированное обучение, дистилляция
Решение Выполнить эксперимент, иллюстрирующий эти подходы
Новизна: Предложен метод прогнозирования, использующий апроорную информацию о принадлежности выборки модели (опубликовать полученные результаты).
Авторы: Р.Г. Нейчев (консультант), В.В. Стрижов

Задача 49

Название: Декодирование сигналов мозга и прогнозирование намерений
Задача: Требуется построить модель, восстанавливающую движение конечностей по кортикограмме.
Данные: neurotycho.org [9] (или пальцы)
Литература:
- Нейчев Р.Г., Катруца А.М., Стрижов В.В. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования // Заводская лаборатория. Диагностика материалов, 2016, 82(3) : 68-74. [10]
- Isachenko R.V., Strijov V.V. Quadratic Programming Optimization with Feature Selection for Non-linear Models // Lobachevskii Journal of Mathematics, 2018, 39(9) : 1179-1187. Article
Базовый алгоритм: Partial Least Squares[11]
Решение: Создать алгоритм выбора признаков, альтернативный PLS и учитывающий неортогональную структуру взаимозависимости признаков.
Новизна: Предложен способ выбора признаков, учитывающий закономерности как и независимой, так и в зависимой переменной. Бонус: исследовать изменения структуры модели при изменении характера выборки.
Авторы: Андрей Задаянчук, В.В. Стрижов

2018

Основная статья: Численные методы обучения по прецедентам (практика, В.В. Стрижов)

Домашние задания, анкеты и материалы по курсу находятся на основной странице

Короткий адрес этой страницы http://bit.ly/AutomationML

Расписание, весна 2019

Расписание упрощено.

Дата		N	Что сделать	Результат для обсуждения	Буква-оценка
Февраль	8	1	Порождение расширенного признакового пространства, софткомпьютинг	Анализ пространства	—
	15	2	Ручное порождение признаков или автоматическое	Сравнительный анализ	—
	22	3	Работа над основным алгоритмом	Описание нового алгоритма	—
Март	1	4	Анализ адекватности модели, ансамбли и мульти-моделирование	Мультимодель	—
	8 ВД	5	Анализ скорости сходимости алгоритма: теоретический и эмпирический	График сходимости	—
	15	6	Анализ сложности алгоритма: теоретический и эмпирический	График сложности (профилирование)	—
	22	7	Создание набора внешних критериев, дообучение	Набор критериев и алгоритм оптимизации	—
	29	8 KP1	Планирование финального эксперимента. Планирование библиотеки, создание юнит-тестов	Тест-свит	—
Апрель	5	9	Есть код эксперимента. Он отделяем от автора, протестирован. В коде есть демо, его легко найти и запустить	Код эксперимента	Code
	12	10 KP2	Анализ результатов, текст статьи в целом дописан	Текст	Text
	19	11	Создание слайдов, оформление результатов эксперимента	Презентация	sLides
	26	12 KP3	Подготовка предентации	Сама презентация пройдет 26 мая	Show
	17	15	Завершение проектов, приведение результатов в вид, отделяемый от автора	Статья подготовлена к подаче в журнал до даты выставления оценок 17 мая	Journal

Расписание, осень 2018

Дата		N	Что сделать	Результат для обсуждения	Буква-оценка
Сентябрь	3	1	Обсудить организацию работы, инструменты, регистрацию	Репозиторий	ДЗ-1
	10	2	Решить пробную задачу	Запуск модели машинного обучения	ДЗ-2
	17	3	Сделать пробный анализ ошибки	График функции ошибки, ее стандартного отклонения	ДЗ-3
	24	4	Запустить нейронную сеть	График кривой обучения	ДЗ-4
Октябрь	1	5	Выбрать проект, обсудить цели и планы	Черновик аннотации	Abstract
	8	6	Собрать литературу, погрузится в тематику проекта	Материалы введения LinkReview, литература в bib-файле	Literature
	15	7	Написать обзор литературы, включить анализ и общую постановку задачи	Введение со ссылками на литературу	Introduction
	22	8	Поставить задачу: описать выборку, алгебраические структуры, выдвинуть статистические гипотезы, вывести функцию ошибки, назначить критерии качества, выбрать оптимизационный алгоритм	Постановка задачи	Problem
	29	9	Описать базовый алгоритм, проанализировать его свойства, перечислить модели-претенденты	Описание базового алгоритма	Basic code
Ноябрь	5	10	Распланировать базовый вычислительный эксперимент, построить синтетическую выборку	Описание эксперимента	Design of experiment
	12	11	Поставить вычислительный эксперимент на синтетической выборке, проанализировать ошибку	Анализ ошибки: таблицы, графики и выводы	Error
	19	12	Поставить вычислительный эксперимент на реальной выборке, проанализировать модель	Анализ пространства параметров, гиперпараметров, структуры модели	Hyperparameters
	26	13	Выбрать модель из класса моделей, сравнить модели-претенденты на различных выборках по разным критериям качества	Обоснованная модель с известными свойствами (таблица-куб «модели-выборки-критерии»)	Model
Декабрь	3	14	Завершить эксперимент, создать рукопись-технический отчет для показа	Рукопись в варианте для рецензирования	Report
	10	15	Проанализировать результаты выполненных работ	Завершенный базовый проект

Проекты: результаты

Таблица заполняется в рамках Домашнего задания A. Члены команды ставят ссылки на свои рукописи в формате pdf.

Номер	Название проекта	Материалы	Команда
0	(пример) Метрическая классификация временных рядов	code, LinkReview, Discussion	Алексей Гончаров*, Максим Савинов
1	Прогнозирование направления движения цены биржевых инструментов по новостному потоку0	Code, LinkReview, Slides, Report	Александр Борисов, Дробин Максим, Говоров Иван, Мухитдинова София, Валентин Родионов, Валентин Ахияров
2	Построение опорных объектов для множества многомерных временных рядов	Code LinkReview	Исхаков Ришат, Корепанов Георгий, Степан Солоднев Самирханов Данил
3	Динамическое выравнивание многомерных временных рядов	Code LinkReview Slides Report	Глеб Моргачев, Владислав Смирнов, Татьяна Липницкая
4	Автоматическая настройка параметров АРТМ под широкий класс задач	Code, LinkReview, Presentation	Голубева Татьяна, Иванова Екатерина, Матвеева Светлана, Трусов Антон, Царицын Михаил, Черноног Вячеслав
5	Нахождение парафразов	Code, LinkReview	Stas Okrug, Nikita Mokrov Fedor Kitashov, Polina Proskura, Natalia Basimova, Roman Krasnikov, Akhmedkhan Shabanov
6	On conformational changes of proteins using collective motions in torsion angle space and L1 regularization	Code, LinkReview Presentation	Ryabinina Raisa, Emtsev Daniil
7	Privileged training in the problem of approximating the borders of the iris	Code, LinkReview	Pavel Fedosov, Alexey Gladkov, Genrikh Kenigsberger, Ivan Korostelev, Nikolay Balakin
8	Порождение признаков с помощью локально-аппроксимирующих моделей	Code, LinkReview	Ибрагим Курашов, Наиль Гильмутдинов, Альберт Мулюков, Валентин Спивак
9	Распознавание текста на основе скелетного представления толстых линий и сверточных сетей	Code, LiteratureReview, Slides, report	Kutsevol Polina Lukoyanov Artem Korobov Nikita Boyko Alexander Litovchenko Leonid Valukov Alexandr Badrutdinov Kamil Yakushevskiy Nikita Valyukov Nikolay Tushin Kirill
10	Сравнение нейросетевых и непрерывно-морфологических методов в задаче детекции текста	Code, LinkReview, Discussion, Presentation	Гайдученко Николай Торлак Артём Акимов Кирилл Миронова Лилия Гончар Даниил
11	Автоматическое построение нейросети оптимальной сложности	Code, LinkReview, report, slides	Николай Горян Александр Улитин Товкес Артем Таранов Сергей Губанов Сергей Криницкий Константин Забазнов Антон Валерий Маркин
12	Обучение машинного перевода без параллельных текстов.	Code, LinkReview, Отчет, Слайды	Александр Артеменков Ангелина Ярошенко Андрей Строганов Егор Скиднов Анастасия Борисова Рябов Федор Мазуров Михаил
13	Глубокое обучение для предсказания вторичной структуры РНК	Code Link Review	Дорохин Семён Пастухов Сергей Пикунов Андрей Нестерова Ирина Курилович Анна chat
14	Deep Learning for reliable detection of tandem repeats in 3D protein structures	Code Link Review	Веселова Евгения
15	Формулировка и решение задачи оптимизации, сочетающей классификацию и регрессию, для оценки энергии связывания белка и маленьких молекул	Code Link Review	Меркулова Анастасия Плумите Эльвира Жибоедова Анастасия chat
16	Оценка оптимального объема выборки для исследований в медицине	Code Link Review	Артемий Харатян, Михаил Михеев, Евгин Александр, Сеппар Александр, Коноплёв Максим, Мурлатов Станислав, Макаренко Степан
17	Прогнозирование намерений. Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга	Code, LinkReview, Presentation	Наталия Болоболова, Алина Самохина, Шиянов Вадим
18	Прогнозирование намерений. Построение оптимальной модели декодирования сигналов при моделировании нейрокомпьютерного интерфейса.	Code, LinkReview, Presentation, Article	Иван Наседкин, Галия Латыпова, Нестор Суходольский, Александр Шеменев Иван Бородулин,
19	Исследование зависимости качества распознавания онтологических объектов от глубины гипонимии.	Code, Report, LinkReview, Presentation	Вячеслав Резяпкин, Алексей Русскин, Виктория Дочкина, Мирон Кузнецов, Ярмошик Демьян
20	Сравнение качества end-to-end обучаемых моделей в задаче ответа на вопросы в диалоге с учетом контекста	Code LinkReview Отчет, Presentation	Агафонов Алексей, Рякин Илья,Литвиенко Владимир, Хохлов Иван, Великовский Никита, Ануфриенко Олег
21	Методы выпуклой оптимизации высокого порядка	Code, LinkReview, Slides	Селиханович Даниил, Соколов Игорь
23	Фрактальный анализ и синтез оптических изображений морского волнения	code, LinkReview, Presentation report	Каныгин Юрий
24	Максимизация энтропии при различных видах преобразований над изображением	code, LinkReview, report, slides	Никита Воскресенский, Алиса Шабалина, Ярослав Мурзаев, Алексей Хохлов, Алексей Казаков, Ольга Грибова, Александр Белозерцев
25	Автоматическое детектирование и распознавание объектов на изображениях	code, code_A, Slides_for_demo, Report2018Project25_30 Report2018Project25_31 slides_30 slides_25_31 LinkReview	Юлия Демидова Иван Разумов Владислав Томинин Ярослав Томинин Никита Дудоров Леонид Ерлыгин Прошутинский Дмитрий Баймаков Владимир Зубков Александр Черненкова Елена
26	Определение местоположения по сигналам акселерометра	Code, LinkReview, Слайды, Текст	Эльвира Зайнулина Фатеев Дмитрий Виталий Протасов Никита Божедомов
28	Мультимоделирование как универсальный способ описания выборки общего вида	Code, Linkreview, Slides, report	Владимир Качанов Евгения Стрелкова
29	Cross-Language Document Extractive Summarization with Neural Sequence Model	Code, Linkreview, Отчет, Слайды	Павел Захаров Павел Кваша Евгений Дьячков Евгений Петров Илья Сельницкий
31	Pairwise energy matrix construction for inverse folding problem	Code, LinkReview Report Slides	Рубинштейн Александр
32	Smooth orientation-dependent scoring function	Code Отчёт	Носкова Елизавета Качков Сергей Сидоренко Антон

Задачи

Задача 1

Название: Прогнозирование направления движения цены биржевых инструментов по новостному потоку.
Задача: Построить и исследовать модель прогнозирования направления движения цены. Задано множество новостей S и множество временных меток T, соответствующих времени публикации новостей из S. 2. Временной ряд P, соответствующий значению цены биржевого инструмента, и временной ряд V, соответствующий объему продаж по данному инструменту, за период времени T'. 3. Множество T является подмножеством периода времени T'. 4. Временные отрезки w=[w0, w1], l=[l0, l1], d=[d0, d1], где w0 < w1=l0 < l1=d0 < d1. Требуется спрогнозировать направление движения цены биржевого инструмента в момент времени t=d0 по новостям, вышедшим в период w.
Данные:
1. Финансовые данные: данные о котировках (с интервалом в один тик) нескольких финансовых инструментов (GAZP, SBER, VTBR, LKOH) за 2 квартал 2017 года с сайта Finam.ru; для каждой точки ряда известны дата, время, цена и объем.
2. Текстовые данные: экономические новости за 2 квартал 2017 года от компании Форексис; каждая новость является отдельным html файлом.
Литература:
1. Usmanova K.R., Kudiyarov S.P., Martyshkin R.V., Zamkovoy A.A., Strijov V.V. Analysis of relationships between indicators in forecasting cargo transportation // Systems and Means of Informatics, 2018, 28(3).
2. Kuznetsov M.P., Motrenko A.P., Kuznetsova M.V., Strijov V.V. Methods for intrinsic plagiarism detection and author diarization // Working Notes of CLEF, 2016, 1609 : 912-919.
3. Айсина Роза Мунеровна, Тематическое моделирование финансовых потоков корпоративных клиентов банка по транзакционным данным, выпускная квалификационная работа.
4. Lee, Heeyoung, et al. "On the Importance of Text Analysis for Stock Price Prediction." LREC. 2014.
Базовый алгоритм: Метод, использованный в статье (4).
Решение: Использование тематического моделирования (ARTM) и локальных аппроксимирующих моделей для перевода последовательности текстов, соответствующих различным временным меткам, в единое признаковое описание. Критерий качества: F1-score, ROC AUC, прибыльность используемой стратегии.
Новизна: Для обоснования связи временных рядов предлагается метод Сходящегося перекрестного отображения.
Авторы: Иван Запутляев (консультант), В.В. Стрижов, К.В. Воронцов (эксперты)

Задача 2

Название: Исследование опорных объектов в задаче метрической классификации временных рядов.
Задача: Функция DTW - это расстояние между двумя временными рядами, которые могут быть нелинейно деформированы друг относительно друга. Она ищет наилучшее выравнивание между двумя объектами, поэтому ее можно использовать в задаче метрической классификации объектов. Один из методов решения задачи метрической классификации - измерение расстояний до опорных объектов и использование вектора этих расстояний в качестве признакового описания объекта. Метод DBA - это алгоритм построения центроидов (опорных объектов) для временных рядов на основе расстояния DTW. При построении расстояния между временным рядом и центроидом различные пары значений (например пиковые значения) более характерны для одного из классов, и влияние таких совпадений на значение расстояния должна быть выше.

Необходимо исследовать различные способы построения опорных объектов, а также определение их оптимального числа. Критерием является качество работы метрического классификатора в задаче. В методе DBA для каждого центроида предлагается создавать вектор весов, который демонстрирует "значимость" измерений центриода, и использовать его в модифицированной функции расстояния weighted-DTW.

Данные: Данные описывают 6 классов временных рядов с акселерометра мобильного телефона. https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015MetricClassification/data/
Литература:
Базовый алгоритм: Реализовать базовые методы:
1. Выбор подмножества объектов обучающей выборки как опорных
2. Предварительная обработка аномальных объектов
3. Кластеризация объектов обучающей выборки для построения центроидов внутри кластера
4. Использование метода DBA для построения опорных объектов
5. Использование методов численной оптимизации для поиска оптимального вектора весов с заданными ограничениями
Решение: Расширение типов ограничений на вид вектора весов: бинарный вектор, одинаковый вектор для всех центроидов, бинарный одинаковый вектор для всех центроидов. Такое решение позволит экономить затраты энергии при работе датчиков мобильного устройства.

Исследование литературы и комбинация up-to-date методов.

Новизна: Не проводилось комплексного исследования различных способов построения центроидов и опорных элементов вместе с выбором их оптимального числа.
Авторы: Алексей Гончаров.

Задача 3

Название: Динамическое выравнивание многомерных временных рядов.
Задача: Характерным многомерным временным рядом является траектория точки в 3х-мерном пространстве. Две траектории необходимо выравнивать оптимальным образом друг относительно друга. Для этого используется расстояние DTW между двумя временными рядами. В классическом представлении DTW строится между одномерными временными рядами. Необходимо ввести различные модификации алгоритма для работы со временными рядами высокой размерности: траекториями, кортикограммами.
Данные: Данные описывают 6 классов временных рядов с акселерометра мобильного телефона. https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015MetricClassification/data/
Литература:
1. Multidimensional DTW: https://pdfs.semanticscholar.org/76d3/5bd5a52453ebde80faaa1467d7effd74426f.pdf
Базовый алгоритм: Использование L_p расстояний между двумя измерениями временного ряда, их модификаций.
Решение: Исследование расстояний, устойчивых к изменению порядка координат, исследований расстояний неустойчивых к изменению порядка координат. Эксперименты с другими видами расстояний (косинусное, RBF, прочие).
Новизна: Нет полного обзора и исследования методов работы с многомерными временными рядами. Не исследована зависимость качества решения от подобранных расстояний между измерениями.
Авторы: Алексей Гончаров.

Задача 4

Название: Автоматическая настройка параметров АРТМ под широкий класс задач.
Задача: Открытая библиотека bigARTM позволяет строить тематические модели, используя широкий класс возможных регуляризаторов. Однако такая гибкость приводит к тому, что задача настройки коэффициентов оказывается очень сложной. Эту настройку можно значительно упростить, используя механизм относительных коэффициентов регуляризации и автоматический выбор N-грамм. Нужно проверить гипотезу о том, что существует универсальный набор относительных коэффициентов регуляризации, дающий "достаточно хорошие" результаты на широком классе задач. Дано несколько датасетов с каким-то внешним критерием качества (например, классификация документов по категориям или ранжирование). Находим лучшие параметры для конкретного датасета, дающие "локально лучшую модель". Находим алгоритм инициализации bigARTM, производящий тематические модели с качеством, сравнимым с "локально лучшей моделью" на её датасете. Критерий сравнимости по качеству: на данном датасете качество "универсальной модели" не более чем на 5% хуже, чем у "локально лучшей модели".
Данные: Victorian Era Authorship Attribution Data Set, 20 Newsgroups, МКБ-10, триплеты для поиска/ранжирования.
Литература:
1. ВКР Никиты Дойкова: http://www.machinelearning.ru/wiki/images/9/9f/2015_417_DoykovNV.pdf
2. Презентация Виктора Булатова на научном семинаре: https://drive.google.com/file/d/19pJ21LRPeeOxY4mkcSnQCRm93zOO4J5b/view
3. Черновик с формулами: https://drive.google.com/open?id=1AqS7snUsSJ18ZYBtC-6uP_2dMTDJSGeD
Базовый алгоритм: PLSA / LDA / логрегрессия.
Решение: bigARTM с фоновыми темами и регуляризаторами сглаживания, разреживания и декорреляции (коэффициенты подобраны автоматически), а также с автоматически выделенными N-граммами.
Новизна: Потребность в автоматизированной настройке параметров модели и отсутствие подобных реализаций в научном сообществе.
Авторы: консультант Виктор Булатов, эксперт К.В. Воронцов.

Задача 5

Название: Нахождение парафразов.
Задача: Парафразы — разные вариации одного и того же текста, одинаковые по смыслу, но отличающиеся лексически и грамматически, например: "Куда поехала машина" и "В каком направлении поехал автомобиль". Задача детектирования парафразов заключается в выделении в множестве текстов кластеров, таких что в каждом кластере содержатся только парафразы одного и того же предложения.

Самый простой способ выделения парафразов — кластеризация текстов, где каждый текст представлен "мешком слов".

. Данные: Есть открытые датасеты вопросов для тестирования и обучения на kaggle.com, есть открытые данные для тестирования с конференций semeval.
Литература:
1. Будет позже
Базовый алгоритм: Использовать для выделения парафразов какой-нибудь из алгоритмов кластеризации документов, где каждый документ представлен мешком слов или tf-idf.
Решение: Использовать нейросетевые архитектуры для поиска парафразов, использовать в качестве признаков словосочетания, выделенные с помощью синтаксических анализаторов, использовать многоуровневую кластеризацию.
Новизна: Отсутствие реализаций для русского языка, которые будут использовать синтаксические анализаторы для подобной задачи, все текущие решения достаточно "просты".
Авторы: Артём Попов.

Задача 6

Название: On conformational changes of proteins using collective motions in torsion angle space and L1 regularization.
Задача: Torsion angles are the most natural degrees of freedom for describing motions of polymers, such as proteins. This is because bond lengths and bond angles are heavily constrained by covalent forces. Thus, multiple attempts have been done to describe protein dynamics in the torsion angle space. For example, one of us has developed an elastic network model (ENM) [1] in torsion angle space called Torsional Network Model (TNM) [2]. Functional conformational changes in proteins can be described in the Cartesian space using just a subset of collective coordinates [3], or even a sparse representation of these [4]. The latter requires a solution of a LASSO optimization problem [5]. The goal of the current project is to study if a sparse subset of collective coordinates in the torsion subspace can describe functional conformational changes in proteins. This will require a solution of a ridge regression problem with a L1 regularization constraint. The starting point will be the LASSO formulation.
. Данные: Experimental conformations will be extracted from the Protein Docking Benchmark v5 (https://zlab.umassmed.edu/benchmark/) and a few others. The TNM model can be downloaded from https://ub.cbm.uam.es/tnm/tnm_soft_main.php
Литература:
1. Tirion MM. (1996) Large Amplitude Elastic Motions in Proteins from a Single-Parameter, Atomic Anal- ysis. Phys Rev Lett. 77:1905–1908.
2. Mendez R, Bastolla U. (2011) Torsional network model: normal modes in torsion angle space better correlate with conformation changes in proteins. Phys Rev Lett. 2010 104:228103.
3. SwarmDock and the use of normal modes in protein-protein docking. IH Moal, PA Bates - International journal of molecular sciences, 2010
4. Modeling protein conformational transition pathways using collective motions and the LASSO method. TW Hayes, IH Moal - Journal of chemical theory and computation, 2017
5. https://en.wikipedia.org/wiki/Lasso_(statistics)
6. E. Frezza, R. Lavery, Internal normal mode analysis (iNMA) applied to protein conformational flexibility, Journal of Chemical Theory and Computation 11 (2015) 5503–5512.
Базовый алгоритм: The starting point will be a combination of methods from references 2 and 4. It has to be a LASSO formulation with the direction vectors reconstructed from the internal coordinates. The quality will be computed based on the RMSD measure between the prediction and the solution on several benchmarks. Results will be presented with statistical plots (see examples in references 3-4.
Новизна: This is an important and open question in computational structural bioinformatics - how to efficiently represent transitions between protein structures. Not much has been done in the torsional angle subspace (internal coordinates)[6] and nearly nothing has been done using L1 regularization [4].
Авторы: Ugo Bastolla on the torsional subspace (https://ub.cbm.uam.es/home/ugo.php), Sergei Grudinin on L1 minimization (https://team.inria.fr/nano-d/team-members/sergei-grudinin/)

Задача 7

Название: Привилегированное обучение в задаче аппроксимации границ радужки глаза
Задача: По изображению человеческого глаза определить окружности, аппроксимирующие внутреннюю и внешнюю границу радужки.
Данные: Растровые монохромные изображения, типичный размер 640*480 пикселей (однако, возможны и другие размеры)[74], [75].
Литература:
- Адуенко А.А. Выбор мультимоделей в задачах классификации (научный руководитель В.В. Стрижов). Московский физико-технический институт, 2017. [76]
- К.А.Ганькин, А.Н.Гнеушев, И.А.Матвеев Сегментация изображения радужки глаза, основанная на приближенных методах с последующими уточнениями // Известия РАН. Теория и системы управления, 2014, № 2, с. 78–92.
- Duda, R. O. Use of the Hough transformation to detect lines and curves in pictures / R. O. Duda, P. E. Hart // Communications of the ACM. 1972. Vol. 15, no. 1. Pp.
Базовый алгоритм: Ефимов Юрий. Поиск внешней и внутренней границ радужки на изображении глаза методом парных градиентов, 2015.
Решение: См. Iris_circle_problem.pdf
Новизна: Предложен быстрый беспереборный алгоритм аппроксимации границ с помощью линейных мультимоделей. Дополнительно капсульные нейросети.
Консультант: Радослав Нейчев (автор Стрижов В.В., эксперт Матвеев И.А.)

Задача 8

Название: Порождение признаков с помощью локально-аппроксимирующих моделей (Классификация видов деятельности человека по измерениям фитнес-браслетов).
Задача: Требуется проверить выполнимость гипотезы о простоте выборки для порожденных признаков. Признаки - оптимальные параметры аппроксимирующих моделей. При этом вся выборка не является простой и требует смеси моделей для ее аппроксимации. Исследовать информативность порожденных признаков - параметров аппроксимирующих моделей, обученных на сегментах исходного временного ряда. По измерениям акселерометра и гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. Характерная продолжительность движения – секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности – минуты. Требуется по описанию временного ряда и кластера восстановить вид деятельности.
Данные: Временные ряды акселерометра WISDM (Временной ряд (библиотека примеров), раздел Accelerometry).
- WISDM (Kwapisz, J.R., G.M. Weiss, and S.A. Moore. 2011. Activity recognition using cell phone accelerometers. ACM SigKDD Explorations Newsletter. 12(2):74–82.), USC-HAD или сложнее. Данные акселерометра (Human activity recognition using smart phone embedded sensors: A Linear Dynamical Systems method, W Wang, H Liu, L Yu, F Sun - Neural Networks (IJCNN), 2014)
Литература:
- Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. URL
- Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016.URL
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. URL
- Исаченко Р.В., Стрижов В.В. Метрическое обучение в задачах многоклассовой классификации временных рядов // Информатика и ее применения, 2016, 10(2) : 48-57. URL
- Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. URL
- Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. URL
Базовый алгоритм: Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] и [Кузнецов, Ивкин: 2014].
Решение: Требуется построить набор локально-аппроксимирующих моделей и выбрать наиболее адекватные. Найти оптимальный способ сегментации и оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
Новизна: Создан стандарт построения локально-аппроксимирующих моделей. Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.
Авторы: Р.Г. Нейчев, В.В. Стрижов, Олег Терехов (ответственный)

Задача 9

Название: Распознавание текста на основе скелетного представления толстых линий и сверточных сетей
Задача: Требуется построить две CNN, одна распознает растровое представление изображения, другая векторное.
Данные: Шрифты в растровом представлении.
Литература: Список работ [77], в частности arXiv:1611.03199 и
- Goyal P., Ferrara E. Graph embedding techniques, applications, and performance: A survey. arXiv:1705.02801, 2017.
- Cai H., Zheng V.W., Chang K.C.-C. A comprehensive survey of graph embedding: Problems, techniques and applications. arXiv:1709.07604, 2017.
- Grover A., Leskovec J. node2vec: Scalable Feature Learning for Networks. arXiv:1607.00653, 2016.
- Mestetskiy L., Semenov A. Binary Image Skeleton - Continuous Approach // Proceedings 3rd International Conference on Computer Vision Theory and Applications, VISAPP 2008. P. 251-258. URL
- Кушнир О.А., Середин О.С., Степанов А.В. Экспериментальное исследование параметров регуляризации и аппроксимации скелетных графов бинарных изображений // Машинное обучение и анализ данных. 2014. Т. 1. № 7. С. 817-827. URL
- Жукова К.В., Рейер И.А. Связность базового скелета и параметрический дескриптор формы // Машинное обучение и анализ данных. 2014. Т. 1. № 10. С. 1354-1368. URL
- Kushnir O., Seredin O. Shape Matching Based on Skeletonization and Alignment of Primitive Chains // Communications in Computer and Information Science. 2015. V. 542. P. 123-136. URL
Базовый алгоритм: Сверточная сеть для растрового изображения.
Решение: Требуется предложить способ свертывания графовых структур, позволяющий породить информативное описание скелета толстой линии.
Новизна: Предложен способ повышения качества распознавания толстых линий за счет нового способа порождения их описаний.
Авторы: Илья Жариков (эксперты Л.М. Местецкий, И.А. Рейер, В.В. Стрижов)

Задача 10

Название: Сравнение нейросетевых и непрерывно-морфологических методов в задаче детекции текста (Text Detection).
Задача: Automatically Detect Text in Natural Images.
Данные: синтетические сгенерированные данные + подготовленная выборка фотографий + COCO-Text dataset + Конкурс Avito 2014.
Литература: COCO benchmark, One of a state-of-the-art architecture
Базовой алгоритм: code + морфологические методы, Avito 2014 winner’s solution.
Решение: Предлагается сравнить работы нескольких state-of-the-art алгоритмов, которым нужна обширная обучающая выборка, с морфологическими методы, требующие небольшого числа данных. Предлагается определить границы применимости тех или иных методов.
Новизна: предложить алгоритм, основанный на использовании как нейросетевых, так и морфологических методов (решение задачи word detection).
Авторы: И. Н. Жариков.
Эксперт: Л. М. Местецкий (морфологические методы).

Задача 11

Название: Автоматическое построение нейросети оптимальной сложности
Задача: Рассматривается задача нахождения устойчивой (и не избыточной по параметрам) структуры нейросети. Нейросеть рассматривается как вычислительный граф, ребрами которого выступают примитивные функции, а вершинами --- промежуточные представления выборки, полученные под действием этих функций. Требуется выбрать подграф модели, при котором итоговая нейросеть будет давать приемлемое качество классификации при небольшом количестве параметров.
Данные: Выборки Boston, MNIST, CIFAR-10
Литература:
1. Бахтеев О.Ю., Стрижов В.В. Выбор моделей глубокого обучения субоптимальной сложности с использованием вариационной оценки правдоподобия // Автоматика и телемеханика, 2018.
2. Смердов А.Н., Бахтеев О.Ю., Стрижов В.В. Выбор оптимальной модели рекуррентной сети в задачах поиска парафраза // Информатика и ее применения, 2018.
3. [78] Вариационный вывод.
4. [79] Релаксация на основе вариационного вывода.
5. [80] DARTS.
Базовый алгоритм: случайный поиск и алгоритм DARTS (выбор модели с использованием релаксации без вариационного вывода).
РешениеПредлагается выбирать структуру нейросети на основе вариационного вывода. Для выбора оптимальной структуры используется релаксация: от строго выбора одной из нескольких рассматриваемых подмоделей нейросети предлагается перейти к композиции этих моделей с различным весом каждой из них.
Новизна: Предложен метод автоматического построения модели, учитывающий неточности при оптимизации параметров модели и позволяющий находить наиболее устойчивые модели.
Авторы: О.Ю. Бахтеев, В.В. Стрижов, координаторы А.В. Грабовой, Г.С. Малиновский

Задача 12

Название: Обучение машинного перевода без параллельных текстов.
Задача: Рассматривается задача построения модели перевода текста без использования параллельных текстов, т.е. пар одинаковых предложений на разных языках. Данная задача возникает при построении моделей перевода для низкоресурсных языков (т.е. языков, для которых данных в открытом доступе немного).
Данные: Выборка статей из Wikipedia на двух языках.
Литература:
- [81] Unsupervised Machine Translation Using Monolingual Corpora Only
- [82] Sequence to sequence.
- [83] Autoencoding.
- [84] Training with Monolingual Training Data.
Базовый алгоритм: Unsupervised Machine Translation Using Monolingual Corpora Only.
Решение: В качестве модели перевода предлагается рассмотреть кобминацию двух автокодировщиков, каждый из которых отвечает за представление предложений на одном из языков. Оптимизация моделей проводится таким образом, чтобы скрытые пространства автокодировщиков для разных языков совпадали. В качестве исходного представления предложений предлагается рассматривать их графовое описание, получаемое с использованием мультиязычных онтологий.
Новизна: Предложен способ построения модели перевода с учетом графовых описаний предложений.
Авторы: А.В. Грабовой, О.Ю. Бахтеев, В.В. Стрижов, Eric Gaussier, координатор Г.С Малиновский

Задача 13

Название: Deep learning for RNA secondary structure prediction
Задача: RNA secondary structure is an important feature which defines RNA functional properties. Its importance can be illustrated by the fact, that it is evolutionary preserved and some types of functional RNAs always have the same secondary structure, for example all tRNAs fold into cloverleaf. As secondary structure often defines functions, knowing RNAs secondary structure may help investigate functions of novel RNA molecules. RNA folding is not as easy as DNA folding, because RNA is single stranded molecule which forms complicated base-pairing interactions, while DNA mostly exists as fully base paired double helices. Current methods of RNA structure prediction rely on experimentally evaluated thermodynamic rules, but with thermodynamics alone only 80% of structures can be accurately predicted. We propose an AI-driven method for predicting RNA secondary structure inspired by neural machine translation model.
Данные: RNA sequences in form of strings of characters
Литература: https://arxiv.org/abs/1609.08144
Базовый алгоритм: https://www.ncbi.nlm.nih.gov/pubmed/16873527
Решение: Deep learning recurrent encoder-decoder model with attention
Новизна: Currently RNA secondary structure prediction still remains unsolved problem and to the best of our knowledge DL approach has never been introduced in the literature before
Авторы: Мария Попова, консультант Филипп Никитин

Задача 14

Название: Deep Learning for reliable detection of tandem repeats in 3D protein structures подробнее в PDF
Задача: Deep learning algorithms pushed computer vision to a level of accuracy comparable or higher than a human vision. Similarly, we believe that it is possible to recognize the symmetry of a 3D object with a very high reliability, when the object is represented as a density map. The optimization problem includes i) multiclass classification of 3D data. The output is the order of symmetry. The number of classes is ~10-20 ii) multioutput regression of 3D data. The output is the symmetry axis (a 3-vector). The input data are typically 24x24x24 meshes. The total amount of these meshes is of order a million. Biological motivation : Symmetry is an important feature of protein tertiary and quaternary structures that has been associated with protein folding, function, evolution, and stability. Its emergence and ensuing prevalence has been attributed to gene duplications, fusion events, and subsequent evolutionary drift in sequence. Methods to detect these symmetries exist, either based on the structure or the sequence of the proteins, however, we believe that they can be vastly improved.
Данные: Synthetic data are obtained by ‘symmetrizing’ folds from top8000 library (http://kinemage.biochem.duke.edu/databases/top8000.php).
Литература: Our previous 3D CNN: [85] Invariance of CNNs (and references therein): [86], [87]
Базовый алгоритм: A prototype has already been created using the Tensorflow framework [4], which is capable to detect the order of cyclic structures with about 93% accuracy. The main goal of this internship is to optimize the topology of the current neural network prototype and make it rotational and translational invariant with respect to input data. [4] [88]
Решение: The network architecture needs to be modified according to the invariance properties (most importantly, rotational invariance). Please see the links below [89], [90] The code is written using the Tensorflow library, and the current model is trained on a single GPU (Nvidia Quadro 4000)of a desktop machine.
Новизна: Applications of convolutional networks to 3D data are still very challenging due to large amount of data and specific requirements to the network architecture. More specifically, the models need to be rotationally and transnationally invariant, which makes classical 2D augmentation tricks loosely applicable here. Thus, new models need to be developed for 3D data.
Авторы: эксперт Sergei Grudinin, консультанты Guillaume Pages

Задача 15

Название: Формулировка и решение задачи оптимизации, сочетающей классификацию и регрессию, для оценки энергии связывания белка и маленьких молекул. Описание задачи [91]
Задача: С точки зрения биоинформатики, задача заключается в оценке свободной энергии связывания белка с маленькой молекулой (лигандом): наилучший лиганд в своем наилучшем положении имеет наименьшую свободную энергию взаимодействия с белком. (Далее большой текст, см. файл по ссылке вверху.)
Данные:
- Данные для бинарной классификации. Около 12,000 комплексов белков с лигандами: для каждого из них есть 1 нативная поза и 18 ненативных. Основными дескрипторами являются гистограммы распределений расстояний между различными атомами белка и лиганда, размерность вектора дескрипторов ~ 20,000. В случае продолжения исследования и публикации в профильном журнале набор дескрипторов может быть расширен. Данные будут предоставлены в виде бинарных файлов со скриптом на python для чтения.
- Данные для регрессии. Для каждого из представленных комплексов известно значение величины, которую можно интерпретировать как энергию связывания.
Литература:
- SVM [92]
- Ridge Regression [93]
- [94] (секция 1)
Базовый алгоритм: [95]

В задаче классификации мы использовали алгоритм, похожий на линейный SVM, связь которого с оценкой энергии, выходящей за рамки задачи классификации, описана в указанной выше статье. В задаче регрессии можно использовать различные функции потерь.

Решение: Необходимо связать использованную ранее оптимизационную задачу с задачей регрессии и решить стандартными методами. Для проверки работы алгоритма будет использована кросс-валидация.

Есть отдельный тестовый сет, состоящий из (1) 195 комплексов белков и лигандов, для которых нужно найти наилучшую позу лиганда (алгоритм получения положений лиганда отличается от используемого при обучении), (2) комплексов белков и лигандов, для нативных поз которых нужно предсказать энергию связывания, и (3) 65 белков, для которых нужно найти наиболее сильно связывающийся лиганд.

Новизна: В первую очередь, интерес представляет объединение задач классификации и регрессии.

Правильная оценка качества связывания белка и лиганда используется при разработке лекарства для поиска молекул, наиболее сильно взаимодействующих с исследуемым белком. Использование описанной выше задачи классификации для предсказания энергии связывания приводит к недостаточно высокой корреляции предсказаний с экспериментальными значениями, в то время как использование одной лишь задачи регрессии приводит к переобучению.

Авторы Сергей Грудинин, Мария Кадукова

Задача 16

Название: Оценка оптимального объема выборки для исследований в медицине
Задача: В условиях недостаточного числа дорогостоящих измерений требуется спрогнозировать оптимальный объем пополняемой выборки.
Данные: Выборки измерений в медицинской диагностике, в частности, выборка иммунологических маркеров.
Литература:
- Мотренко А.П. Материалы по алгоритмам оценки оптимального объема выборки в репозитории MLAlgorithms[96], [97].
Базовый алгоритм: Серия эмпирических алгоритмов оценки объема выборки.
Решение: Исследование свойств пространства параметров при пополнении выборки.
Новизна: Предложена новая методология прогнозирования объема выборки, обоснованная с точки зрения классической и байесовской статистики.
Авторы: А.М. Катруца, В.В. Стрижов, координатор Тамаз Гадаев

Задача 17

Название: Прогнозирование намерений. Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга
Задача: При построении систем нейрокомпьютерного интерфейса (brain-computer interface) используются простые, устойчивые модели. Важным этапом построения такой модели является построение адекватного признакового пространства. Ранее такая задача решалась с помощью выделения признаков из частотных характеристик сигналов.
Данные: Наборы данных сигналов мозга ECoG/EEG.
Литература:
1. Motrenko A.P., Strijov V.V. Multi-way feature selection for ECoG-based brain-computer Interface // Expert systems with applications. - 2018.
2. Eliseyev A., Aksenova T. Stable and artifact-resistant decoding of 3D hand trajectories from ECoG signals using the generalized additive model //Journal of neural engineering. – 2014.
Базовый алгоритм: Сравнение предлагается производить с алгоритмом частных наименьших квадратов (partial least squares).
Решение: В данном работе предлагается учесть пространственную зависимость между сенсорами, которые считывают данные. Для этого необходимо локально смоделировать пространственный импульс/сигнал и построить прогностическую модель на основе локального описания.
Новизна: Предлагается существенно новый способ построения признакового описания в задаче декодирования сигналов.
Авторы: В.В. Стрижов, Tetiana Aksenova +1, консультант – Роман Исаченко

Задача 18

Название: Прогнозирование намерений. Построение оптимальной модели декодирования сигналов при моделировании нейрокомпьютерного интерфейса.
Задача: Нейрокомпьютерный интерфейс (BCI) позволяет помочь людям с ограниченными возможностями вернуть их мобильность. По имеющемуся описанию сигнала прибора необходимо смоделировать поведение субъекта.
Данные: Наборы данных сигналов мозга ECoG/EEG.
Литература: kjm_ECoGLibrary_v7
Решение: В данной работе предлагается построить единую систему, решающую задачу декодирования сигналов. В качестве этапов построения такой системы предлагается решить задачи предобработки данных, выделения признакового пространства, снижения размерности и выбора модели оптимальной сложности.
Новизна: Предлагается систематический подход к решению задачи декодирования сигналов. В постановке задачи учитывается комплексная природа сигнала: непрерывная траектория движения, наличие дискретных структурных переменных (пальцы или движение суставов), наличие непрерывных переменных (позиция пальца или конечности).
Авторы: В.В. Стрижов, Tetiana Aksenova +1, консультант – Роман Исаченко

Задача 19

Название: Исследование зависимости качества распознавания онтологических объектов от глубины гипонимии.
Задача: Необходимо исследовать зависимость качества распознавания онтологических объектов на различных уровнях гипонимии понятий. Классическая постановка задачи распознавания именованных сущностей: https://en.wikipedia.org/wiki/Named-entity_recognition
Данные: Гипонимии из https://wordnet.princeton.edu/ , тексты разных доменов предположительно из WebOfScience.
Литература: Релевантные статьи для классической постановки http://arxiv-sanity.com/search?q=named+entity+recognition
Базовый алгоритм: В качестве алгоритма может использоваться https://arxiv.org/pdf/1709.09686.pdf или упрощенная его версия, исследования производятся с использованием библиотеки DeepPavlov.
Решение: Необходимо собрать датасет гипонимии (вложенности понятий) объектов с использованием WordNet, произвести автоматическую разметку онтологических объектов текстов различных доменов для нескольких уровней обобщения понятий, провести ряд экспериментов для определения качества распознавания онтологических объектов для разных уровней вложенности.
Новизна: Подобные исследования не производились, готовые датасеты с иерархической разметкой объектов отсутствуют. Распознавание онтологических объектов на различных уровнях гипонимии может быть использовано для производства дополнительных признаков при решении различных NLP (Natural language processing) задач, а также определения являются ли объекты парой гипоним-гипероним.
Авторы: Бурцев Михаил Сергеевич (эксперт), Баймурзина Диляра Римовна (консультант).

Задача 20

Название: Сравнение качества end-to-end обучаемых моделей в задаче ответа на вопросы в диалоге с учетом контекста
Задача: Задан фрагмент текста и несколько последовательных вопросов. Ответы на первые n вопросов известны. Нужно сформировать ответ на n+1 вопрос. В качестве ответа нужно указать непрерывный промежуток в тексте заданного фрагмента текста (номера начального и конечного слов). При оценке качества ответа задача сводится к классификации символов фрагмента на класс 0 (не входит в ответ) и 1 (входит в ответ).
Данные: Предоставляется размеченный датасет с фрагментами текста и наборами вопросов с ответами в диалоге
Литература: Статья Bi-directional Attention Flow for Machine Comprehension (BiDAF2017) описывает end-to-end модель ответов на вопросы по фрагменту без учета контекста диалога. Статья QuAC: Question Answering in Context (QuAC2018) описывает набор данных, содержит описание используемого базового алгоритма с учетом контекста диалога. Статьи с описанием других моделей вопрос-ответных систем (R-Net, DrQA)
Базовый алгоритм: Базовый алгоритм описан статьях и реализован (QuAC2018, BiDAF2017).
Решение: Предлагается изучить механизмы учета контекста (k-ctx, append, etc) и исследовать возможность их добавления в другие модели (DrQA, R-NET), либо предложить собственные для повышения качества по мере F1. Для изучения поведения модели используется визуализация внимания (attention visualization), обучаемых эмбеддингов, а также анализ ошибочных ответов. Предоставляется доступ к вычислительным ресурсам, используемые фреймворки: TensorFlow, PyTorch или Keras.
Новизна: Исследование проводится на новом датасете, для которого на данный момент имеется только базовый алгоритм. Подтверждение повышения качества от применения механизмов учета контекста диалога в других моделях указывает на применимость предлагаемых подходов для решения более широкого круга задач.
Авторы: Антон Сергеевич Хританков

Задача 21

Название: Методы выпуклой оптимизации высокого порядка
Задача: Для выпуклых задач не очень больших размерностей эффективно (до n ~ 10^3 иногда даже до n ~ 10^4) применяются методы высокого порядка. До недавнего времени принято было считать, что это методы второго порядка (использующие вторые производные оптимизируемой функции). Однако в начале 2018 года Ю.Е. Нестеров [1] предложил в теории эффективный метод третьего порядка, который работает почти по оптимальным оценкам. В пособии [3] в упражнении 1.3 описан пример "плохой" выпуклой функции, предложенной Ю.Е. Нестеровым, на котором хотелось бы сравнить метод Нестерова второго и третьего порядка [1], метод из работы [2] второго и третьего порядка и обычные быстрые градиентные методы (первого порядка). Сравнивать стоит как по числу итераций, так и по общему времени работы.
Литература:

Автор: Евгения Алексеевна Воронцова (доцент ДВФУ, Владивосток), Александр Владимирович Гасников

Задача 22

Название: Cutting plane methods for copositive optimization
Задача: Conic program over the copositive cone (copositive program) min <C,X> : <A_i,X> = b_i, X \in \Pi_i C^k_i, k_i <= 5 A linear function is minimized over the intersection of an affine subspace with a product of copositive cones of orders k_i <= 5. Подробнее тут
Данные: The algorithm will be tested on randomly generated instances
Литература:
- [1] Peter J. C. Dickinson, Mirjam Dür, Luuk Gijben, Roland Hildebrand. Scaling relationship between the copositive cone and Parrilo’s first level approximation. Optim. Lett. 7(8), 1669—1679, 2013.
- [2] Stefan Bundfuss, Mirjam Dür. Algorithmic copositivity detection by simplicial partition. Linear Alg. Appl. 428, 1511—1523, 2008.
- [3] Mirjam Dür. Copositive programming — a Survey. In Recent advances in Optimization and its Applications in Engineering, Springer, pp. 3-20, 2010.
Базовый алгоритм: The reference algorithm is described in [4] Stefan Bundfuss, Mirjam Dür. An Adaptive Linear Approximation Algorithm for Copositive Programs. SIAM J. Optim., 20(1), 30-53, 2009.
Решение: The copositive program will be solved by a cutting plane algorithm. The cutting plane (in the case of an infeasible iterate) will be constructed from the semidefinite representation of the diagonal 1 section of the cone proposed in [1]. The algorithm will be compared to a simplicial division method proposed in [2], [4]. General information about copositive programs and their applications in optimization can be found in [3] .
Новизна: The proposed algorithm for optimization over copositive cones up to order 5 uses an exact semi-definite representation. In contrast to all other algorithms existing today the generation of cutting planes is non-iterative.
Автор: Roland Hildebrand

Задача 23

Название: Фрактальный анализ и синтез оптических изображений морского волнения
Задача: Разнообразные физические процессы и явления изучаются с помощью изображений, получаемых дистанционно. Важной задачей является получение адекватной информации об интересующих процессах и явлениях путём измерения определённых характеристик изображений. Линии равной яркости (изолинии) на изображениях многих природных объектов являются фрактальными, то есть представляют собой множества точек, которые не могут быть представлены линиями конечной длины и занимают промежуточное положение между линиями и двумерными плоскими фигурами. Такие множества характеризуются фрактальной размерностью D, которая обобщает классическое понятие размерности множества и может принимать дробные значения. Для уединённой точки на изображении D=0, для гладкой кривой D=1, для плоской фигуры D=2. Фрактальная изолиния имеет размерность 1<D<2. Алгоритм расчёта D приведён, например, в [1]. Фрактальная размерность изолиний морской поверхности, может служить для оценки пространственных спектров морских волн по данным дистанционного зондирования [1]. Задача состоит в следующем. Необходимо провести исследование численными методами зависимости между характеристиками пространственных спектров морских волн и фрактальной размерностью спутниковых изображений Земли в области солнечного блика. Для исследования следует использовать метод численного синтеза оптических изображений морского волнения, описанный в [2]. Численное моделирование должно быть при различных характеристиках морских волн, а также при различных положениях Солнца и пространственном разрешении изображений.
Литература:
1. Лупян Е. А., Мурынин А. Б. Возможности фрактального анализа оптических изображений морской поверхности. // Препринт Института Космических исследований АН СССР Пр.-1521, Москва, 1989, 30 с.
2. Мурынин А. Б. Восстановление пространственных спектров морской поверхности по оптическим изображениям в нелинейной модели поля яркости // Исследования Земли из космоса, 1990. № 6. С. 60-70.
Автор: Иван Алексеевич Матвеев

Задача 24

Название Максимизация энтропии при различных видах преобразований над изображением
Задача: Паншарпенинг — это алгоритм повышения разрешения мультиспектральных изображений с использованием опорного изображения. Задача паншарпенинга формулируется следующим образом: имея панхроматическое изображение требуемого разрешения и мультиспектральное изображение пониженного разрешения, требуется восстановить мультиспектральное изображение в пространственном разрешении панхроматического. Из эмпирических наблюдений, основанных на большом количестве снимков высокого разрешения, известно, что пространственная вариативность интенсивности отраженного излучения для объектов одной природы гораздо больше, чем вариативность их спектра. Другими словами, можно наблюдать, что спектр отраженного излучения однороден в границах одного объекта, в то время как даже внутри одного объекта интенсивность отраженного излучения варьируется. На практике хороших результатов можно достигнуть, используя упрощенный подход, при котором считается, что если интенсивность соседних областей значительно отличается, то, вероятно, эти области принадлежат разным объектам с разными отраженными спектрами. На этом основан разработанный вероятностный алгоритм повышения разрешения мультиспектральных изображений с использованием опорного изображения [1]
Необходимо провести исследование по максимизации энтропии при различных видах преобразований над изображением. Показать, что энтропия может служить индикатором потерь информации, содержащейся в изображении, при преобразованиях над ним. Формулировка обратной задачи по восстановлению изображения: Условие 1: Соответствие интенсивности (в каждой точке) восстановленного изображения интенсивности панхромного изображения. Условие 2: Соответствие низкочастотной составляющей восстановленного изображения исходному мультиспектральному изображению. Условие 3: Однородность (подобность) спектра в пределах одного объекта и допущение скачкообразного изменения спектра на границе двух однородных областей. Условие 4: При соблюдении первых трех условий, локальная энтропия восстановленного изображения должна быть максимизирована.
Литература
1. Гороховский К. Ю., Игнатьев В. Ю., Мурынин А. Б., Ракова К. О. Поиск оптимальных параметров вероятностного алгоритма повышения пространственного разрешения мультиспектральных спутниковых изображений // Известия РАН. Теория и системы управления, 2017, № 6.
Автор: Иван Алексеевич Матвеев

Задача 25

Название: Автоматическое детектирование и распознавание объектов на изображениях
Задача: Автоматическое детектирование и распознавание объектов на изображениях и видео является одной из основных задач компьютерного зрения. Как правило, эти задачи разбиваются на несколько подзадач: предобработка, выделение характерных свойств изображения объекта и классификация. Этап предобработки обычно включает некоторые операции с изображением, такие как фильтрация, выравнивание яркости, геометрические корректирующие преобразования для облегчения устойчивого выделения признаков.

Под характерными свойствами изображения объекта понимается некоторый набор признаков, приближённо описывающий интересующий объект. Признаки можно разбить на два класса: локальные и интегральные. Преимуществом локальных признаков является их универсальность, инвариантность по отношению к неравномерным изменениям яркости и освещённости, но они не уникальны. Интегральные признаки, характеризующие изображение объекта в целом, не устойчивы к изменению структуры объекта и сложным условиям освещения. Существует комбинированный подход — использование локальных признаков в качестве элементов интегрального описания, когда искомый объект моделируется набором областей, каждая из которых характеризуется своим набором признаков — локальным текстурным дескриптором. Совокупность таких дескрипторов характеризует объект в целом. Под классификацией понимают определение принадлежности объекта к тому или иному классу путём анализа вектора признаков, полученного на предыдущем этапе, разделения признакового пространства на подобласти, указывающие на соответствующий класс. Существует множество подходов к классификации: нейросетевые, статистические (Байеса, регрессия, Фишера и др.), решающие деревья и леса, метрические (ближайшие К-соседей, парзеновские окна и т. д.) и ядерные (SVM, RBF, метод потенциальных функций), композиционные (AdaBoost). Для задачи обнаружения объекта на изображении оценивается принадлежность двум классам — классу изображений, содержащих объект, и классу изображений, не содержащих объект (изображениям фона).

Литература и более подробно тут
Автор: Иван Алексеевич Матвеев

Задача 26

Название: Определение местоположения по сигналам акселерометра
Задача: Даны исходные координаты, сигналы акселерометра, дополнительная информация (сигналы гироскопа, магнетометра). Возможно, дана неточная карта (задача SLAM)
Данные: из работы [1], данные, собранные самостоятельно.
Литература:
1. https://arxiv.org/pdf/1712.09004.pdf
2. https://ieeexplore.ieee.org/document/1528431
Базовый алгоритм: из работы [1].
Решение: Поиск априорной и дополнительной информации, которая позволяет повысить точность позиционирования.
Новизна: Постановка задачи в терминах Projection to Latent Spaces
Авторы: консультант Анастасия Мотренко, эксперт Илья Гарцеев, В. В. Стрижов

Задача 27

Название: Создание ранжирующих моделей для систем информационного поиска. Алгоритм прогнозирования структуры локально-оптимальных моделей
Задача: Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, и на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Задача состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
Данные:
- Коллекция текстовых документов TREC (!)
- Набор временных рядов, который подразумевает восстановление функциональных зависимостей. Предлагается сначала использовать синтетические данные или сразу применить алгоритм к прогнозированию временных рядов 1) потребления электроэнергии 2) физической активности с последующим анализом получающихся структур.
Литература:
1. (!) Kulunchakov A.S., Strijov V.V. Generation of simple structured Information Retrieval functions by genetic algorithm without stagnation // Expert Systems with Applications, 2017, 85 : 221—230.
2. А. А. Варфоломеева Выбор признаков при разметке библиографических списков методами структурного обучения, 2013, [98]
3. Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [99]
Базовой алгоритм: Описан в [1]. Развит в работе команды группы 974. Предлагается использовать их код и эксперимент.
Решение: Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит. Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) и получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
Авторы: консультант Андрей Кулунчаков (Univ. Grenoble-Alpes), эксперт В. В. Стрижов

Задача 28

Название: Мультимоделирование как универсальный способ описания выборки общего вида
Задача: Построить метод инкрементального уточнения структуры мультимодели при появлении новых объектов. Разработка и сравнение разных алгоритмов обновления структуры мультимоделей. Построение оптимальной схемы уточнения структуры мультимодели в зависимости от полного размера выборки.
Данные: На начальном этапе работы используются синтетические данные с известной статистической структурой. Тестирование разработанных методов производится на реальных данных из репозитория UCI.
Литература:

Bishop, Christopher M. «Pattern recognition and machine learning». Springer, New York (2006).
Gelman, Andrew, et al. Bayesian data analysis, 3rd edition. Chapman and Hall/CRC, 2013.
MacKay, David JC. «The evidence framework applied to classification networks.» Neural computation 4.5 (1992): 720—736.
Адуенко А. А. «Выбор мультимоделей в задачах классификации» кандидатская диссертация
Motrenko, Anastasiya, Vadim Strijov, and Gerhard-Wilhelm Weber. «Sample size determination for logistic regression.» Journal of Computational and Applied Mathematics 255 (2014): 743—752.

Базовой алгоритм: Алгоритм построения адекватных мультимоделей из #4.
Решение: Байесовский подход к задаче выбора моделей на основании обоснованности. Анализ свойств обоснованности и ее связи со статистической значимостью.
Новизна: Предлагается метод построения оптимальной схемы обновления структуры мультимодели при появлении новых объектов. Исследована связь обоснованности и статистической значимости для некоторых классов моделей.
Авторы: Стрижов Вадим Викторович, Адуенко Александр Александрович (GMT-5)

Задача 29

Название: Cross-Language Document Extractive Summarization with Neural Sequence Model.
Задача: Предлагается решить задачу переноса обучения для модели сокращения текста выделением предложением (extractive summarization) и исследовать зависимость качества сокращения текста от качества обучения модели перевода. Имея данные для обучения модели сокращения на английском языке и параллельный англо-русский корпус текстов построить модель для сокращения текста на русском языке. Решение задачи оценивается на небольшом наборе данных для тестирования модели на русском языке, качество решения задачи определяется отношением значений критериев ROUGE на английском и русском наборах.
Данные: Данные для обучения модели на английском языке (SummaRuNNer2016), параллельный корпус OPUS, данные для проверки на русском языке.
Литература: В статье (SummaRuNNer2016) дается описание базового алгоритма сокращения текста, в работе Neural machine translation by jointly learning to align and translate.(NMT2016) дается описание модели перевода. Идея совместного использования моделей представлена в статье Cross-Language Document Summarization Based on Machine Translation Quality Prediction (CrossSum2010).
Базовой алгоритм: Одна из идей базового алгоритма представлена в (CrossSum2010), модель перевода реализована (OpenNMT), предоставляется реализация модели сокращения текста (SummaRuNNer2016).
Решение: Предлагается исследовать идею решения, предложенную в статье (CrossSum2010) и варианты объединения моделей сокращения и перевода. Базовые модели и предобработка наборов данных реализованы (OpenNMT), библиотеки PyTorch и Tensorflow. Анализ ошибок по сокращению текста производится, как описано в (SummaRuNNer2016), анализ качества обучения моделей стандартными инструментами библиотек, .
Новизна: Для базовой модели применимость исследована на паре наборов данных, подтверждение возможности переноса обучения на набор данных на другом языке и указание условий для этого переноса расширит область применения модели и укажет необходимые новые доработки модели или предобработки данных.
Авторы: Алексей Романов (консультант), Антон Хританков (эксперт).

Задача 30

Название: Метод построения HG-LBP дескриптора на основе гистограмм градиентов для детектирования пешеходов.
Задача: Предлагается разработать новый дескриптор, обобщающий LBP дескриптор на основе гистограмм модулей градиентов, имеющий свойства композиции HOG-LBP для задачи детектирования пешеходов на изображении. В качестве анализа качества нового дескриптора предлагается использовать графики ошибок детектирования FAR/FRR на базе INRIA.
Данные: База данных пешеходов INRIA: http://pascal.inrialpes.fr/data/human/
Литература:
1. 1. T. Ojala and M. Pietikainen. Multiresolution Gray-Scale and Rotation Invariant Texture Classification with Local Binary Patterns, IEEE Trans on Pattern Analysis and Machine Intelligence, Vol. 24. No.7, July, 2002.
2. 2. T. Bouwmans, C. Silva, C. Marghes, M. Zitouni, H. Bhaskar, C. Frelicot,, «On the Role and the Importance of Features for Background Modeling and Foreground Detection», https://arxiv.org/pdf/1611.09099v1.pdf
3. 3. N. Dalal and B. Triggs, Histograms of Oriented Gradients for Human Detection // Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2005, pp.886-893
4. 4. T. Ahonen, A. Hadid, M. Pietikainen Face Description with Local Binary Patterns: Application to Face Recognition \\ IEEE Transactions on Pattern Analysis and Machine Intelligence, Volume:28 , Issue: 121.
5. 5. http://www.magicandlove.com/blog/2011/08/26/people-detection-in-opencv-again/
6. 6. http://www.cse.oulu.fi/CMV/Downloads/LBPMatlab2.
7. 7. http://www.mathworks.com/help/vision/ref/extractlbpfeatures.html3.
8. 8. http://www.codeproject.com/Articles/741559/Uniform-LBP-Features-and-Spatial-Histogram-Computa4.
9. 9. http://www.cse.oulu.fi/CMV/Research
Базовой алгоритм: Xiaoyu Wang, Tony X. Han, Shuicheng Yan. An HOG-LBP Human Detector with Partial Occlusion Handling \\ ICCV 2009
Решение: Одним из вариантов обобщения LBP может быть использование вместо гистограмм распределения точек по LBP-коду, гистограмм распределения модулей градиентов точек в блоке по LBP-коду (HG-LBP). Предлагается для основы экспериментов использовать библиотеку OpenCV, в которой реализованы алгоритмы HOG и LBP. Необходимо модифицировать исходный код реализации LBP и вставить подсчет модулей градиента и накопление соответствующей гистограммы по LBP. Необходимо написать программу чтения базы INRIA, обучения по ней метода линейного SVM на исходных и модифицированных дескрипторах, сбора статистики детектирования и построения DET-графиков FAR/FRR.
Новизна: Разработка вычислительно простых методов для выделения максимально информативных признаков в задачах распознавания является актуальной в области создания встроенных систем, обладающих малыми вычислительными ресурсами. Замена композиции дескрипторов одним, более информативным, чем каждый по отдельности может упростить решение задачи. Использование значений градиента в гистограммах дескриптора LPB является новым.
Авторы: Гнеушев Александр Николаевич

Задача 31

Название: Использование HOG дескриптора для обучения нейронной сети в задаче детектирования пешеходов
Задача: Предлагается заменить линейный SVM классификатор в классическом алгоритме HOG простой сверточной нейронной сетью небольшой глубины, при этом HOG дескриптор должен представляться трехмерным тензором, сохраняющим пространственную структуру локальных блоков. В качестве анализа качества нового дескриптора предлагается использовать графики ошибок детектирования FAR/FRR на базе INRIA.
Данные: База данных пешеходов INRIA: http://pascal.inrialpes.fr/data/human/
Литература:
1. 1. N. Dalal and B. Triggs, Histograms of Oriented Gradients for Human Detection // Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2005, pp.886-893
2. 3. Q. Zhu, S. Avidan, M.-C. Yeh, and K.-T. Cheng. Fast human detection using a cascade of histograms of oriented gradients. In CVPR, pages 1491—1498, 2006 O. Tuzel, F. Porikli, and P. Meer. Human detection via classification on riemannian manifolds. In CVPR, 2007
3. 4. P. Dollar, C. Wojek, B. Schiele and P. Perona Pedestrian Detection: An Evaluation of the State of the Art / IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), Vol 34. Issue 4, pp. 743—761
4. 5. Xiaoyu Wang, Tony X. Han, Shuicheng Yan, An HOG-LBP Human Detector with Partial Occlusion Handling, ICCV 2009 http://www.xiaoyumu.com/s/PDF/Wang_HOG_LBP.pdf
5. 6. https://en.wikipedia.org/wiki/Pedestrian_detection
6. 7. HOG person detector tutorial https://chrisjmccormick.wordpress.com/2013/05/09/hog-person-detector-tutorial/
7. 8. NavneetDalalThesis.pdf Navneet Dalal. Finding People in Images and Videos. PhD Thesis. Institut National Polytechnique de Grenoble / INRIA Rhone-Alpes, Grenoble, July 2006)
8. 9. People Detection in OpenCV http://www.magicandlove.com/blog/2011/08/26/people-detection-in-opencv-again/
9. 10. Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, Hartwig Adam. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
Базовой алгоритм:
1. 1. N. Dalal and B. Triggs, Histograms of Oriented Gradients for Human Detection // Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2005, pp.886-893
2. 2. Xiaoyu Wang, Tony X. Han, Shuicheng Yan, An HOG-LBP Human Detector with Partial Occlusion Handling, ICCV 2009
Решение: Одним из вариантов обобщения алгоритма HOG может быть использование вместо линейного алгоритма SVM другого классификатора, например какой-либо нейронной сети. Предлагается для основы экспериментов использовать библиотеку OpenCV, в которой реализован алгоритм HOG и классификатор SVM. Нужно проанализировать исходный код реализации HOG, формализовать внутреннюю структуру вектора HOG дескриптора в форме трехмерного тензора — две пространственные и одна спектральная размерности. Необходимо написать программу чтения базы INRIA, обучения по ней метода линейного SVM на HOG-дескрипторах, сбора статистики детектирования и построения DET-графиков FAR/FRR. Необходимо на основе какой-либо системы обучения нейросети (например, mxnet) собрать неглубокую (не более 2-3 сверточных слоев) сверточную нейросеть известной архитектуры, обучить ее на базе INRIA и на тензорных дескрипторах HOG, построить соответствующие графики FAR/FRR.
Новизна: Разработка вычислительно простых методов для выделения максимально информативных признаков в задачах распознавания является актуальной в области создания встроенных систем, обладающих малыми вычислительными ресурсами. Использование небольшого количества наиболее информативных дескрипторов может уменьшить вычислительную сложность, по сравнению с использованием большой композиции простых признаков, например в глубокой сверточной нейросети. Обычно классификаторы используют HOG дескриптор как вектор в целом, однако при этом теряется информация о локальной пространственной структуре и спектре признаков. Новизна заключается в использовании свойства локальности блоков в HOG дескрипторе и представление HOG в виде трехмерного тензора. Использование этой информации позволяет достичь устойчивости детектирования к перекрытию пешехода.
Авторы: Гнеушев Александр Николаевич

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Strijov/Drafts»