Участник:Strijov/Drafts
Материал из MachineLearning.
2021
Моя первая научная статья
Участвуют эксперты, индивидуальные консультанты и студенты кафедры Интеллектуальные системы ФУПМ МФТИ.
- Описание курса
- История 2020 (774, 794) — 2019 (674) — 2019 (694) — 2018 — 2017 — 2016 — 2015 — 2014 — 2013
- Видео докладов по курсу на канале Machine Learning на Youtube
- Короткая ссылка на эту страницу: bit.ly/m1p_2021
- Расписание и домашние задания: m1p.org
- Телеграм-канал: @m1p_org
Роли
Студент третьего курса очень хочет научиться ставить задачи формально, находить нужную литературу, порождать новые и актуальные идеи и решения задач.
Консультант помогает студенту в пользовании инструментами, отвечает на вопросы по специальности, консультирует выполнение работ, оперативно реагирует на проблемы, проверяет (в среду) результаты, ставит оценки. Предполагается, что консультант сам пишет работу-спутник по этой теме. В конце работы могут быть объединены или выполнены и опубликованы параллельно. По возможности, рекомендуется организовать правки текста студента с целью улучшить стиль изложения таким образом, чтобы студент вносил правки самостоятельно. Возможно, при очной встрече или по скайпу.
Эксперт: поставщик задачи, владелец данных, либо тот, кто гарантирует новизну и актуальность работы.
Результаты
Автор | Тема научной работы | Ссылки | Консультант | Буквы | Рецензент |
---|---|---|---|---|---|
Гребенькова Ольга (пример) | Вариационная оптимизация моделей глубокого обучения с контролем сложности модели | LinkReview | Олег Бахтеев | AILP+UXBR+HCV+TEDWSS | Шокоров Вячеслав |
Пилькевич Антон | Existence conditions for hidden feedback loops in recommender systems | GitHub | Хританков Антон | AILB*P-X+R-B-H1CVO*T-EM*H1WJSF | Горпинич Мария |
Курдюкова Антонина | Определение фазы и разладки движения человека по сигналам носимых устройств | LinkReview | Георгий Кормаков | AILB*PXBRH1CVO*TEM*WJSF | Пилькевич Антон |
Яковлев Константин | Дифференцируемый алгоритм поиска архитектуры модели с контролем её сложности | LinkReview | Гребенькова Ольга | AILB*PXBRH1CVO*TEM*WJSF | Пырэу Виталий |
Горпинич Мария | Регуляризация траектории оптимизации параметров модели глубокого обучения на основе дистилляции знаний | LinkReview | Олег Бахтеев | AILB*P+XBRC+VH1O*TEM*WJSF | Кулаков Ярослав |
Толмачев Александр | Анализ метода отбора признаков QPFS для обобщенно-линейных моделей | LinkReview | Адуенко Александр | AILB*PXB-R-H1CVO*TEM*WJSF | Курдюкова Антонина |
Кулаков Ярослав | BCI: Выбор согласованных моделей для построения нейроинтерфейса | LinkReview | Исаченко Роман | AILB*PXBRH1CVO*TEM*WJ0SF | Зверев Егор |
Пырэу Виталий | Экспериментальное сравнение нескольких задач оперативного планирования биохимического производства. | LinkReview | Тренин Сергей Алексеевич | AILB*PXBRH1CVO*TEM*WJSF | Яковлев Константин |
Баженов Андрей | Поиск границ радужки методом круговых проекций | LinkReview | Матвеев Иван Алексеевич | AILB*PXB0RH1CVO*TEM*WJ0SF | |
Зверев Егор | Learning co-evolution information with natural language processing for protein folding problem | LinkReview | Сергей Грудинин, Илья Игашов | AILB*PXBRH1CVO*TEM*WJSF | Толмачев Александр |
Горчаков Вячеслав | Importance Sampling for Chance Constrained Optimization | LinkReview | Юрий Максимов | AILB*PX0B0R0H1C0V0O*0T0E0M*0W0JS0F | Баженов Андрей |
Линдеманн Никита | Обучение с экспертом для выборки со многими доменами | LinkReview | Андрей Грабовой | AILPXBRH1C0V0O*TE0M*0W0J0SF0 |
Расписание
Расписание и домашние задания находятся тут: Course_schedule
Работа и консультации
- Работы сдаются в течение недели.
- Желательна итеративная сдача работ, начинать показ лучше в выходные.
- Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
- Каждый этап работ +1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — A0. Недельное опоздание — знак «-».
- Так как в 2021 работы оцениваются перекрестным рецензированием, Мотивированный перенос работы (в прошлых годах — знак «A>») фактически означает пропуск.
Шаблон описания проекта — научной статьи
- Название: Название, под которым статья подается в журнал.
- Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
- Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
- Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
- Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
- Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
- Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
- Авторы: эксперт, консультант.
Задача 74
- Название: Existence conditions for hidden feedback loops in recommender systems
- Описание проблемы: В рекомендательных системах известен эффект искусственного непреднамеренного ограничения выбора пользователя вследствие адаптации модели к его предпочтениям (echo chamber/filter bubble). Эффект является частным случаем петель скрытой обратной связи (hidden feedback loop). (см. - Analysis H.F.L.). Выражается в том, что путем рекомендации одних и тех же интересных пользователю объектов, алгоритм максимизирует качество своей работы. Проблема в а) недостаточном разнообразии б) насыщении / изменчивости интересов пользователя.
- Задача: Понятно, что алгоритм не знает интересов пользователя и пользователь не всегда честен в выборе. При каких условиях, каких свойствах алгоритма обучения и нечестности (отклонении выбора пользователя от его интересов) будет наблюдаться указанный эффект? Уточнение. Рекомендательный алгоритм выдает пользователю объекты a_t на выбор. Пользователь выбирает один из них c_t из Бернулли от модели интереса mu(a_t) . На основе выбора пользователя алгоритм изменяет свое внутреннее состояние w_t и выдает следующий набор объектов пользователю. На бесконечном горизонте нужно максимизировать суммарное вознаграждение sum c_t. Найти условия существования неограниченного роста интереса пользователя к предлагаемым объектам в рекомендательной системе с алгоритмом Thomson Sampling (TS) MAB в условиях зашумленности выбора пользователя c_t. Без шума известно, что всегда неограниченный рост (в модели) [1].
- Данные: создаются в рамках эксперимента (имитационная модель) по аналогии со статьей [1], внешние данные не требуются.
- Литература
- Jiang, R., Chiappa, S., Lattimore, T., György, A. and Kohli, P., 2019, January. Degenerate feedback loops in recommender systems. In Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society (pp. 383-390).
- Khritankov, A. (2021). Hidden Feedback Loops in Machine Learning Systems: A Simulation Model and Preliminary Results. In International Conference on Software Quality (pp. 54-65). Springer, Cham.
- Khritankov A. (2021). Hidden feedback loop experiment demo. https://github.com/prog-autom/hidden-demo
- Базовый алгоритм: Исходная математическая модель исследуемого явления описана в статье [1]. Метод экспериментального исследования - в статье [2]. Базовый исходный код доступен в [3]
- Решение: Нужно вывести условия существования положительной обратной связи для алгоритма Thomson Sampling Multi-armed Bandit исходя из известных теоретических свойств этого алгоритма. Затем проверить их выполнение в имитационной модели. Для проверки выполняется серия экспериментов с исследованием диапазонов параметров и оценкой ошибки (variance) моделирования. Результаты сопоставляются с построенной ранее математической моделью эффекта. Есть реализация системы проведения эксперимента, которую можно доработать для данной задачи.
- Новизна: Исследуемый эффект положительной обратной связи наблюдается в реальных и модельных системах и описан во многих публикациях как нежелательное явление. Есть его модель для ограниченного случая отсутствия шума в действиях пользователя, что не реализуется на практике. В предлагаемых условиях задача ранее не ставилась и не решалась для рекомендательных систем. Для задачи регрессии решение известно.
- Авторы: Эксперт, консультант - Антон Хританков
Задача 77
- Название: Определение фазы и разладки движения человека по сигналам носимых устройств
- Задача: Исследуется широкий класс периодических движений человека или животного. Требуется найти начало и конец движения. Требуется понять, когда заканчивается один тип движения и начинается другой. Для этого решается задача сегментации временных рядов. Строится фазовая траектория одного движения и отыскивается его фактическая размерность. Цель работы в том, что надо описать способ нахождения минимальной размерности фазового пространства. По повторению фазовой сегментировать периодические действия человека. Надо также предложить метод извлечения нулевой фазы в данном пространстве для конкретного действия. Бонус: найти разладку фазовой траектории и указать на смену типа движения. Бонус 2: сделать это для различных положений телефона, предложив модели инвариантных преобразований.
- Данные: Данные состоят из считанных с трехосевого акселерометра временных рядов с явно выделенным периодичным классом (ходьба, бег, шаги вверх и вниз по лестнице и т.п.). Возможно получение собственных данных с мобильного устройства, либо получение модельных данных из датасета UCI HAR
- Литература:
- A. P. Motrenko, V. V. Strijov. Extracting fundamental periods to segment biomedical signals // Journal of Biomedical and Health Informatics, 2015, 20(6).P. 1466–1476 1.(Сегментация временных рядов с периодическими действиями: решалась задача сегментации с использованием фазового пространства фиксированной размерности.) PDFURL
- A.D. Ignatov, V. V. Strijov. Human activity recognition using quasi-periodic time series collected from a single triaxial accelerometer. // Multimedia Tools and Applications, 2015, P. 1–14. ( Классификация человеческой активности с помощью сегментации временных рядов : исследовались классификаторы над получаемыми сегментами.) PDFURL
- Grabovoy, A.V., Strijov, V.V. Quasi-Periodic Time Series Clustering for Human Activity Recognition. Lobachevskii J Math 41, 333–339 (2020). (Сегментация временных рядов на квазипериодические сегменты : исследовались методы сегментации с использованием анализа главных компонент и перехода в фазовое пространство.) Text Slides DOI
- Базовой алгоритм: Базовый алгоритм описан в 1 и 3 работах, код тут, код работы 3 у автора.
- Решение: Предлагается рассмотреть различные алгоритмы понижения размерности и сравнить различные пространства, в которых строится фазовая траектория. Разработать алгоритм поиска минимальной размерности фазового пространства, в котором фазовая траектория не имеет самопересечений с точностью до стандартного отклонения восстановленной траектории.
- Новизна: В статье Мотренко размерность пространства равна двум. Этот недочет надо обязательно исправить. Фазовая траетория не должна самопересекаться. А если мы сможем отличить один тип движения от другого внутри одного периода (перешли с бега на шаг и в течение полутора шагов это поняли) - вообще будет замечательно.
- Авторы: Консультанты: Кормаков Г.В., Тихонов Д.М., эксперт Стрижов В.В.
Задача 78
- Название: Importance Sampling for Scenario Approximation of Chance Constrained Optimization
- Задача: Задачи оптимизации с вероятностными ограничениями часто встречаются в инженерной практике. Например, задача минимизации генерации энергии в энергетических сетях, со (случайным образом флуктуирующими) возобновляемыми источниками энергии. При этом необходимо выполнение ограничений безопасности: напряжения у генераторов и потребителей, а также токи на линиях должны быть меньше определенных порогов. Вместе с тем, даже в самых простых ситуациях задача не может быть разрешена точно. Самый известный подход, это методы chance constrained optimization, которые часто дают неплохое приближение. Альтернативный подход – семплирование режимов работы сети и решения задачи на наборе данных задачи классификации: отделение плохих режимов от хороших с заданной ошибкой второго рода. Вместе с тем, для достаточно точного решения, требуются очень большой объем данных, что часто делает задачу численно не эффективной. Мы предлагаем использовать “семплирование по важности” (importance sampling) для уменьшения числа сценариев. Семплирование по важности состоит из подмены выборки из номинального решения, которое часто не несет информации так как все плохие события очень редки, на синтетическое распределение, которое семплирует выборку в окрестности плохих событий.
- Формальная постановка: найти минимум выпуклой функции (цены) при вероятностных ограничениях (вероятность превысить определенный порог для системы линейных/квадратичных функций мала) и численно показать эффективность применения семплирования в этой задаче.
- Данные: Данные доступны в пакетах pypower и matpower в виде csv файлов.
- Литература: Основу предлагаемых алгоритмов составляют 3 статьи:
- Owen, Maximov, Chertkov. Importance Sampling for the Union of Rare Events with Applications to Power Systems LINK
- A. Nemirovski. On safe tractable approximations of chance constraints [1]
- S. Tong, A. Subramanyam, and Vi. Rao. Optimization under rare chance constraints. LINK
- Кроме того у авторов задачи есть черновик статьи, в который нужно добавить численную часть.
- Базовой алгоритм: Список базовых алгоритмов представлен в этой лекции [2]
- Решение: в численных экспериментах нужно сравнить требования по размеру выборки для стандартных методов (scenario approximation) и с использованием семплирования по важности для получения сравнимого по качеству решение (и обратная задача, имея равные длины выборки сравнить качество решения)
- Новизна: задача давно известна в коммьюнити и scenario approximation один из основных методов. Вместе с тем importance sampling помогает существенно снизить число сценариев. Мы недавно получили ряд интересных результатов, как вычислять оптимальные семплеры, с их использованием сложность задачи существенно снизится
- Авторы: эксперт – Юрий Максимов, консультант – Юрий Максимов и Александр Лукашевич, студент.
Задача 79
- Название: Improving Bayesian Inference in Physics Informed Machine Learning
- Задача: Методы машинного обучения в настоящий момент широко применяются в физике, в частности при решении задач турбулентности или анализа устойчивости физических сетей. Вместе с тем ключевым вопросом является какие режимы выбирать для обучения моделей. Частый выбор – последовательности точек, равномерно покрывающие допустимое множество. Однако, часто такие последовательности мало информативны, особенно в случае, если аналитические методы дают область, где система гарантированно устойчива. В задаче предлагается несколько методов семплирования: позволяющих учесть эту информацию. Нашей целью является их сравнить и найти тот, который требует минимального размера выборки (эмпирическое сравнение).
- Данные: Эксперимент предлагается провести на модельных и реальных данных. Модельный эксперимент состоит в анализе устойчивости (слегка нелинейных) дифференциальных уравнений (синтетические данные генерируются самостоятельно). Второй эксперимент состоит в анализе устойчивости энергетических систем (данные matpower, pypower, GridDyn).
- Литература:
- Art Owen. Quasi Monte Carlo Sampling. LINK
- Jian Cheng & Marek J. Druzdzel. Computational Investigation of Low-Discrepancy Sequences in Simulation Algorithms for Bayesian Networks [3]
- A. Owen, Y Maximov, M. Chertkov. Importance Sampling for the Union of Rare Events with Applications to Power Systems [4]
- Polson and Solokov. Deep Learning: A Bayesian Perspective [5]
- Кроме того: у авторов задачи есть черновик работы по этой теме
- Базовой алгоритм: Базовый алгоритм, который мы улучшаем, это Quasi Monte Carlo (QMC, [6]). Задача построить последовательности с низким разбросом (low discrepancy sequence) не покрывающее полиэдральную область и область, данную пересечением квадратичных ограничений. Еще один алгоритм, с которым нам потребуется сравнение:
E. Gryazina, B. Polyak. Random Sampling: a Billiard Walk Algorithm LINK и с алгоритмами типа Hit and Run [7]
- Решение: методы семплирования по важности, в частности расширение подхода (Boy, Ryi, 2014) и (Owen, Maximov, Chertkov, 2017) и их приложения к ML/DL для физических задач
- Новизна: в существенном снижении сложности выборки и явном использовании имеющихся и аналитических результатов и лернинга для решения физических задач, до этого ML подходы и аналитические решения шли по большей части параллельными курсами
- Авторы: эксперт Юрий Максимов, консультант Юрий Максимов и Александр Лукашевич, студент.
Задача 81
- Название: NAS — Порождение и выбор архитектур нейронных сетей
- Задача: Задача выбора оптимальной архитектуры нейросети ставится как задача семплирования вектора структурных параметров. Критерий оптимальности определяется в терминах точности, сложности и устойчивости модели. Сама процедура семплирования состоит из двух шагов: порождение новой структуры и отклонение этой структуры, если она не удовлетворяет критерию оптимальности. Предлагается исследовать различные способы семплирования. Постановка задачи выбора оптимальной структуры описана в работе Потанин-1
- Данные: : В качестве данных предлагается два отдельных множества. Первое – состоит из одного элемента, это популярный датасет MNIST. Плюсы – является сильным и общепринятым бейзлайном, использовался как бенчмарк для статьи WANN, довольно большой (многоклассовая классификация). Второе множество – набор датасетов для задачи регрессии. Размер варьируется от совсем маленького до довольно большого. Вот ссылка на датасет и ноутбук для загрузки данных данные.
- Литература:
- Потанин - 1
- Потанин - 2. Еще одна работа, текст передается заинтересованному студенту, но без публикации.
- Стрижов завлаб Функция ошибки
- Informtica
- WANN
- DARTS
- Symbols
- NEAT
- Базовой алгоритм: Ближайшая по теме работа, и ее код реализации. Актуальный код от консультанта.
- Решение: Сейчас уже выполнен ряд экспериментов, где семплирования производится генетическим алгоритмом. Получены приемлемые результаты. Предлагается их проанализировать и улучшить. А именно, выделить два модуля: порождение и отклонение и сравнить несколько видов семплирования. Базовый — Importance sampling, желанный — Metropolis-Hastings (или даже Metropolis-Langevin) sampling. Так как генетический алгоритм рассматривается нами как процесс со скачками, то предлагается учесть это при проектировании процедуры семплирования. Бонус MH в том, что он имеет байесовскую интерпретацию. Первый уровень байесовского вывода применительно к MH описан в работе [Informatica]. Требуется либо переписать его в терминах распределения структурных параметров, либо вообще расписать оба уровня, вынеся структурные параметры во второй уровень (кстати, примерно то же будет в задаче Адуенко).
- Новизна: Нейронные сети отлично справляются с задачами компьютерного зрения, обучения с подкреплением и обработки естественного языка. Одна из главных целей нейросетей -хорошо выполнять задачи, которые в настоящее время решаются исключительно человеком, то есть природными нейронными сетями людей. Искусственные нейросети по-прежнему работают совсем не так, как естественные нейронные сети. Одно из основных различий заключается в том, что естественные нейронные сети со временем развиваются, меняя силу связей и свою архитектуру. Искусственные нейронные сети могут регулировать силу соединений с помощью весов, но не могут изменять свою архитектуру. Поэтому задача выбора оптимальных структур нейросетей под конкретные задачи представляется важным шагом в развитии способностей нейросетевых моделей.
- Авторы: консультант Марк Потанин, эксперт Вадим Стрижов.
Задача 82
- Название: Обучение с экспертом для выборки со многими доменами.
- Задача: Рассматривается задача аппроксимации multi-domain выборки единой мультимоделью — смесью экспертов. В качестве данных предполагается использовать выборку, которая содержит в себе несколько доменов. Метка домена для каждого объекта отсутствует. Каждый домен аппроксимируется локальной моделью. В работе рассматривается двухэтапная задача оптимизации на основе ЕМ-алгоритма.
- Данные: В качестве данных используются выборки отзывов сайта Amazon для разных типов товара. В качестве локальной модели предполагается использовать линейную модель, а в качестве признакового описания отзывов использовать tf-idf вектора внутри каждого домена.
- Литература:
- Базовый алгоритм и решение: Базовое решение представлено тут. В работе используется метод смеси экспертов для задачи Multi-Soruce domain adaptation задачи. Код к статье доступен по ссылке.
- Новизна: На текущий момент в машинном обучении появляется все больше задач связанных с данными, которые взяты с разных источников. В данном случае появляются выборки, которые состоят из большого количества доменов. На текущий момент не существует полного теоретического обоснования построения смесей локальных моделей для аппроксимации такого рода выборок.
- Авторы: Грабовой А.В., Стрижов В.В.
Задача 17
- Название: BCI: Выбор согласованных моделей для построения нейроинтерфейса
- Задача: При построении систем нейрокомпьютерного интерфейса (brain-computer interface) используются простые, устойчивые модели. Важным этапом построения интерфейса является такой модели является адекватный выбор модели. Рассматривается широкий набора моделей: линейные, простые нейросети, рекуррентные сети, трансформеры. Особенность задачи в том, что при прогнозе требуется моделировать не только исходный сигнал, снимаемый с коры головного мозга, но и целевой, снимаемый с конечностей. Таким образом, требуется построить две модели. Чтобы они работали вместе, строится пространство согласований. Предлагается исследовать свойства этого пространства и свойства получаемого прогноза (нейроинтерфейса) на различных парах моделей.
- Данные: Наборы данных сигналов мозга ECoG/EEG.
- Нужен ECoG (25 набор данных содержит записи ЭЭГ, ЭОГ и движения руки) http://bnci-horizon-2020.eu/database/data-sets
- neyrotycho — наши старые данные.
- Литература:
- Яушев Ф.Ю., Исаченко Р.В., Стрижов В.В. Модели согласования скрытого пространства в задаче прогнозирования // Системы и средства информатики, 2021, 31(1). PDF
- Исаченко Р.В. Выбор модели декодирования сигналов в пространствах высокой размерности. Рукопись, 2021. PDF
- Исаченко Р.В. Выбор модели декодирования сигналов в пространствах высокой размерности. Слайды, 2020. [8]
- Isachenko R.V., Vladimirova M.R., Strijov V.V. Dimensionality reduction for time series decoding and forecasting problems // DEStech Transactions on Computer Science and Engineering, 2018, 27349 : 286-296. PDF
- Isachenko R.V., Strijov V.V. Quadratic Programming Optimization with Feature Selection for Non-linear Models // Lobachevskii Journal of Mathematics, 2018, 39(9) : 1179-1187. PDF
- Motrenko A.P., Strijov V.V. Multi-way feature selection for ECoG-based brain-computer interface // Expert Systems with Applications, 2018, 114(30) : 402-413. PDF
- Eliseyev A., Aksenova T. Stable and artifact-resistant decoding of 3D hand trajectories from ECoG signals using the generalized additive model //Journal of neural engineering. – 2014.
- Базовый алгоритм: Описан в первой работе. Код имеется. В той работе данные — две части изображения. В нашей работе сигнал головного мозга и движение рук. Сверхзадача: довести до ума первую работу. Также код и работы тут.
- Решение: Рассматривается случай, когда исходные данные гетерогенны: пространства независимой и целевой переменных имеют разную природу. Требуется построить предсказательную модель, которая бы учитывала зависимость в исходном пространстве независимой переменной, а также в пространстве целевой переменной. Предлагается исследовать точность, сложность и устойчивость пар разнообразных моделей. Так как при построении прогноза решается обратная задача, требуется построить обратные преобразования для каждой модели. Для этого можно использовать как базовые приемы (PLS), так и потоки.
- Новизна: Анализ прогноза и латентного пространства, получаемых парой гетерогенных моделей.
- Авторы: консультант Роман Исаченко, эксперт Вадим Стрижов
Задача 69
- «Название»: Graph Neural Network in Reaction Yield prediction
- «Задача»: There are disconnected graphs of source molecules and products in a chemical reaction. The yield of the main product in the reaction is known. It is required to design an algorithm that predicts yield by solving the regression task on given disconnected graphs.
- «Данные»: Database of reaction from US patents [9]
- Литература:
- «Базовый алгоритм»: Transformer model. The input sequence is a SMILES representation of the source and product molecules.
- «Решение»: A pipeline for working with disconnected graphs is proposed. The pipeline includes the construction of extended graph with molecule and reaction representation, Relational Graph Convolution Neural Network, Encoder of Transformer. The method is applied to solve yield predictions.
- «Новизна» A solution for regression problem on the given disconnected graph is constructed; the approach demonstrates better performance compared with other solutions
- «Авторы»: Nikitin Filipp, Isayev Olexandr, Vadim Strijov
Задача 84
- Название: Регуляризация траектории оптимизации параметров модели глубокого обучения на основе дистилляции знаний
- Задача: Рассматривается задача оптимизации параметров модели глубокого обучения. Рассматривается случай, когда при оптимизации доступны ответы более сложной модели (модели-учителя). Классическим подходом к решению такой задачи является обучение с учетом ответов сложной модели (дистилляция знаний). Назначение гиперпараметров производится эмпирически на основе результатов работы модели на отложенной выборке. В данной работе предлагается рассмотреть модификацию подхода к дистилляции знаний, в котором гиперпараметрами выступает коэффициент значимости дистиллирующего слагаемого, а также его градиенты. Обе эти группы параметров позволяют скорректировать оптимизацию параметров модели. Для оптимизации гиперпараметров предлагается рассматривать задачу оптимизации как двухуровневую задачу оптимизации, где на первом уровне оптимизации решается задача оптимизации параметров модели, а на втором --- приближенно решается задача оптимизации гиперпараметров по значению функции потерь на отложенной выборке.
- Данные: выборка изображений CIFAR-10
- Литература:
- Базовый алгоритм: оптимизация модели без дистилляции и со стандартным подходом к дистилляции
- Решение: Использование двухуровневой задачи для оптимизации модели. Комбинация градиентов для обоих слагаемых обрабатывается отдельной моделью (LSTM)
- Новизна: Будет предложен новый подход к дистилляции модели, позволяющий значительно улучшить эксплуатационные характеристики моделей, обучающихся в режиме использования привилегированной информации. Также планируется изучить динамику изменения гиперпараметров в процессе оптимизации.
- Авторы: Олег Бахтеев, Вадим Стрижов
Задача 85
- Название: Дифференцируемый алгоритм поиска архитектуры модели с контролем её сложности
- Задача: рассматривается задача выбора структуры модели глубокого обучения с заранее заданной сложностью. Требуется предложить метод поиска модели, позволяющий контролировать её сложность с небольшими вычислительными затратами.
- Данные: MNIST, CIFAR
- Литература:
- Базовый алгоритм: DARTS
- Решение: Предлагаемый метод заключается в использовании дифференцируемого алгоритма поиска архитектуры нейросети(DARTS) с контролем сложности параметров при помощи гиперсети.
- Новизна: предложенный метод позволяет контролировать сложность модели, в процессе поиска архитектуры без дополнительных эвристик.
- Авторы: О.Ю. Бахтеев, O. C. Гребенькова
Задача 86
- Название: Learning co-evolution information with natural language processing for protein folding problem
- Задача: One of the most essential problems in structural bioinformatics is protein fold recognition since the relationship between the protein amino acid sequence and its tertiary structure is revealed by protein folding. A specific protein fold describes the distinctive arrangement of secondary structure elements in the nearly-infinite conformation space, which denotes the structural characteristics of a protein molecule.
- Полное описание: request
- Авторы: Сергей Грудинин, Мария Кадукова.
Задача 87
- Название: Байесовский выбор структур обобщенно-линейных моделей
- Задача: Работа посвящена тестированию методов выбора признаков. Предполагается, что исследуемая выборка содержит значительное число мультиколлинеарных признаков. Мультиколлинеарность — это сильная корреляционная связь между отбираемыми для анализа признаками, совместно воздействующими на целевой вектор, которая затрудняет оценивание регрессионных параметров и выявление зависимости между признаками и целевым вектором. Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Показания датчиков коррелируют между собой. Необходимо выбрать оптимальный набор признаков для решения задачи прогнозирования.
- Актуальность: Опубликован один наиболее предпочтительных алгоритмов выбора признаков. Он использует структурные параметры. Но теоретического обоснования не имеет. Предлагается построить теорию, описав и проанализировав различные функции априорного распределения структурных параметров. В работах по поиску структур нейросетей также пока нет внятной теории и списка априорных предположений.
- Данные: Многомерные временные ряды с показаниями различных датчиков из работы 4, для начала все выборки из статьи 1.
- Литература: Ключевые слова: bootstrap aggreagation, метод Белсли, векторная авторегрессия.
- Katrutsa A.M., Strijov V.V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with Applications, 2017, 76 : 1-11. PDF
- Katrutsa A.M., Strijov V.V. Stresstest procedure for feature selection algorithms // Chemometrics and Intelligent Laboratory Systems, 2015, 142 : 172-183. PDF
- Стрижов В.В. Функция ошибки в задачах восстановления регрессии // Заводская лаборатория. Диагностика материалов, 2013, 79(5) : 65-73. PDF
- Зайцев А.А., Стрижов В.В., Токмакова А.А. Оценка гиперпараметров регрессионных моделей методом максимального правдоподобия // Информационные технологии, 2013, 2 : 11-15. PDF
- Kuznetsov M.P., Tokmakova A.A., Strijov V.V. Analytic and stochastic methods of structure parameter estimation // Informatica, 2016, 27(3) : 607-624. PDF
- Катруца А.М., Стрижов В.В. Проблема мультиколлинеарности при выборе признаков в регрессионных задачах // Информационные технологии, 2015, 1 : 8-18. PDF
- Нейчев Р.Г., Катруца А.М., Стрижов В.В. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования // Заводская лаборатория. Диагностика материалов, 2016, 82(3) : 68-74. PDF
- Базовый алгоритм: Описан в работе 1: квадратичное программирование для выбора признаков QPFS. Код у Романа Исаченко.
- Решение: Предлагается рассмотреть структурные параметры, используемые в QPFS на втором уровне байесовского вывода. Ввести информативные априорные распределения параметров и структурных параметров. Сравнить различные априорные предположения.
- Новизна: Статистический анализ пространства структурных параметров и визуализация
- Авторы: Александр Адуенко — консультант, Вадим Стрижов
Задача 88
- Название: Поиск границ радужки методом круговых проекций
- Задача: Дано монохромное растровое изображение глаза, см. примеры. Также известно приблизительное положение центра зрачка. Слово «приблизительное» означает то, вычисленный центр зрачка отстоит от истинного не более чем на половину его истинного радиуса. Необходимо определить приблизительные положения окружностей, аппроксимирующих зрачок и радужку. Алгоритм должен быть очень быстрым.
- Данные: около 200 тыс. изображений глаз. Для каждого размечено положение истинных окружностей — в целях обучения и проверки создаваемого метода.
- Базовой алгоритм: Для ускорения работы с изображением предлагается агрегирование данных при помощи круговых проекций яркости. Круговая проекция — функция, зависящая от радиуса, значение которой P(r) равно интегралу направленного градиента яркости изображения по окружности радиуса r (или по дуге окружности). Пример для одной дуги (правой четверти) и для четырёх дуг. Построив сколько-то круговых проекций, исходя из них, можно попытаться определить положение внутренней и внешней границ радужки (кольца) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.
- Литература: Matveev I.A. Detection of Iris in Image By Interrelated Maxima of Brightness Gradient Projections // Applied and Computational Mathematics. 2010. V.9. N.2. P.252-257 PDF
- Автор: Матвеев И.А.
And more
Задача 53
- Название: Решение задачи оптимизации, сочетающей классификацию и регрессию, для оценки энергии связывания белка и маленьких молекул.
- Задача: Целью задачи является решение задачи оптимизации с функциями потерь классификации и регрессии в применении к биологическим данным.
- Данные: Около 12,000 комплексов белков с маленькими молекулами. Для классификации для каждого из них есть 1 правильное положение в пространстве и 18 сгенерированных неправильных, для регрессии каждому комплексу соответствует значение константы связывания (пропорциональна энергии). Основными дескрипторами являются гистограммы распределений расстояний между различными атомами.
- Литература:
- Базовой алгоритм: В задаче классификации мы использовали алгоритм, похожий на линейный SVM, связь которого с оценкой энергии, выходящей за рамки задачи классификации, описана в статье https://hal.inria.fr/hal-01591154/. Для MSE в качестве функции потерь регрессии уже есть сформулированная двойственная задача, с реализации которой можно начать.
- Решение: Первым этапом будет решение задачи с MSE в функции потерь с использованием удобного для вас солвера. Основной трудностью может стать большая размерность данных, но они разрежены. Далее можно будет менять формулировку задачи.
- Новизна: Многие модели, используемые для предсказания взаимодействий белков с лигандами, "переобучены" под какую-либо задачу. Например, модели, хорошо предсказывающие энергии связывания, могут плохо выбирать связывающуюся с белком молекулу из множества несвязывающихся, а модели, хорошо определяющие правильную геометрию комплекса, могут плохо предсказывать энергии. В данной задаче предлагается рассмотреть новый подход борьбы с таким переобучением, поскольку сочетание функций потерь классификации и регрессии видится нам очень естественной регуляризацией.
- Авторы: Сергей Грудинин, Мария Кадукова.
Задача 75
- Название: Выравнивание элементов изображений с помощью метрических моделей.
- Задача: Задан набор символов. Каждый символ представлен одним файлом - изображением. Размер изображений в пикселях может отличаться. Известно, что все изображения принадлежат одному классу, например, лица, буквы, цветы или машины. (Более сложный вариант - одному классу, который мы исследуем и шумовым классам.) Известно, что каждое изображение может быть и помощью выравнивающей трансформации совмещено с другим с точностью до шума, либо до некоторого усредненного изображения. (Это изображение может как присутствовать, так и отсутствовать в выборке). Эта выравнивающая трансформация задается в базовом случае нейросетью, а в предлагаемом - параметрическим преобразованием из некоторого заданного класса (первое - частный случай второго). Выравненное изображение сравнивается с исходным с помощью функции расстояния. Если расстояние между двумя изображениями статистически значимо, делается вывод о принадлежности изображений одному классу. Требуется 1) предложить адекватную модель выравнивающей трансформации, которая берет в расчет предположения о характере изображения (например, только вращение и пропорциональное масштабирование), 2) предложить функцию расстояния, 3) преложить способ нахождения усредненного изображения.
- Данные: Синтетические и реальные 1) картинки - лица и символы с трансформацией вращения и растяжения, 2) лица и автомобили с транфсормацией вращения 3D с проекцией в 2D. Синтетические изображения предлагается создавать вручную с помощью 1) фотографий листа бумаги, 2) фотографий поверхности рисунка на воздушном шарике.
- Литература
- опорная работы - выравнивание картинок с помощью 2D DTW,
- опорная работа - выравнивание картинок с помощью нейросетей,
- работы по выравниванию DTW в 2D,
- работы по параметрическому выравниванию.
- Базовой алгоритм: из работы 1.
- Решение: В прилагаемом файле pdf.
- Новизна: Вместо многомерного выравнивания изображений предлагается параметрическое выравнивание.
- Авторы: Алексей Гончаров, Вадим Стрижов
Задача 80
- Название: Обнаружение корреляций между активностью в социальных сетях и капитализацией компаний
- Задача: в настоящее время существенное влияние на биржевые котировки акций, капитализацию компании и успех или неуспех IPO зависит от социальных факторов, таких как общественное мнение, выраженное в социальных сетях. Недавним ярким примером является изменение котировок компании GameStore, вызванное всплеском активности в Reddit. Нашей задачей на первом этапе является выявление котировок между акциями компаний разного сегмента и активностью в социальных сетях. То есть необходимо выявить корреляции между значительными изменениями в капитализации компании и предшествующими всплесками (положительными или отрицательными) ее обсуждения в социальных сетях. То есть необходимо найти минимум лосс функции при восстановлении зависимости в различных классах моделей (параметрика, нейронные сети и тп). Данная задача часть большого проекта по анализу анализу рынков и влияния социальных факторов на риски (в рамках команды из 5-7 профессоров), которая приведет к серии публикаций достаточной для защиты диссертации.
- Данные: Задача имеет существенный инженерный контекст, данные – выгрузки из котировок на Московской бирже, а также данные NYT и reddit (кроулинг и парсинг делается стандартными инструментами). У студента, работающего над этой задачей, должны быть сильные инженерные навыки и желание заниматься как практикой машинного обучения, так и инженерными частями задачами.
- Литература:
- Paul S. Adler and Seok-Woo Kwon. Social Capital: Prospects for a new Concept. [14]
- Kim and Hastak. Social network analysis: Characteristics of online social networks after a disaster LINK
- Baumgartner, Jason, et al. "The pushshift reddit dataset." Proceedings of the International AAAI Conference on Web and Social Media. Vol. 14. 2020. [15]
- Базовой алгоритм: Базовые алгоритмы это LSTM и Graph neural networks.
- Решение: Начнем с применения LSTM, далее попробуем несколько его стандартных расширений
- Новизна: В данной области достаточно много экономических, модельных решений, однако точность этих решений не всегда высока. Применение современных ML/DL моделей, как ожидается, существенно повысит качество решения.
- Авторы: эксперт Юрий Максимов, консультант Юрий Максимов, студент.
Задача 88b
- Название: Поиск зрачка на изображении глаза методом проекций яркости
- Задача: Дано монохромное растровое изображение глаза, см. примеры. Необходимо определить приблизительные координаты центра зрачка. Слово «приблизительные» означает то, что вычисленный центр зрачка должен лежать внутри окружности с центром в истинном центре зрачка и половинного истинного радиуса. Алгоритм должен быть очень быстрым.
- Данные: около 200 тыс. изображений глаз. При для каждого размечено положение истинной окружности — в целях обучения и проверки создаваемого метода.
Базовой алгоритм: Для ускорения работы с изображением предлагается агрегирование данных при помощи проекций яркости. Яркость изображения — функция двух дискретных аргументов. Её проекция на горизонтальную ось равна. Аналогично строятся проекции на оси с наклоном. Построив несколько проекций (две, четыре), исходя из них, можно попытаться определить положение зрачка (компактной тёмной области) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.
- Литература: Zhi-Hua Zhou, Xin Geng Projection functions for eye detection // Pattern Recognition. 2004. V.37ю N.5. P.1049-1056. PDF
- Автор: Матвеев И.А.
Задача 88c
- Название: Поиск века на изображении как параболического контура методом проекций.
- Задача: Дано монохромное растровое изображение глаза, см. примеры. Необходимо найти контур верхнего века как параболу, то есть определить параметры.
- Данные: около 200 тыс. изображений глаз. При некоторых (около 2500) экспертом-человеком размечено положение параболы, приближающей веко.
- Базовой алгоритм: Первый шаг — предобработка изображения фильтром вертикального градиента с дальнейшей бинаризацией, ниже — типичный результат. На следующем шаге возможны различные варианты. Например, если известны коодрдинаты зрачка, можно задать область интереса (сверху) и в ней по выделенным точка построить параболу аппроксимацией методом наименьших квадратов. Пример результата дан ниже. Возможны более тонкие методы, например, поиск параболы преобразованием Хафа (см. в Википедии). Ещё один способ — использование проективных методов (преобразование Радона). Основная идея: задавшись коэффициентом , применить к изображению преобразование координат в результате которого все параболы вида formula переходят в прямые вида , далее задавшись коэффициентом , применить преобразование координат где , после чего наклонные прямые вида formula переходят в горизонтальные, которые легко определить, например, горизонтальным проецированием (суммированием значений в строках матрицы полученного изображения. Если коэффициенты угаданы правильно, перабола, представляющая веко, даст чёткий максимум в проекции. Перебирая formula (имеющие физический смысл) можно найти, те, что дают максимальное значение проекции, и считать что таким образом определена искомая парабола — веко.
- Литература: Википедия, статьи «Преобразование Хафа», «Преобразование Радона».
- Автор: Матвеев И.А.
Задача 62
- Название: Построение метода динамического выравнивания многомерных временных рядов, устойчивого к локальным колебаниям сигнала.
- Задача: В процессе работы с многомерными временными рядами распространена ситуация близкого расположения датчиков, соответствующих различным каналам измерений. В результате малые смещения сигнала в пространстве могут приводить к фиксации пика сигнала соседними датчиками, что ведет к значительным различиям измерений в смысле L2 расстояния.
Таким образом, малые смещения сигнала приводят к появлению значительных флуктуаций показаний датчиков. Рассматривается задача построения функции расстояния между точками временных рядов, устойчивой к шуму, порожденному малыми пространственными смещениями сигнала. Необходимо рассмотреть задачу в приближении наличия карты расположения датчиков. - Данные:
- Измерения активность мозга обезьян
- Искусственно созданные данные (надо предложить несколько вариантов, например: движение сигнала в пространстве по часовой и против часовой стрелки)
- Литература:
- Базовый алгоритм: L2 расстояние между парой измерений.
- Решение: использовать функцию расстояния DTW между двумя многомерными временными рядами. Выравниваются две оси времени, при этом внутри функционала DTW выбирается расстояние между i-м и j-м измерениями такое, что оно устойчиво к локальным “сдвигам” сигнала. Требуется предложить такой функционал. Базовое решение - L2, улучшенное решение - DTW между i-м и j-м измерениями (dtw внутри dtw).
Можно предложить какую-либо модификацию, например расстояния между скрытыми слоями автоэнкодера для точек i и j. - Новизна: Предлагается способ выравнивания многомерных временных рядов, учитывающий малые колебания сигнала в пространстве.
- Авторы: В.В. Стрижов - эксперт, Глеб Моргачев, Алексей Гончаров - консультанты.
Задача 58
- «Название»: Преобразование алгоритма Gerchberg-Saxton с помощью байесовских нейросетей. (или Нейросетевой подход в задаче фазового поиска для изображений с европейского синхротрона)
- «Задача»: Цель проекта - повысить качество разрешения изображений наноразмерных объектов, полученных в лабораториях Европейского фонда синхротронного излучения.
- «Данные»: а данными обращаться к консультанту (3GB).
Литература:
- [16] Iterative phase retrieval in coherent diffractive imaging: practical issues
- [17] X-ray nanotomography of coccolithophores reveals that coccolith mass and segment number correlate with grid size
- [18] Lens-free microscopy for 3D + time acquisitions of 3D cell culture
- [19] DEEP ITERATIVE RECONSTRUCTION FOR PHASE RETRIEVAL
- https://docs.google.com/document/d/1K7bIzU33MSfeUvg3WITRZX0pe3sibbtH62aw42wxsEI/edit?ts=5e42f70e LinkReview
- «Базовый алгоритм»: Переход из прямого пространства в обратное пространство происходит с помощью преобразования Фурье. Преобразование Фурье - это линейное преобразование. Поэтому предлагается его аппроксимировать нейросетью. Например автокодировщик для моделирования прямого и обратного Фурье преобразования.
- «Решение»: Преобразование алгоритма Gerchberg-Saxton c помощью байесовских нейросетей. Использование информации о физических ограничениях и экспертные знания.
- «Новизна» Использование информации о физических ограничениях и экспертные знания при построении функции ошибки.
- «Авторы»: эксперты Сергей Грудинин, Юрий Чушкин, В.В. Стрижов. консультант Марк Потанин
Задача 63
- Название: Иерархическое выравнивание временных последовательностей.
- Задача: Рассматривается задача выравнивания последовательностей сложных событий. Примером может служить сложносоставное поведение человека: при рассмотрении данных IMU-датчиков можно выдвинуть гипотезу: есть исходный сигнал, есть агрегаты “элементарных действий” и есть агрегаты “действий” человека. Каждый из указанных уровней абстракции можно выделить и оперировать именно им.
Для того, чтобы проводить точное распознавание последовательности действий возможно применять метрические методы (например DTW, как способ, устойчивый к временным сдвигам). Для более точного качества выравнивания временной шкалы возможно проводить выравнивание на разных уровнях абстракций.
Предлагается исследовать такой иерархический подход к выравниванию последовательностей, основанный на возможности применения алгоритмов выравнивания к объектам разной структуры, имея функцию расстояние на них. - Литература:
- Обзорная презентация о DTW
- DTW-based kernel and rank-level fusion for 3D gait recognition using Kinect Multi-Dimensional Dynamic Time Warping for Gesture Recognition
- Time Series Similarity Measure via Siamese Convolutional Neural Network
- Multiple Multidimensional Sequence Alignment Using Generalized Dynamic Time Warping
- Базовый алгоритм: классический DTW.
- Решение: Предлагается выполнять переход от одного уровня абстракции к другому путем применения сверточных и рекуррентных нейронных сетей. Тогда объектом на нижнем уровне абстракции служит исходный сигнал. На втором уровне - сигнал из скрытого слоя модели (построенной на объектах нижнего уровня), размерность которого много меньше, а верхнего слоя - сигнал из скрытого слоя модели (построенной на объектах среднего уровня).
При этом DTW вычисляется отдельно между нижними, между средними и между верхними уровнями, но формирование объектов для расчета расстояния осуществляется с учетом выравнивающего пути между объектами предыдущего уровня.
Данный метод рассматривается как способ повышения интерпретируемости процедуры выравнивания и точности классификации действия в связи с переходом к более высокоуровневым паттернам. Кроме того, ожидается существенное увеличение скорости работы. - Новизна: Предлагается идея выравнивания временных последовательностей одновременно на нескольких уровнях абстракции. Метод должен существенно улучшить интерпретируемость алгоритмов выравнивания и повысить скорость их работы.
- Авторы: В.В. Стрижов - эксперт, Глеб Моргачев, Алексей Гончаров - консультанты.
Задача 57
- «Название»:Аддитивная регуляризация и в задачах привилегированного обучения при решении задачи прогнозирования состояния океана
- «Задача»: Есть выборка данных с океанских буйков, требуется прогнозировать состояние океана в разные моменты времени.
- «Данные»: От буйков поступают данные о высоте волн, скорости ветра, направления ветра, периоде волны, давление на уровне моря, температура воздуха и температура поверхности моря с разрешением от 10 минут до 1 часа.
- Литература:
- «Базовый алгоритм»: Использование простой нейросети.
- «Решение»:Добавление к базовому алгоритму(простая нейросеть) системы дифференциальных уравнений. Исследовать свойства пространства параметров учителя и ученика согласно привилегированному подходу.
- «Новизна» Исследование пространства параметров учителя и ученика и их изменение. Возможно настроить отдельно модели учителя и ученика и проследить на изменением их параметров в процессе оптимизации - дисперсия, изменение качества ученика при добавлении информации учителя, сложность.
- «Авторы»: В.В. Стрижов, Марк Потанин
Задача 52
- Название: Предсказание качества моделей белков с помощью сферических сверток на трехмерных графах.
- Задача: Целью данной работы является создание и исследование новой операции свертки на трехмерных графах в рамках решения задачи оценивания качества трехмерных моделей белков (задача регрессии на узлах графа).
- Данные: Используются модели, сгенерированные участниками соревнований CASP (http://predictioncenter.org).
- Литература:
- Базовой алгоритм: В качестве базового алгоритма будем использовать нейросеть, основанную на методе свертки на графах, который в общем виде описывается в [24].
- Решение: Наличие в белках пептидной цепи позволяет однозначно вводить локальные системы координат для всех узлов графа, что дает возможность создавать и применять сферические фильтры независимо от топологии графа.
- Новизна: В общем случае графы являются нерегулярными структурами, а во многих задачах обучения на графах объекты выборки не имеют единой топологии. Поэтому существующие операции сверток на графах очень сильно упрощены, либо не обобщаются на разные топологии. В данной работе предлагается рассмотреть новый способ построения операции свертки на трехмерных графах, для которых возможно однозначно выбрать локальные системы координат, привязанные к каждому узлу.
- Авторы: Сергей Грудинин, Илья Игашов.
Задача 44+
- Название: Ранее прогнозирование достаточного объема выборки для обобщенно линейной модели.
- Задача: Исследуется проблема планирования эксперимента. Решается задача оценивания достаточного объема выборки по данным. Предполагается, что выборка является простой. Она описывается адекватной моделью. Иначе, выборка порождается фиксированной вероятностной моделью из известного класса моделей. Объем выборки считается достаточным, если модель восстанавливается с достаточной достоверностью. Требуется, зная модель, оценить достаточный объем выборки на ранних этапах сбора данных.
- Цель: на малой простой iid выборке спрогнозировать ошибку на пополняемой большой. Прогностическая модель гладкая монотонная в двух производных. Выбор модели полный перебор или генетика. Модель зависит от редуцированной (исследовать) матрицы ковариации параметров GLM.
- Данные: Для вычислительного эксперимента предлагается использовать классические выборки из UCI репозитория. Ссылка на выборки https://github.com/ttgadaev/SampleSizeEstimation/tree/master/datasets
- Литература:
Bishop, C. 2006. Pattern Recognition and Machine Learning. Berlin: Springer. 758 p.
- Базовый алгоритм: Будем говорить, что объем выборки достаточный, если логарифм правдоподобия имеет малую дисперсию, на подборке размера m, посчитанную при помощи бутстрепа.
Пытаемся аппроксимировать зависимость среднего значения log-likelihood и его дисперсии от размера выборки.
- Решение: Методы описанные в обзоре являются асимптотическими или же требуют заведомо большого размера выборки. Новый метод должен заключаться в том, чтобы прогнозировать объем на начальных этапах планирования эксперимента, то есть когда данных мало.
- Авторы: Малиновский Г. (консультант), Стрижов В. В. (эксперт)
Задача 12
- Название: Обучение машинного перевода без параллельных текстов.
- Задача: Рассматривается задача построения модели перевода текста без использования параллельных текстов, т.е. пар одинаковых предложений на разных языках. Данная задача возникает при построении моделей перевода для низкоресурсных языков (т.е. языков, для которых данных в открытом доступе немного).
- Данные: Выборка статей из Wikipedia на двух языках.
- Литература:
- Базовый алгоритм: Unsupervised Machine Translation Using Monolingual Corpora Only.
- Решение: В качестве модели перевода предлагается рассмотреть кобминацию двух автокодировщиков, каждый из которых отвечает за представление предложений на одном из языков. Оптимизация моделей проводится таким образом, чтобы скрытые пространства автокодировщиков для разных языков совпадали. В качестве исходного представления предложений предлагается рассматривать их графовое описание, получаемое с использованием мультиязычных онтологий.
- Новизна: Предложен способ построения модели перевода с учетом графовых описаний предложений.
- Авторы: О.Ю. Бахтеев, В.В. Стрижов,
Задача 8
- Название: Порождение признаков с помощью локально-аппроксимирующих моделей (Классификация видов деятельности человека по измерениям фитнес-браслетов).
- Задача: Требуется проверить выполнимость гипотезы о простоте выборки для порожденных признаков. Признаки - оптимальные параметры аппроксимирующих моделей. При этом вся выборка не является простой и требует смеси моделей для ее аппроксимации. Исследовать информативность порожденных признаков - параметров аппроксимирующих моделей, обученных на сегментах исходного временного ряда. По измерениям акселерометра и гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. Характерная продолжительность движения – секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности – минуты. Требуется по описанию временного ряда и кластера восстановить вид деятельности.
- Данные: Временные ряды акселерометра WISDM (Временной ряд (библиотека примеров), раздел Accelerometry).
- WISDM (Kwapisz, J.R., G.M. Weiss, and S.A. Moore. 2011. Activity recognition using cell phone accelerometers. ACM SigKDD Explorations Newsletter. 12(2):74–82.), USC-HAD или сложнее. Данные акселерометра (Human activity recognition using smart phone embedded sensors: A Linear Dynamical Systems method, W Wang, H Liu, L Yu, F Sun - Neural Networks (IJCNN), 2014)
- Литература:
- Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. URL
- Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016.URL
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. URL
- Исаченко Р.В., Стрижов В.В. Метрическое обучение в задачах многоклассовой классификации временных рядов // Информатика и ее применения, 2016, 10(2) : 48-57. URL
- Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. URL
- Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. URL
- Базовый алгоритм: Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] и [Кузнецов, Ивкин: 2014].
- Решение: Требуется построить набор локально-аппроксимирующих моделей и выбрать наиболее адекватные. Найти оптимальный способ сегментации и оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
- Новизна: Создан стандарт построения локально-аппроксимирующих моделей. Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.
- Авторы: В.В. Стрижов (эксперт), Александра Гальцева, Данил Сайранов (консультанты)
2020
Моя первая научная статья
Участвуют эксперты, индивидуальные консультанты и студенты кафедры Интеллектуальные системы ФУПМ МФТИ.
- Описание курса
- История 2019 (674) — 2019 (694) — 2018 — 2017 — 2016 — 2015 — 2014 — 2013
- Видео докладов по курсу на канале Machine Learning на Youtube
- Рекомендуемые учебники
- Короткая ссылка на эту страницу: bit.ly/m1p_2020
Роли
Студент третьего курса очень хочет научиться ставить задачи формально, находить нужную литературу, порождать новые и актуальные идеи и решения задач.
Консультант помогает студенту в пользовании инструментами, отвечает на вопросы по специальности, консультирует выполнение работ, оперативно реагирует на проблемы, проверяет (в среду) результаты, ставит оценки. Предполагается, что консультант сам пишет работу-спутник по этой теме. В конце работы могут быть объединены или выполнены и опубликованы параллельно. По возможности, рекомендуется организовать правки текста студента с целью улучшить стиль изложения таким образом, чтобы студент вносил правки самостоятельно. Возможно, при очной встрече или по скайпу.
Эксперт: поставщик задачи, владелец данных, либо тот, кто гарантирует новизну и актуальность работы.
Результаты
Автор | Тема научной работы | Ссылки | Консультант | Буквы | Рецензент |
---|---|---|---|---|---|
Гребенькова Ольга | Вариационная оптимизация моделей глубокого обучения с контролем сложности модели | LinkReview | Олег Бахтеев | AILP+UXBR+HCV+TEDWS | Шокоров Вячеслав |
Шокоров Вячеслав | Распознавание текста на основе скелетного представления толстых линий и сверточных сетей | LinkReview | Денис Ожерелков | AIL | Гребенькова Ольга |
Филатов Андрей | Прогнозирование намерений. Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга | LinkReview | Валерий Маркин | AILPHUXBRCVTEDWS | Христолюбов Максим |
Исламов Рустем | Анализ свойств ансамбля локально аппроксимирующих моделей | LinkReview | Андрей Грабовой | AILPHUXBRCVTEDWS | Гунаев Руслан |
Жолобов Владимир | Ранее прогнозирование достаточного объема выборки для обобщенно линейной модели. | LinkReview | Григорий Малиновский | AILPHUXBRCVTEWSF | Вайсер Кирилл |
Вайсер Кирилл | Аддитивная регуляризация и ее метапараметры при выборе структуры сетей глубокого обучения | LinkReview | Марк Потанин | AILP+HUX+BRCV+TEDWS | Жолобов Владимир |
Бишук Антон | Решение задачи оптимизации, сочетающей классификацию и регрессию, для оценки энергии связывания белка и маленьких молекул. | LinkReview | Мария Кадукова | AILPHUXBRCVTEDH | Филиппова Анастасия
[Антон, не та ссылка] |
Филиппова Анастасия | Step detection for IMU navigation via deep learning | LinkReview | Тамаз Гадаев | AIL0PUXBRCVSF | Бишук Антон |
Савельев Николай | Распределенная оптимизация в условиях Поляка-Лоясиевича | LinkReview | А. Н. Безносиков | AILPHUXBRCVTEDWS | Харь Александра |
Харь Александра | Теоретическая обоснованность применения метрических методов классификации с использованием динамического выравнивания (DTW) к пространственно-временным объектам. | LinkReview | Глеб Моргачев, Алексей Гончаров | AILPHUXBRCVTEDCWS | Савельев Николай |
Христолюбов Максим | Порождение признаков с помощью локально-аппроксимирующих моделей (Классификация видов деятельности человека по измерениям фитнес-браслетов) | LinkReview | Александра Гальцева, Данил Сайранов | AILPH | Филатов Андрей |
Мамонов Кирилл | Нелинейное ранжирование результатов разведочного информационного поиска. | LinkReview | Максим Еремеев | AILPHU+XBRC+V+TEDHWJSF | |
Павличенко Никита | Предсказание качества моделей белков с помощью сферических сверток на трехмерных графах. | LinkReview | Сергей Грудинин, Илья Игашов | AILPUXBRHCVTEDH | |
Содиков Махмуд, Скачков Даниель | Agnostic neural networks | Code | Радослав Нейчев | AILPHUXBRC+VTEDHWJSF | Кулагин Петр |
Гунаев Руслан | Graph Neural Network in Reaction Yield prediction | LinkReview | Филипп Никитин | AILPUXBRHCVTEDHWSF | Исламов Рустем |
Яушев Фарух | Исследование способов согласования моделей с помощью снижения размерности пространства | LinkReview | Роман Исаченко | AILPUXBRHCVTEDHWJS | Жолобов Владимир |
Расписание
Дата | N | Что делаем | Результат для обсуждения | Буква | |
Февраль | 13 | 1 | Организация работы, расписание, инструменты. | Инструменты подготовлены к работе. | |
20 | 2 | Выбрать задачу | Тема в ML и ссылка на работу в SF помещена напротив фамилии. | ||
27 | 3 | Составить список публикаций по выбранной задаче, найти данные. Написать аннотацию и введение с обзором собранной литературы. | Аннотация (600 знаков), введение (1 страница), список литературы в bib-файле. Подготовить доклад 45 сек. | Abstract, Introduction, Literature | |
Март | 5 | 4 | Поставить задачу и сделать описание базового алгоритма, подготовить базовый вычислительный эксперимент. | Постановка задачи (0.5-1 страница), описание базового алгоритма. | Problem statement |
12 | 5 | Поставить цель и распланировать отчет об эксперименте. Запустить базовый вычислительный эксперимент. Провести первичный анализ работы алгоритма. Показ статьи. | Базовый код, отчет о работе базового алгоритма, кратко. | Update, eXperiment palning, Basic code, Report, cHeck-1 | |
19 | 6 | Поставить вычислительный эксперимент на основе предлагаемого алгоритма с учетом предыдущих результатов. | Код, визуализация полученных результатов, анализ ошибки, анализ качества. | Code, Visualization | |
26 | 7 | Описать алгоритм. | Теоретическая и алгоритмическая часть статьи (второй / третий раздел). | Theory | |
Апрель | 2 | 8 | Завершение вычислительного эксперимента. | Описание эксперимента с анализом ошибок. | Error |
9 | 9 | Описание теоретической части и вычислительного эксперимента. Описание рисунков, выводы, заключение. | Черновой вариант статьи с разделами «Вычислительный экперимент» и «Заключение». Контрольная точка. | Document, сHeck-2 | |
16 | 10 | Показ статьи в целом после контрольной точки, рецензия. | Статья в варианте для рецензирования. | RevieW | |
23 | 11 | Доработка статьи и подготовка ее в журнал. Подготовка презентации. | Статья подготовлена к подаче в журнал. Слайды. | Journal, Slides | |
30 | 12 | Подготовка доклада. | Доклады и обсуждение. | Final show |
Работа и консультации
- Работы сдаются в течение недели.
- Желательна итеративная сдача работ, начинать показ лучше в выходные.
- Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
- Каждый этап работ +1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — A0. Мотивированный перенос работы — знак «A>». Недельное опоздание — знак «-».
Список проектов
Шаблон описания проекта — научной статьи
- Название: Название, под которым статья подается в журнал.
- Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
- Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
- Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
- Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
- Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
- Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
- Авторы: эксперт, консультант.
Задача 58
- «Название»: Преобразование алгоритма Gerchberg-Saxton с помощью байесовских нейросетей. (или Нейросетевой подход в задаче фазового поиска для изображений с европейского синхротрона)
- «Задача»: Цель проекта - повысить качество разрешения изображений наноразмерных объектов, полученных в лабораториях Европейского фонда синхротронного излучения.
- «Данные»: а данными обращаться к консультанту (3GB).
Литература:
- [29] Iterative phase retrieval in coherent diffractive imaging: practical issues
- [30] X-ray nanotomography of coccolithophores reveals that coccolith mass and segment number correlate with grid size
- [31] Lens-free microscopy for 3D + time acquisitions of 3D cell culture
- [32] DEEP ITERATIVE RECONSTRUCTION FOR PHASE RETRIEVAL
- https://docs.google.com/document/d/1K7bIzU33MSfeUvg3WITRZX0pe3sibbtH62aw42wxsEI/edit?ts=5e42f70e LinkReview
- «Базовый алгоритм»: Переход из прямого пространства в обратное пространство происходит с помощью преобразования Фурье. Преобразование Фурье - это линейное преобразование. Поэтому предлагается его аппроксимировать нейросетью. Например автокодировщик для моделирования прямого и обратного Фурье преобразования.
- «Решение»: Преобразование алгоритма Gerchberg-Saxton c помощью байесовских нейросетей. Использование информации о физических ограничениях и экспертные знания.
- «Новизна» Использование информации о физических ограничениях и экспертные знания при построении функции ошибки.
- «Авторы»: эксперты Сергей Грудинин, Юрий Чушкин, В.В. Стрижов. консультант Марк Потанин
Задача 57
- «Название»:Аддитивная регуляризация и в задачах привилегированного обучения при решении задачи прогнозирования состояния океана
- «Задача»: Есть выборка данных с океанских буйков, требуется прогнозировать состояние океана в разные моменты времени.
- «Данные»: От буйков поступают данные о высоте волн, скорости ветра, направления ветра, периоде волны, давление на уровне моря, температура воздуха и температура поверхности моря с разрешением от 10 минут до 1 часа.
- Литература:
- «Базовый алгоритм»: Использование простой нейросети.
- «Решение»:Добавление к базовому алгоритму(простая нейросеть) системы дифференциальных уравнений. Исследовать свойства пространства параметров учителя и ученика согласно привилегированному подходу.
- «Новизна» Исследование пространства параметров учителя и ученика и их изменение. Возможно настроить отдельно модели учителя и ученика и проследить на изменением их параметров в процессе оптимизации - дисперсия, изменение качества ученика при добавлении информации учителя, сложность.
- «Авторы»: В.В. Стрижов, Марк Потанин
Задача 52
- Название: Предсказание качества моделей белков с помощью сферических сверток на трехмерных графах.
- Задача: Целью данной работы является создание и исследование новой операции свертки на трехмерных графах в рамках решения задачи оценивания качества трехмерных моделей белков (задача регрессии на узлах графа).
- Данные: Используются модели, сгенерированные участниками соревнований CASP (http://predictioncenter.org).
- Литература:
- Базовой алгоритм: В качестве базового алгоритма будем использовать нейросеть, основанную на методе свертки на графах, который в общем виде описывается в [37].
- Решение: Наличие в белках пептидной цепи позволяет однозначно вводить локальные системы координат для всех узлов графа, что дает возможность создавать и применять сферические фильтры независимо от топологии графа.
- Новизна: В общем случае графы являются нерегулярными структурами, а во многих задачах обучения на графах объекты выборки не имеют единой топологии. Поэтому существующие операции сверток на графах очень сильно упрощены, либо не обобщаются на разные топологии. В данной работе предлагается рассмотреть новый способ построения операции свертки на трехмерных графах, для которых возможно однозначно выбрать локальные системы координат, привязанные к каждому узлу.
- Авторы: Сергей Грудинин, Илья Игашов.
Задача 51
- Название: Анализ свойств ансамбля локально аппроксимирующих моделей.
- Задача: В данной работе рассматривается задача построения универсального аппроксиматора --- мультимодели, которая состоит из заданого конечного набора локальных моделей. Каждая локальная модель аппроксимирует связную область в пространстве объектов. Предполагается, что совокупность локальных модели покрывают все пространство объектов. В качестве агрегирующий функции рассматривается выпуклая комбинация локальных моделей. В качестве коэффициентов выпуклой комбинации рассматривается функция зависящая от объекта --- шлюзовой функции.
- Требуется: построить алгоритм оптимизации параметров локальных моделей и параметров шлюзовой функции. Требуется предложить метрику в пространстве объектов, метрику в пространстве моделей.
- Данные:
- Синтетически сгенерированные данные.
- Данные прогнозирования потребления энергии. В качестве локальных моделей перелагается использовать модели: рабочий день, выходной день. (EnergyConsumption, Turk Electricity Consumption GermanSpotPrice).
- Литература:
- Обзор методов для оценки объема выборки
- лекции Воронцова по композициям
- лекции Воронцова по композициям
- Esen Y.S., Wilson J., Gader P.D. Twenty Years of Mixture of Experts. IEEE Transactions on Neural Networks and Learning Systems. 2012. Issues. 23. No 8. P. 1177-1193.
- Павлов К.В. Выбор многоуровневых моделей в задачах классификации, 2012
- Базовый алгоритм: В качестве базового алгоритма предлагается использовать двух уровненную задачу оптимизации, где производится оптимизация локальных моделей на одной итерации и на следующей итерации производится оптимизация параметров шлюзовой функции.
- Авторы: Грабовой А. В. (консультант), Стрижов В. В. (эксперт)
Задача 53
- Название: Решение задачи оптимизации, сочетающей классификацию и регрессию, для оценки энергии связывания белка и маленьких молекул.
- Задача: Целью задачи является решение задачи оптимизации с функциями потерь классификации и регрессии в применении к биологическим данным.
- Данные: Около 12,000 комплексов белков с маленькими молекулами. Для классификации для каждого из них есть 1 правильное положение в пространстве и 18 сгенерированных неправильных, для регрессии каждому комплексу соответствует значение константы связывания (пропорциональна энергии). Основными дескрипторами являются гистограммы распределений расстояний между различными атомами.
- Литература:
- Базовой алгоритм: В задаче классификации мы использовали алгоритм, похожий на линейный SVM, связь которого с оценкой энергии, выходящей за рамки задачи классификации, описана в статье https://hal.inria.fr/hal-01591154/. Для MSE в качестве функции потерь регрессии уже есть сформулированная двойственная задача, с реализации которой можно начать.
- Решение: Первым этапом будет решение задачи с MSE в функции потерь с использованием удобного для вас солвера. Основной трудностью может стать большая размерность данных, но они разрежены. Далее можно будет менять формулировку задачи.
- Новизна: Многие модели, используемые для предсказания взаимодействий белков с лигандами, "переобучены" под какую-либо задачу. Например, модели, хорошо предсказывающие энергии связывания, могут плохо выбирать связывающуюся с белком молекулу из множества несвязывающихся, а модели, хорошо определяющие правильную геометрию комплекса, могут плохо предсказывать энергии. В данной задаче предлагается рассмотреть новый подход борьбы с таким переобучением, поскольку сочетание функций потерь классификации и регрессии видится нам очень естественной регуляризацией.
- Авторы: Сергей Грудинин, Мария Кадукова.
Задача 54
- Название: Поиск зрачка на изображении глаза методом проекций яркости.
- Задача: Дано монохромное растровое изображение глаза, см. примеры (https://cloud.mail.ru/public/eaou/4JSamfmrh).
Необходимо определить приблизительные координаты центра зрачка. Слово «приблизительные» означает то, что вычисленный центр зрачка должен лежать внутри окружности с центром в истинном центре зрачка и половинного истинного радиуса. Алгоритм должен быть очень быстрым.
- Данные: около 200 тыс. изображений глаз. При для каждого размечено положение истинной окружности — в целях обучения и проверки создаваемого метода.
- Базовой алгоритм: Для ускорения работы с изображением предлагается агрегирование данных при помощи проекций яркости. Яркость изображения — функция двух дискретных аргументов I(x,y). Её проекция на горизонтальную ось равна P(x)=\sum \limits_y I(x,y). Аналогично строятся проекции на оси с наклоном. Построив несколько проекций (две, четыре), исходя из них, можно попытаться определить положение зрачка (компактной тёмной области) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.
- Литература: Zhi-Hua Zhou, Xin Geng Projection functions for eye detection // Pattern Recognition. 2004. V.37ю N.5. P.1049-1056. https://doi.org/10.1016/j.patcog.2003.09.006
- Авторы: Матвеев И.А.
Задача 55
- Название: Поиск границ радужки методом круговых проекций
- Задача: Дано монохромное растровое изображение глаза, см. примеры (https://cloud.mail.ru/public/2DBu/5c6F6e3LC). Также известно приблизительное положение центра зрачка. Слово «приблизительное» означает то, вычисленный центр зрачка отстоит от истинного не более чем на половину его истинного радиуса. Необходимо определить приблизительные положения окружностей, аппроксимирующих зрачок и радужку. Алгоритм должен быть очень быстрым.
- Данные: около 200 тыс. изображений глаз. При для каждого размечено положение истинной окружности — в целях обучения и проверки создаваемого метода.
- Базовой алгоритм: Для ускорения работы с изображением предлагается агрегирование данных при помощи круговых проекций яркости. Круговая проекция — функция, зависящая от радиуса, значение которой P(r) равно интегралу направленного градиента яркости изображения по окружности радиуса r (или по дуге окружности). Пример для одной дуги (правой четверти) и для четырёх дуг. Построив сколько-то круговых проекций, исходя из них, можно попытаться определить положение внутренней и внешней границ радужки (кольца) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.
- Литература: Matveev I.A. Detection of Iris in Image By Interrelated Maxima of Brightness Gradient Projections // Applied and Computational Mathematics. 2010. V.9. N.2. P.252-257. https://www.researchgate.net/publication/228396639_Detection_of_iris_in_image_by_interrelated_maxima_of_brightness_gradient_projections
- Авторы: Матвеев И.А.
Задача 56
- Название: Построение локальных и универсальных интерпретируемых скоринговых моделей
- Задача: Построить простую и интерпретируемую скоринговую систему как суперпозицию локальных моделей с учетом требованиям к системе сохранять знания об опорных клиентах и признаках (другими словами, учитывать новые экономические явления). Модель должна являться суперпозицией, причем каждый элемент должен управляться своим критерием качества. Ввести расписание оптимизации структуры и параметров модели: система должна работать в единой оптимизационной цепочке. Предложить алгоритм для отбора признаков и объектов.
- Данные:
- Данные от ОТП Банка. Выборка содержит записи о 15 223 клиентов, классифицированных на два класса: 1 — отклик был (1812 клиентов), 0 — отклика не было (13411 клиентов). Признаковые описания клиентов состоят из 50 признаков, в состав которых входит, в частности, возраст, пол, социальный статус относительно работы, социальный статус относительно пенсии, количество детей, количество иждивенцев, образование, семейное положение, отрасль работы. Данные доступны по следующим адресам: www.machinelearning.ru/wiki/images/2/26/Contest_MMRO15_OTP.rar (выборка А), www.machinelearning.ru/wiki/images/5/52/Contest_MMRO15_OTP_(validation).rar (выборка Б).
- Данные от Home Credit: https://www.kaggle.com/c/home-credit-default-risk/data
- Литература:
- Strijov V.V. Error function in regression analysis // Factory Laboratory, 2013, 79(5) : 65-73
- Bishop C. M. Linear models for classification / В кн.: Pattern Recognition and Machine Learning. Под ред.: M. Jordan, J. Kleinberg, B. Scholkopf. – New York: Springer Science+Business Media, 2006, pp--203 – 208
- Токмакова А.А. Получение устойчивых оценок гиперпараметров линейных регрессионных моделей // Машинное обучение и анализ данных. — 2011. — № 2. — С. 140-155
- S. Scitovski and N. Sarlija. Cluster analysis in retail segmentation for credit scoring // CRORR 5. 2014. 235–245
- Гончаров А. В. Построение интерпретируемых моделей глубокого обучения в задаче социального ранжирования
- Базовой алгоритм: Итерационный взвешенный МНК (описан в (2))
- Решение: Предлагается построить скоринговую систему, содержащий такой блок предобработки, как блок порождения метрических признаков. Предлагается исследовать влияние неравноценности объектов на отбор признаков для модели, исследовать совместный отбор признаков и объектов при построении модели. Требуется реализовать расписание оптимизации структуры модели с использованием алгоритма, основанного на анализе ковариационных матриц гиперпараметров модели. Расписание включает поэтапное пополнение набора признаков и объектов. Объем выборки признаков будет определяться путем контроля дисперсии ошибки. Основной критерий качества системы: ROC AUC (Gini).
- Новизна:
- Расписание оптимизации структуры модели должно удовлетворять требованию перестраивать модель в любое время, не теряя ее характеристик.
- Учет неравноценности объектов при отборе признаков
- Авторы: Пугаева И. В. (консультант), Стрижов В. В. (эксперт)
Задача 44+
- Название: Ранее прогнозирование достаточного объема выборки для обобщенно линейной модели.
- Задача: Исследуется проблема планирования эксперимента. Решается задача оценивания достаточного объема выборки по данным. Предполагается, что выборка является простой. Она описывается адекватной моделью. Иначе, выборка порождается фиксированной вероятностной моделью из известного класса моделей. Объем выборки считается достаточным, если модель восстанавливается с достаточной достоверностью. Требуется, зная модель, оценить достаточный объем выборки на ранних этапах сбора данных.
- Цель: на малой простой iid выборке спрогнозировать ошибку на пополняемой большой. Прогностическая модель гладкая монотонная в двух производных. Выбор модели полный перебор или генетика. Модель зависит от редуцированной (исследовать) матрицы ковариации параметров GLM.
- Данные: Для вычислительного эксперимента предлагается использовать классические выборки из UCI репозитория. Ссылка на выборки https://github.com/ttgadaev/SampleSizeEstimation/tree/master/datasets
- Литература:
Bishop, C. 2006. Pattern Recognition and Machine Learning. Berlin: Springer. 758 p.
- Базовый алгоритм: Будем говорить, что объем выборки достаточный, если логарифм правдоподобия имеет малую дисперсию, на подборке размера m, посчитанную при помощи бутстрепа.
Пытаемся аппроксимировать зависимость среднего значения log-likelihood и его дисперсии от размера выборки.
- Решение: Методы описанные в обзоре являются асимптотическими или же требуют заведомо большого размера выборки. Новый метод должен заключаться в том, чтобы прогнозировать объем на начальных этапах планирования эксперимента, то есть когда данных мало.
- Авторы: Малиновский Г. (консультант), Стрижов В. В. (эксперт)
Задача 59
- Название: Распределенная оптимизация в условиях Поляка-Лоясиевича
- Задача: Ставится задача эффективного решения больших систем нелинейных уравнений, используя сеть вычислителей.
- Решение: Предлагается новый метод децентрализованного распределенного решения систем нелинейных уравнений в условиях Поляка-Лоясиевича. Подход основан на том, что задачу распределенной оптимизации можно представить в виде задачи композитной оптимизации (см. 2 из литературы), которую в свою очередь можно решать аналогами метода подобных треугольников или слайдинга (см. 2 из литературы).
- Базовый алгоритм: предложенный метод сравнивается с градиентным спуском и ускоренным градиентным спуском
- Литература:
- Linear Convergence of Gradient and Proximal-GradientMethods Under the Polyak- Lojasiewicz Condition https://arxiv.org/pdf/1608.04636.pdf
- Linear Convergence for Distributed Optimization Under the Polyak-Łojasiewicz Condition https://arxiv.org/pdf/1912.12110.pdf
- Optimal Decentralized Distributed Algorithms for Stochastic ConvexOptimization https://arxiv.org/pdf/1911.07363.pdf
- Современные численные методы оптимизации, метод универсального градиентного спуска https://arxiv.org/ftp/arxiv/papers/1711/1711.00394.pdf
- Новизна: сведение задачи распределенной оптимизации к задаче композитной оптимизации и ее решение в условиях Поляка-Лоясиевича
- Авторы: эксперт — А.В. Гасников, консультант — А.Н. Безносиков
- Комментарий: важно в этой задаче поставить вычислительный эксперимент, иначе задача будет плохо совместима с курсом.
Задача 12
- Название: Обучение машинного перевода без параллельных текстов.
- Задача: Рассматривается задача построения модели перевода текста без использования параллельных текстов, т.е. пар одинаковых предложений на разных языках. Данная задача возникает при построении моделей перевода для низкоресурсных языков (т.е. языков, для которых данных в открытом доступе немного).
- Данные: Выборка статей из Wikipedia на двух языках.
- Литература:
- Базовый алгоритм: Unsupervised Machine Translation Using Monolingual Corpora Only.
- Решение: В качестве модели перевода предлагается рассмотреть кобминацию двух автокодировщиков, каждый из которых отвечает за представление предложений на одном из языков. Оптимизация моделей проводится таким образом, чтобы скрытые пространства автокодировщиков для разных языков совпадали. В качестве исходного представления предложений предлагается рассматривать их графовое описание, получаемое с использованием мультиязычных онтологий.
- Новизна: Предложен способ построения модели перевода с учетом графовых описаний предложений.
- Авторы: О.Ю. Бахтеев, В.В. Стрижов,
Задача 17
- Название: Прогнозирование намерений. Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга
- Задача: При построении систем нейрокомпьютерного интерфейса (brain-computer interface) используются простые, устойчивые модели. Важным этапом построения такой модели является построение адекватного признакового пространства. Ранее такая задача решалась с помощью выделения признаков из частотных характеристик сигналов.
- Данные: Наборы данных сигналов мозга ECoG/EEG.
- Литература:
- Motrenko A.P., Strijov V.V. Multi-way feature selection for ECoG-based brain-computer Interface // Expert systems with applications. - 2018.
- Eliseyev A., Aksenova T. Stable and artifact-resistant decoding of 3D hand trajectories from ECoG signals using the generalized additive model //Journal of neural engineering. – 2014.
- Базовый алгоритм: Сравнение предлагается производить с алгоритмом частных наименьших квадратов (partial least squares).
- Решение: В данном работе предлагается учесть пространственную зависимость между сенсорами, которые считывают данные. Для этого необходимо локально смоделировать пространственный импульс/сигнал и построить прогностическую модель на основе локального описания.
- Новизна: Предлагается существенно новый способ построения признакового описания в задаче декодирования сигналов. Бонус: анализ изменения структуры модели, адаптация структуры при изменении выборки.
- Авторы: В.В. Стрижов, Роман Исаченко - эксперты, консультанты – Валерий Маркин, Алина Самохина
Задача 9
- Название: Распознавание текста на основе скелетного представления толстых линий и сверточных сетей
- Задача: Требуется построить две CNN, одна распознает растровое представление изображения, другая векторное.
- Данные: Шрифты в растровом представлении.
- Литература: Список работ [42], в частности arXiv:1611.03199 и
- Goyal P., Ferrara E. Graph embedding techniques, applications, and performance: A survey. arXiv:1705.02801, 2017.
- Cai H., Zheng V.W., Chang K.C.-C. A comprehensive survey of graph embedding: Problems, techniques and applications. arXiv:1709.07604, 2017.
- Grover A., Leskovec J. node2vec: Scalable Feature Learning for Networks. arXiv:1607.00653, 2016.
- Mestetskiy L., Semenov A. Binary Image Skeleton - Continuous Approach // Proceedings 3rd International Conference on Computer Vision Theory and Applications, VISAPP 2008. P. 251-258. URL
- Кушнир О.А., Середин О.С., Степанов А.В. Экспериментальное исследование параметров регуляризации и аппроксимации скелетных графов бинарных изображений // Машинное обучение и анализ данных. 2014. Т. 1. № 7. С. 817-827. URL
- Жукова К.В., Рейер И.А. Связность базового скелета и параметрический дескриптор формы // Машинное обучение и анализ данных. 2014. Т. 1. № 10. С. 1354-1368. URL
- Kushnir O., Seredin O. Shape Matching Based on Skeletonization and Alignment of Primitive Chains // Communications in Computer and Information Science. 2015. V. 542. P. 123-136. URL
- Базовый алгоритм: Сверточная сеть для растрового изображения.
- Решение: Требуется предложить способ свертывания графовых структур, позволяющий породить информативное описание скелета толстой линии.
- Новизна: Предложен способ повышения качества распознавания толстых линий за счет нового способа порождения их описаний.
- Авторы: эксперты И.А. Рейер, В.В. Стрижов, Марк Потанин, консультант Денис Ожерелков
Задача 8
- Название: Порождение признаков с помощью локально-аппроксимирующих моделей (Классификация видов деятельности человека по измерениям фитнес-браслетов).
- Задача: Требуется проверить выполнимость гипотезы о простоте выборки для порожденных признаков. Признаки - оптимальные параметры аппроксимирующих моделей. При этом вся выборка не является простой и требует смеси моделей для ее аппроксимации. Исследовать информативность порожденных признаков - параметров аппроксимирующих моделей, обученных на сегментах исходного временного ряда. По измерениям акселерометра и гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. Характерная продолжительность движения – секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности – минуты. Требуется по описанию временного ряда и кластера восстановить вид деятельности.
- Данные: Временные ряды акселерометра WISDM (Временной ряд (библиотека примеров), раздел Accelerometry).
- WISDM (Kwapisz, J.R., G.M. Weiss, and S.A. Moore. 2011. Activity recognition using cell phone accelerometers. ACM SigKDD Explorations Newsletter. 12(2):74–82.), USC-HAD или сложнее. Данные акселерометра (Human activity recognition using smart phone embedded sensors: A Linear Dynamical Systems method, W Wang, H Liu, L Yu, F Sun - Neural Networks (IJCNN), 2014)
- Литература:
- Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. URL
- Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016.URL
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. URL
- Исаченко Р.В., Стрижов В.В. Метрическое обучение в задачах многоклассовой классификации временных рядов // Информатика и ее применения, 2016, 10(2) : 48-57. URL
- Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. URL
- Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. URL
- Базовый алгоритм: Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] и [Кузнецов, Ивкин: 2014].
- Решение: Требуется построить набор локально-аппроксимирующих моделей и выбрать наиболее адекватные. Найти оптимальный способ сегментации и оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
- Новизна: Создан стандарт построения локально-аппроксимирующих моделей. Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.
- Авторы: В.В. Стрижов (эксперт), Александра Гальцева, Данил Сайранов (консультанты)
Задача 60
- Название: Вариационная оптимизация моделей глубокого обучения с контролем сложности модели
- Задача: рассматривается задача оптимизации модели глубокого обучения с заранее заданной сложностью модели. Требуется предложить метод оптимизации модели, позволяющий производить порождение новых моделей с заданной сложностью и небольшими вычислительными затратами.
- Данные:MNIST, CIFAR
- Литература:
- [1] вариационный вывод для нейронных сетей https://papers.nips.cc/paper/4329-practical-variational-inference-for-neural-networks.pdf
- [2] гиперсети https://arxiv.org/abs/1609.09106
- [3] фабрики сетей https://papers.nips.cc/paper/6304-convolutional-neural-fabrics.pdf
- Базовый алгоритм: случайный поиск
- Решение: Предлагаемый метод заключается в представлении модели глубокого обучения в виде гиперсети (сети, которая генерирует параметры другой сети) с использованием байесовского подхода. Вводятся вероятностные предположения о параметрах моделей глубокого обучения, максимизируется вариационная нижняя оценка байесовской обоснованности модели. Вариационная оценка рассматривается как условная величина, зависящая от внешнего параметра сложности.
- Новизна: предложенный метод позволяет порождать модели в режиме one-shot (практически без переподготовки) с требуемой сложностью модели, что значительно снижает затраты на оптимизацию и дообучение.
- Авторы: О.Ю. Бахтеев, В.В. Стрижов
Задача 61
- Название: Выбор модели глубокого обучения на основе триплетной связи модели и выборки
- Задача: рассматривается задача one-shot выбора модели глубокого обучения: выбор модели под конкретную выборку, выданную из некоторой генеральной совокупнсоти, не должен быть вычислительно затратным.
- Данные:MNIST, синтетические данные
- Литература:
- [1] обучение предсказаний модели на парах <выборка, модель> https://www.ri.cmu.edu/pub_files/2016/10/yuxiongw_eccv16_learntolearn.pdf
- [2] байесовский выбор для двух доменов https://arxiv.org/abs/1806.08672
- Базовый алгоритм: случайный поиск
- Решение: Предлагается рассматривать пространство параметров и моделей как два домена со своими генеративными моделями. Для получения связзи между доменами используется обобщение вариационного вывода на случай триплетных ограничений.
- Новизна: Новый метод one-shot обучения моделей
- Авторы: О.Ю. Бахтеев, В.В. Стрижов
Задача 62
- Название: Построение метода динамического выравнивания многомерных временных рядов, устойчивого к локальным колебаниям сигнала.
- Задача: В процессе работы с многомерными временными рядами распространена ситуация близкого расположения датчиков, соответствующих различным каналам измерений. В результате малые смещения сигнала в пространстве могут приводить к фиксации пика сигнала соседними датчиками, что ведет к значительным различиям измерений в смысле L2 расстояния.
Таким образом, малые смещения сигнала приводят к появлению значительных флуктуаций показаний датчиков. Рассматривается задача построения функции расстояния между точками временных рядов, устойчивой к шуму, порожденному малыми пространственными смещениями сигнала. Необходимо рассмотреть задачу в приближении наличия карты расположения датчиков. - Данные:
- Измерения активность мозга обезьян
- Искусственно созданные данные (надо предложить несколько вариантов, например: движение сигнала в пространстве по часовой и против часовой стрелки)
- Литература:
- Базовый алгоритм: L2 расстояние между парой измерений.
- Решение: использовать функцию расстояния DTW между двумя многомерными временными рядами. Выравниваются две оси времени, при этом внутри функционала DTW выбирается расстояние между i-м и j-м измерениями такое, что оно устойчиво к локальным “сдвигам” сигнала. Требуется предложить такой функционал. Базовое решение - L2, улучшенное решение - DTW между i-м и j-м измерениями (dtw внутри dtw).
Можно предложить какую-либо модификацию, например расстояния между скрытыми слоями автоэнкодера для точек i и j. - Новизна: Предлагается способ выравнивания многомерных временных рядов, учитывающий малые колебания сигнала в пространстве.
- Авторы: В.В. Стрижов - эксперт, Глеб Моргачев, Алексей Гончаров - консультанты.
Задача 63
- Название: Иерархическое выравнивание временных последовательностей.
- Задача: Рассматривается задача выравнивания последовательностей сложных событий. Примером может служить сложносоставное поведение человека: при рассмотрении данных IMU-датчиков можно выдвинуть гипотезу: есть исходный сигнал, есть агрегаты “элементарных действий” и есть агрегаты “действий” человека. Каждый из указанных уровней абстракции можно выделить и оперировать именно им.
Для того, чтобы проводить точное распознавание последовательности действий возможно применять метрические методы (например DTW, как способ, устойчивый к временным сдвигам). Для более точного качества выравнивания временной шкалы возможно проводить выравнивание на разных уровнях абстракций.
Предлагается исследовать такой иерархический подход к выравниванию последовательностей, основанный на возможности применения алгоритмов выравнивания к объектам разной структуры, имея функцию расстояние на них. - Литература:
- Обзорная презентация о DTW
- DTW-based kernel and rank-level fusion for 3D gait recognition using Kinect Multi-Dimensional Dynamic Time Warping for Gesture Recognition
- Time Series Similarity Measure via Siamese Convolutional Neural Network
- Multiple Multidimensional Sequence Alignment Using Generalized Dynamic Time Warping
- Базовый алгоритм: классический DTW.
- Решение: Предлагается выполнять переход от одного уровня абстракции к другому путем применения сверточных и рекуррентных нейронных сетей. Тогда объектом на нижнем уровне абстракции служит исходный сигнал. На втором уровне - сигнал из скрытого слоя модели (построенной на объектах нижнего уровня), размерность которого много меньше, а верхнего слоя - сигнал из скрытого слоя модели (построенной на объектах среднего уровня).
При этом DTW вычисляется отдельно между нижними, между средними и между верхними уровнями, но формирование объектов для расчета расстояния осуществляется с учетом выравнивающего пути между объектами предыдущего уровня.
Данный метод рассматривается как способ повышения интерпретируемости процедуры выравнивания и точности классификации действия в связи с переходом к более высокоуровневым паттернам. Кроме того, ожидается существенное увеличение скорости работы. - Новизна: Предлагается идея выравнивания временных последовательностей одновременно на нескольких уровнях абстракции. Метод должен существенно улучшить интерпретируемость алгоритмов выравнивания и повысить скорость их работы.
- Авторы: В.В. Стрижов - эксперт, Глеб Моргачев, Алексей Гончаров - консультанты.
Задача 64
- Название: Теоретическая обоснованность применения метрических методов классификации с использованием динамического выравнивания (DTW) к пространственно-временным объектам.
- Задача: Необходимо изучить существующие теоретические обоснования применения методов динамического выравнивания для различных объектов, и исследовать использование таких методов к пространственно-временным рядам.
При доказательстве применимости методов выравнивания доказывают, что функция, порождаемая алгоритмом динамического выравнивания является ядром. Что, в свою очередь, обосновывает применение метрических методов классификации. - Литература:
- Решение: Для различных формулировок метода DTW (когда внутренняя функция расстояния между отсчетами временных рядов - различна) - найти и собрать в одном месте доказательства того, что функция является ядром.
Для базового набора датасетов со временными рядами (на которых проверяется точность функций расстояния) проверить выполнение условий из теоремы Мерсера (положительная определенность матрицы). Проделать это для различных модификаций функции расстояния DTW. (Sakoe-Chiba band, Itakura band, weighted DTW.) - Новизна: Исследование теоретических обоснований применения алгоритма динамического выравнивания (DTW) и его модификаций к пространственно-временным рядам.
- Авторы: В.В. Стрижов - эксперт, Глеб Моргачев, Алексей Гончаров - консультанты.
Задача 66
- Название: Agnostic neural networks
- Задача: Ввести метрическое пространство в задачу автоматического построения (выбора) агностических сетей.
- Данные: Данные из области Reinforcement learning. Желательно типа машинок на трассе.
- Литература:
- (!) Kulunchakov A.S., Strijov V.V. Generation of simple structured Information Retrieval functions by genetic algorithm without stagnation // Expert Systems with Applications, 2017, 85 : 221—230.
- А. А. Варфоломеева Выбор признаков при разметке библиографических списков методами структурного обучения, 2013, [43]
- Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [44]
- https://habr.com/ru/post/465369/
- https://weightagnostic.github.io/
- Базовой алгоритм: Сети из статьи в архиве. Символьная регрессия из статьи в ESwA (надо восстановить код).
- Решение: Создаем генератор моделей в рамках символьной регрессии. Создаем генератор моделей как вариационный автоэнкодер (не успеем в течение курса). Изучаем метрические свойства пространств выборки (евклидово) и моделей (банахово). Создаем пару GAN - генератор-дискриминатор для прогнозирования структур прогностических моделей.
- Новизна: Пока ни у кого не получалось. Тут обсуждали Томми Яакколу, как он к нам в Яндекc приезжал. У него тоже пока не получилось.
- Авторы: эксперт В.В. Стрижов, Радослав Нейчев - консультант
Задача 13
- Название: Deep learning for RNA secondary structure prediction
- Задача: RNA secondary structure is an important feature which defines RNA functional properties. Its importance can be illustrated by the fact, that it is evolutionary preserved and some types of functional RNAs always * have the same secondary structure, for example all tRNAs fold into cloverleaf. As secondary structure often defines functions, knowing RNAs secondary structure may help investigate functions of novel RNA molecules. RNA folding is not as easy as DNA folding, because RNA is single stranded molecule which forms complicated base-pairing interactions, while DNA mostly exists as fully base paired double helices. Current methods of RNA structure prediction rely on experimentally evaluated thermodynamic rules, but with thermodynamics alone only 80% of structures can be accurately predicted. We propose an AI-driven method for predicting RNA secondary structure inspired by neural machine translation model.
- Данные: RNA sequences in form of strings of characters
- Литература: https://arxiv.org/abs/1609.08144
- Базовой алгоритм: https://www.ncbi.nlm.nih.gov/pubmed/16873527
- Решение: Deep learning recurrent encoder-decoder model with attention
- Новизна: Currently RNA secondary structure prediction still remains unsolved problem and to the best of our knowledge DL approach has never been introduced in the literature before
- Авторы: консультант Мария Попова, Александр Исаев (ждем от них отклика, без отклика задача снимается)
Задача 65
- Название: Аппроксимация выборок малой размерности разнородными моделями
- Задача: Исследуется проблема передачи знаний (дистилляция Хинтона, привилегированное обучение Вапника) от одной сети другой.
- Данные: Выбоки UCI, посмотреть, какие выборки используются в работах по этой теме
- Литература:
- Дипом Нейчева Информативные априорные предположения в задаче привилегированного обучения, презентация
- Работы Hinton Knowledge distilling, обращать внимание на функции ошибки
- Базовой алгоритм: описан в работе Нейчева
- Новизна: Исследование различных способов построения выборки
- Решение: попробовать различные модели, которые есть в лекциях, от непараметрических, до глубоких, сравнить и визуализировать функции правдоподобия
- Авторы: консультанты Марк Потанин, (попросить помощи у Андрея Грабового) В.В. Стрижов
Задача 67
- Название: Отбор тем в тематических моделях для разведочного информационного поиска.
- Задача: Проверить гипотезу, что при поиске схожих документов по их тематическим векторам не все темы информативны, поэтому отбрасывание некоторых тем может повышать точность и полноту поиска. Рассмотреть альтернативную гипотезу, что вместо отбрасывания тем можно сравнивать векторы по взвешенной косинусной мере близости с настраиваемыми весами.
- Данные: Текстовые коллекции сайтов habr.com и techcrunch.com. Размеченные выборки: запросы и релевантные им документы.
- Литература:
- Воронцов К. В. Вероятностное тематическое моделирование: обзор моделей и аддитивная регуляризация.
- Ianina A., Vorontsov K. Regularized Multimodal Hierarchical Topic Model for Document-by-Document Exploratory Search // FRUCT ISMW, 2019.
- Базовой алгоритм: тематическая модель с регуляризаторами и модальностями, описанная в статье (имеется исходный код).
- Новизна: Вопрос об информативности тем для векторного поиска тематически близких документов ранее не исследовался.
- Решение: Оценить индивидуальную информативность тем, выкидывая их по одной; затем отсортировать темы по индивидуальной информативности и определить порог отсечения неинформативных тем. Наводящее соображение, почему это должно работать: фоновые темы не являются информативными, и их отбрасывание увеличивает точность и полноту поиска на несколько процентов.
- Авторы: К.В.Воронцов, консультант Анастасия Янина.
Задача 68
- Название: Метаобучение тематических моделей классификации.
- Задача: Выработать универсальные эвристики для априорного задания весов модальностей в тематических моделях классификации текстов.
- Данные: Описание датасетов, Папка с датасетами.
- Литература:
- Базовой алгоритм: Тематические модели классификации для нескольких датасетов.
- Новизна: В тематическом моделировании до сих пор не решена проблема автоматического подбора весов модальностей.
- Решение: Оптимизировать веса модальностей по критерию качества классификации текстов. Исследовать зависимость оптимальных относительных весов модальностей от размерных характеристик задачи. Найти формулы для оценивания начальных значений весов модальностей без явного решения задачи. Для размножения датасетов применить семплирование фрагментов исходных документов.
- Авторы: К.В.Воронцов, консультант Юлиан Сердюк.
Задача 69
- «Название»: Graph Neural Network in Reaction Yield prediction
- «Задача»: There are disconnected graphs of source molecules and products in a chemical reaction. The yield of the main product in the reaction is known. It is required to design an algorithm that predicts yield by solving the regression task on given disconnected graphs.
- «Данные»: Database of reaction from US patents [45]
- Литература:
- «Базовый алгоритм»: Transformer model. The input sequence is a SMILES representation of the source and product molecules.
- «Решение»: A pipeline for working with disconnected graphs is proposed. The pipeline includes the construction of extended graph with molecule and reaction representation, Relational Graph Convolution Neural Network, Encoder of Transformer. The method is applied to solve yield predictions.
- «Новизна» A solution for regression problem on the given disconnected graph is constructed; the approach demonstrates better performance compared with other solutions
- «Авторы»: Nikitin Filipp, Isayev Olexandr
Задача 70
- Название: Исследование структуры целевого пространства при построении предсказательной модели
- Задача: Исследуется задача прогнозирования сложной целевой переменной. Под сложностью подразумевается наличие зависимостей (линейных или нелинейных). При этом предполагается, что исходные данные гетерогенны: пространства независимой и целевой переменных имеют разную природу. Требуется построить предсказательную модель, которая бы учитывала зависимость в исходном пространстве независимой переменной, а также в пространстве целевой переменной.
- Данные: Гетерогенные данные: картинка - текст, картинка - речь и тд
- Базовой алгоритм: В качестве базовых алгоритмов предлагается использовать линейную модель, а также нелинейную нейросетевую модель.
- Авторы: В.В. Стрижов - эксперт, консультант: Исаченко Роман.
Задача 71
- Название: Исследование способов согласования моделей с помощью снижения размерности пространства
- Задача: Исследуется задача прогнозирования сложной целевой переменной. Под сложностью подразумевается наличие зависимостей (линейных или нелинейных). Предлагается изучить способы учета зависимостей в пространстве целевой переменной, а также условия, при которых данные зависимости влияют на качестве финальной предсказательной модели
- Данные: Синтетические данные с известной гипотезой порождения данных
- Базовой алгоритм: В качестве базовых алгоритмов предлагается использовать методы снижения размерности пространства (PCA, PLS, автоэнкодер) и линейные модели согласования.
- Авторы: В.В. Стрижов - эксперт, консультант: Исаченко Роман.
Задача 72
- Название: Построение единого скрытого пространства в задаче моделирования гетерогенных данных
- Задача: Исследуется задача прогнозирования сложной целевой переменной. Под сложностью подразумевается наличие зависимостей (линейных или нелинейных). Предлагается построить единое скрытое пространство для независимой и целевой переменных. Согласование моделей предлагается производить в полученном низкоразмерном пространстве.
- Данные: Гетерогенные данные: картинка - текст, картинка - речь, текст - текст и тд
- Базовой алгоритм: В качестве базовых алгоритмов предлагается использовать методы снижения размерности пространства (PCA, PLS, автоэнкодер) и линейные модели согласования.
- Авторы: В.В. Стрижов - эксперт, консультант: Исаченко Роман.
Задача 73
- Название: Нелинейное ранжирование результатов разведочного информационного поиска.
- Задача: Разработать алгоритм для рекомендации порядка чтения документов (reading order, reading list), найденных с помощью разведочного информационного поиска. Документы должны ранжироваться от простого к сложному, от общего к частному, то есть в том порядке, в котором пользователю будет легче разбираться в новой для него тематической области. Алгоритм должен строить граф чтения — отношение частичного порядка на множестве найденных документов; в частности, это может быть совокупность деревьев (лес документов).
- Данные: Часть Википедии и эталонный граф чтения, получаемый из категорий Википедии.
- Литература:
- Воронцов К. В. Вероятностное тематическое моделирование: обзор моделей и аддитивная регуляризация.
- Georgia Koutrika, Lei Liu, and Steven Simske. Generating reading orders over document collections. HP Laboratories, 2014.
- James G. Jardine. Automatically generating reading lists. Cambridge, 2014.
- Базовой алгоритм: описан в статье G.Koutrika.
- Новизна: Задача мало исследовалась в литературе. Регуляризованные мультимодальные тематические модели (ARTM, BigARTM) никогда не применялись к данной задаче.
- Решение: Использование тематических моделей ARTM совместно с оценками когнитивной сложности текста.
- Авторы: К.В.Воронцов, консультант Максим Еремеев.